加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 站长资讯 > 动态 > 正文

增强现实的权力江湖

发布时间:2016-01-28 10:42:25 所属栏目:动态 来源:雷锋网
导读:增强现实的发展很像早期的互联网,也面临着相同的问题和陷阱。

作为最近的例子,Google发布了Cloud Vision API,使用机器学习的方法进行图像识别。这很像Google Goggles 过去做的,给实际的图像添加标签,给地图添加坐标,进行人脸识别和OCR。给这些识别进行堆栈,并且配对置信分数,通过Rest API 得到反馈。通过这项服务,开发人员可以利用Google 的能力以确定内容图像。我们可以看到图像识别的能力还会进一步扩大,随着系统给更多的具体物品建立标签,甚至对世界的名字进行链接的分类,例如把WordNet 和ImageNet 联系起来。

不管执行情况怎样,我们做出一个关键的决策:下一步会发生什么?当系统识别出可口可乐的存在后,会展现出什么?请记住,未来这些系统已经得到普遍和广泛的使用,难道不应该发生些事情吗?

增强现实的权力江湖

可口可乐的广告,一下子就显得有生命起来了。可能是一段AR 的效果展现在可乐瓶上面,或者一群美丽的家人,以3D 的形式聚集起来,拿着自己的可乐瓶向你致敬?或者百事可乐的广告在前面出现,遮挡住可口可乐的品牌?

对我来说,可以运行一个AR 广告屏蔽的插件吗?或者购买服务,以减少程序的赞助商内容?当我访问时代广场并且抬头看到三星的广告牌,我能看到一个“真的”广告牌吗?

增强现实的权力江湖

那么,你周围人的脸呢?你从屏幕上阅读的文字?公寓里的墙壁?你都能得到图片。

问题的复杂性在于,一个弹出的画面可能会不安全。假如说我在驾驶公交车,那么这些事情的解释就不是文字那么简单。这些复杂的因素会对我们的行为影响很大。

问题在于我们拥有的语义学上,或者在更大的意义上说,网络符号学。让系统识别符号看起来有点琐碎,相比于一些更复杂的问题,例如涉及到环境中物体的意义,这背后还有知识产权的问题。

而当所有权和网络空间的知识产权结合在一起,这里面的问题就远多于其他方面。这会逐渐变得Ugly。

| 话语权的问题

对于那些关注者来说,这个问题可能听起来很熟悉。DNS的基础是广泛采用的协议,它由非政府组织ICANN 管理,这是总部设在美国的非盈利组织。它具有对URL 语义专属的解释权,而且也对应到互联网协议的空间。它没有什么排他性,这成为了互联网的基础,创造了通用文本的白皮书,由于它和现实情况关于商标、产权等案例的相似性,互联网协议能够根据它解决问题。

不过我不相信,这些涉及到商标、知识产区和隐私纠纷的事会很容易扩展到VR 的领域。

关于所有权的话语权问题,正如很多东西一样,背后都有一些共同的利益,通过主导和游说律师,最终落在了私人手里。我不需要对此过多解释,但这不是最好的结果。不过为了使可能性成为可能,系统需要设计为依赖于有话语权的中央权威,而背后有利润的动机。

没有发生和DNS 相似的事情,因为还没有人意识到坐在ICANN 的位置上会带来多少价值,直到已经为时尚晚。这并不意味着这不会发生,有一个猜测是,微软在生产AR 硬件的兴趣上,其利润可能不局限于设备本身。这不是他们玩的游戏。他们和Magic Leap 希望拥有自己的传输管道,所有东西从生产到内容到分发,都通过这里进行。你也可以对Google 最新的CV 服务做类似的假设。

这给我们带来了技术背后的支撑,不依赖于文本、传感器驱动、上下文感知、总是运行的消费者端AR 系统,这些问题的解决是非常重要的,最早这么做的也许能获得那个圣杯。

| 没有键盘的操作系统

正如Google 演示的一样,能够运行各种随意代码的浏览器,和操作系统的区别是不多的。就像一些操作系统需要使用Windows 管理来保证GUIs 运行的不错,我们的AR 系统也在确保内容以一种好的方式来展现,考虑到我们的喜好以及大脑传感器的带宽。

例如说,你对于边开车边听纽约时报表示完全的舒适,甚至在你视野的角落上,有一个小的视频聊天窗口也可以。但当你在高速公路疾驰的时候,你完全不想要更多的东西。相反,当你在家里的时候,你也许会愿意接受更为沉浸式的体验,但你也不会希望窗口弹出:你的煤气账单该交了。

在一个用户定义的背景下,这有点像今天智能手机里的权限(Permissions)。我们可以给特定的应用程序访问我们的注意力的权限,而我们的屏幕也会在特定的情况下弹出提醒。这是一个开始,尤其是一些浏览器自己能提供通知和权限设置,这也是通常操作系统的功能。

先不管输出的问题,操作系统的任务如何接收传感器的输入和上下文信息?别忘了我们没有键盘和鼠标,我们都是通过自己对世界的感知,来驱动这个系统。

| 两种途径

正如我们常年期望电影CGI 的智能能够超越实时系统能提供的,它将持续超越用户端系统的能力,以掌握视觉处理和任务搜索,以感知周围的世界,满足我们对速度、正确率和带宽不断增长的期待。

这意味着我们的设备会部署在一个低延迟、高带宽的连接上。他们会通过刺激和上下文的理解,对用户的状态、联系人、历史、喜好和习惯进行反应,就像当下设备和互联网做的那样。

由于这些限制,到目前为止,所有潜在的方法都是相同的。在返回结果的性质上,可能会出现问题,而问题的核心在于所有权和利润的动机。

在AR 生态系统里,识别服务是由一个非盈利或其他中立的实体组织提供,服务器会不断吸收这些信息流,并且从提供的零散联结刺激中进行推断。

这是一辆自行车。那是124鹰街。那是你的朋友Willy。那是西方。这是一辆卡车。那是街。这是石头。这是一个交通灯,它是绿色的。

这些离散标记的集合,会通过管道返回到硬件里,作为对世界的标记,然后准备好在用户的应用程序里得到解释。

这意味着刺激的识别以及增强现实解释,通过用户端的代码可以持续的作用,就像现在互联网做的一样。在一个物理分布式的网络中,相同的组织会被某些广泛联系、同意授权的DNS 控制。关键是,这意味着识别和解释的任务,是被分离的。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读