增强现实的权力江湖

发布时间：2016-01-28 10:42:25 所属栏目：动态来源：雷锋网

导读：增强现实的发展很像早期的互联网，也面临着相同的问题和陷阱。

作为最近的例子，Google发布了Cloud Vision API，使用机器学习的方法进行图像识别。这很像Google Goggles 过去做的，给实际的图像添加标签，给地图添加坐标，进行人脸识别和OCR。给这些识别进行堆栈，并且配对置信分数，通过Rest API 得到反馈。通过这项服务，开发人员可以利用Google 的能力以确定内容图像。我们可以看到图像识别的能力还会进一步扩大，随着系统给更多的具体物品建立标签，甚至对世界的名字进行链接的分类，例如把WordNet 和ImageNet 联系起来。

不管执行情况怎样，我们做出一个关键的决策：下一步会发生什么？当系统识别出可口可乐的存在后，会展现出什么？请记住，未来这些系统已经得到普遍和广泛的使用，难道不应该发生些事情吗？

增强现实的权力江湖

可口可乐的广告，一下子就显得有生命起来了。可能是一段AR 的效果展现在可乐瓶上面，或者一群美丽的家人，以3D 的形式聚集起来，拿着自己的可乐瓶向你致敬？或者百事可乐的广告在前面出现，遮挡住可口可乐的品牌？

对我来说，可以运行一个AR 广告屏蔽的插件吗？或者购买服务，以减少程序的赞助商内容？当我访问时代广场并且抬头看到三星的广告牌，我能看到一个“真的”广告牌吗？

增强现实的权力江湖

那么，你周围人的脸呢？你从屏幕上阅读的文字？公寓里的墙壁？你都能得到图片。

问题的复杂性在于，一个弹出的画面可能会不安全。假如说我在驾驶公交车，那么这些事情的解释就不是文字那么简单。这些复杂的因素会对我们的行为影响很大。

问题在于我们拥有的语义学上，或者在更大的意义上说，网络符号学。让系统识别符号看起来有点琐碎，相比于一些更复杂的问题，例如涉及到环境中物体的意义，这背后还有知识产权的问题。

而当所有权和网络空间的知识产权结合在一起，这里面的问题就远多于其他方面。这会逐渐变得Ugly。

| 话语权的问题

对于那些关注者来说，这个问题可能听起来很熟悉。DNS的基础是广泛采用的协议，它由非政府组织ICANN 管理，这是总部设在美国的非盈利组织。它具有对URL 语义专属的解释权，而且也对应到互联网协议的空间。它没有什么排他性，这成为了互联网的基础，创造了通用文本的白皮书，由于它和现实情况关于商标、产权等案例的相似性，互联网协议能够根据它解决问题。

不过我不相信，这些涉及到商标、知识产区和隐私纠纷的事会很容易扩展到VR 的领域。

关于所有权的话语权问题，正如很多东西一样，背后都有一些共同的利益，通过主导和游说律师，最终落在了私人手里。我不需要对此过多解释，但这不是最好的结果。不过为了使可能性成为可能，系统需要设计为依赖于有话语权的中央权威，而背后有利润的动机。

没有发生和DNS 相似的事情，因为还没有人意识到坐在ICANN 的位置上会带来多少价值，直到已经为时尚晚。这并不意味着这不会发生，有一个猜测是，微软在生产AR 硬件的兴趣上，其利润可能不局限于设备本身。这不是他们玩的游戏。他们和Magic Leap 希望拥有自己的传输管道，所有东西从生产到内容到分发，都通过这里进行。你也可以对Google 最新的CV 服务做类似的假设。

这给我们带来了技术背后的支撑，不依赖于文本、传感器驱动、上下文感知、总是运行的消费者端AR 系统，这些问题的解决是非常重要的，最早这么做的也许能获得那个圣杯。

| 没有键盘的操作系统

正如Google 演示的一样，能够运行各种随意代码的浏览器，和操作系统的区别是不多的。就像一些操作系统需要使用Windows 管理来保证GUIs 运行的不错，我们的AR 系统也在确保内容以一种好的方式来展现，考虑到我们的喜好以及大脑传感器的带宽。

例如说，你对于边开车边听纽约时报表示完全的舒适，甚至在你视野的角落上，有一个小的视频聊天窗口也可以。但当你在高速公路疾驰的时候，你完全不想要更多的东西。相反，当你在家里的时候，你也许会愿意接受更为沉浸式的体验，但你也不会希望窗口弹出：你的煤气账单该交了。

在一个用户定义的背景下，这有点像今天智能手机里的权限（Permissions）。我们可以给特定的应用程序访问我们的注意力的权限，而我们的屏幕也会在特定的情况下弹出提醒。这是一个开始，尤其是一些浏览器自己能提供通知和权限设置，这也是通常操作系统的功能。

先不管输出的问题，操作系统的任务如何接收传感器的输入和上下文信息？别忘了我们没有键盘和鼠标，我们都是通过自己对世界的感知，来驱动这个系统。

| 两种途径

正如我们常年期望电影CGI 的智能能够超越实时系统能提供的，它将持续超越用户端系统的能力，以掌握视觉处理和任务搜索，以感知周围的世界，满足我们对速度、正确率和带宽不断增长的期待。

这意味着我们的设备会部署在一个低延迟、高带宽的连接上。他们会通过刺激和上下文的理解，对用户的状态、联系人、历史、喜好和习惯进行反应，就像当下设备和互联网做的那样。

由于这些限制，到目前为止，所有潜在的方法都是相同的。在返回结果的性质上，可能会出现问题，而问题的核心在于所有权和利润的动机。

在AR 生态系统里，识别服务是由一个非盈利或其他中立的实体组织提供，服务器会不断吸收这些信息流，并且从提供的零散联结刺激中进行推断。

这是一辆自行车。那是124鹰街。那是你的朋友Willy。那是西方。这是一辆卡车。那是街。这是石头。这是一个交通灯，它是绿色的。

这些离散标记的集合，会通过管道返回到硬件里，作为对世界的标记，然后准备好在用户的应用程序里得到解释。

这意味着刺激的识别以及增强现实解释，通过用户端的代码可以持续的作用，就像现在互联网做的一样。在一个物理分布式的网络中，相同的组织会被某些广泛联系、同意授权的DNS 控制。关键是，这意味着识别和解释的任务，是被分离的。

（编辑：云计算网_泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页

快来新宇宙：为什么元	全民卫星电话时代还没
IDM面临翻身时刻	探路元宇宙，直播平台