增强现实的权力江湖

发布时间：2016-01-28 10:42:25 所属栏目：动态来源：雷锋网

导读：增强现实的发展很像早期的互联网，也面临着相同的问题和陷阱。

【编者按】本文来自Medium，原作者Noah Norman，由王嘉俊原创翻译。

增强现实的权力江湖

这篇文章是基于Mark Domino 和Jasper Speicher 2009 年的谈话升华而成。现在尽管硬件方面有所进步，但和那时候相比并没多大改变。

现在我给出一个结论：增强现实的发展很像早期的互联网。增强现实正处于潜在的变革上，也面临着和早期互联网相同的问题。我会指出其中的一些陷阱。

现在正是技术增长的拐点期：作为个体而言，很难做出很有影响力的决策。我们全体选择了一条道路，出于私有产权而束缚技术的发展，限制了它改变生活的可能性。

这篇文章最重要的基础假设是：忽视所有权，在不久的将来增强现实会无处不在，始终开放，会如同现在的智能手机一样被广泛采用。从硬件的角度来说，这可能意味着增强眼镜、隐形眼镜、车里的挡风玻璃、大脑植入、栓剂（suppositories）或者你有的东西。

如果你不是在这个前提下和我探讨，那么下面的的内容将对你没什么帮助。也许有一天这儿会出现关于这个前提的讨论，但对我来说这个结论已经不需要争辩了。

在这个信仰之外，我也套用Nick Bostrom 的话：这篇文章里的许多假设可能是错误的，但我不知道是哪一个。

| 与早期互联网相比

对现在而言，增强现实无论是嵌入到可穿戴设备中，还是以“魔法镜子”或手机窥视镜的方式，它在部署和消费方面都很像早期互联网的布局。主要是，消费级增强现实系统被设计为在一个时间内只运行一个程序，而那时候的互联网应用程序，也是在一个时间里只能连接一个系统或数据模型。

相对应在内容创作方面，创作者必须给每个应用单独创作内容。如果我想给Layar AR 平台创造内容，我必须基于他们的用户界面后端（这不是可扩展的方法），然后根据这个目标提供一个版本。如果我想对Aurasma、Wikitude或BrowsAR 做同样的事，或者做其他的标记来追踪，我需要重新给每个平台设计。

互联网的早期应用，在某种程度而言有非常多的限制。上个世纪90 年代，如果你想传输文件给一个用户，你得先打电话给他，让他们准备好，启动和收件相关的程序，通过拨号连接联系到对方，然后传输文件。而如果我想和他们聊天，我需要断开连接，打电话给他们让他们启动聊天应用程序，关闭收发程序，然后才可以聊天。

早期互联网的部分力量，在于它使得任意的内容可以在任何地方进行演示。这个能力从HTML 开始，TimBerners-Lee 采用了已被接受的标准SGML。不久后浏览器诞生了，从1992 年基于文本的浏览器Lynx 的到来开始。

正是这种内容和表现形式的分离，才有可能创造现在被称为互联网的生态系统。也正是在这样的背景下，创新的推动和标准化的发生，才带给我们现在的浏览器：可以同时运行多种程序，有功能齐全的应用以及独立于浏览器的设计。

这并不是说，人们致力于围绕互联网各大平台做专门化的设计是没有价值的。必须强调的是，现在的情况有些跳跃，超越对当前创造物和增强现实内容的思考。现在是一场竞赛，去定义最具有实力的平台，并希望它能够成为事实上的标准。通过这样做，这些早期进入者希望能围绕封闭系统，定义自己的市场。

| 但问题显然更大

这些问题可以被解决，通过对网页和3D 图形标准化，建立灵活的标记语言，给AR 浏览器开放SDK，并使之和内容彼此独立。这将是寻求共识的挑战，但这不是在重新发明轮子，事实上他们已经在这儿了。

广泛采用一种标记语言是可以想象的，而且很可能会出现一个或多个独立于内容的AR 浏览器（更重要的是，也独立于硬件），这就像我们现在基于屏幕的互联网内容。

更大的问题来自于真实增强现实应用对内容的感知能力。用户在互联网中的输入，限制在键盘和鼠标，但AR 应用被期待能够对我们的思想做出反应。AR的硬件必须转播AR 软件的内容，并且连接到系统里从各个传感器的输入：视觉输入、音频输入、语音命令、地理信息等。

但这样的系统会对信息流做什么事情？当然，你可以想象一个应用程序做一些和你的位置和方向相关的工作，并且在头戴式设备中进行地图标记，但我们现在就有了，而且这非常无聊。

在互联网的情况下，搜索通过超链接，能够对文本输入访问远程托管的内容。以AR 作为等价的类比，但在“搜索”这个环节就失败了。就结果而言，我们在AR 操作中并没有鼠标，所有输入到搜索里面的，是视觉和传感器的数据，而非小心输入的文本信息。所以超链接往往不管用。

在最普遍的意义上，AR搜索是必须的，作为第一步，要把我们大脑所想的和信息做到一致。听起来很简单么？并不是这样。

| 教机器以语义

要教会机器识别它看到的东西，这里面有一百万个难题。我不打算把它们一一列举出来，部分是因为我不够资格，另外也因为这篇文章并不是直接关于机器学习和计算机视觉。

这是关于未来的重要难题。当机器能够识别出东西，或者一个具体的实例、地点和接近用户的其他人，这都是AR 未来的问题。

当一个AR 系统解决了它看到的问题，这就能够给刺激带来反应链，导致系统实际上给你的周围增加新的场景。例如，当指向我的AR 隐形眼镜的时候，它会采集一些颜色的信息，也许会有一些深度信息（3D），一些规模信息（上下文），地理信息，声音、温度、高度等，然后根据这些信息来识别出物体。

目前来说，小规模的作者驱动的AR 系统，需要内容创造者在创造时输入3D 模型和2D 文本。应用程序在这个时候，会搜索输入的视频流，看这些物体的文本和数据库中哪些物品能够匹配上。而当它能够识别出一个的时候，就给出设计好的回应。这些回应是有限的，在大多数情况下，对视频或3D 内容在预先定义的空间关系上进行叠加或者识别。

为了解当前系统固有的问题，增强现实反应和输入之间的对应关系，取决于个人作者的决定。在这个封闭系统里，我们来看看关于这些的案例，里面有很多的利益相关者。

在我们的假设下，未来不依赖于内容的AR 浏览器，会在各种各样的硬件上运行。当我们看着一个可乐瓶的时候会发生什么？首先，这儿会有很大的光泽，而下面会更多，系统会像我们的大脑一样，识别出这个罐子，并且说道：“这儿有一件你的东西，属于可乐罐的类别，甚至可能会有更多的信息，例如凹陷的、打开的、生产于亚特兰大，2017年11 月过期等。

更重要的是，这是一个象征性的识别，相比于现在的文本检索，更抽象也更强大。

（编辑：云计算网_泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

快来新宇宙：为什么元	全民卫星电话时代还没
IDM面临翻身时刻	探路元宇宙，直播平台