加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 站长资讯 > 动态 > 正文

增强现实的权力江湖

发布时间:2016-01-28 10:42:25 所属栏目:动态 来源:雷锋网
导读:增强现实的发展很像早期的互联网,也面临着相同的问题和陷阱。

【编者按】本文来自Medium,原作者Noah Norman,由王嘉俊原创翻译。

增强现实的权力江湖

这篇文章是基于Mark Domino 和Jasper Speicher 2009 年的谈话升华而成。现在尽管硬件方面有所进步,但和那时候相比并没多大改变。

现在我给出一个结论:增强现实的发展很像早期的互联网。增强现实正处于潜在的变革上,也面临着和早期互联网相同的问题。我会指出其中的一些陷阱。

现在正是技术增长的拐点期:作为个体而言,很难做出很有影响力的决策。我们全体选择了一条道路,出于私有产权而束缚技术的发展,限制了它改变生活的可能性。

这篇文章最重要的基础假设是:忽视所有权,在不久的将来增强现实会无处不在,始终开放,会如同现在的智能手机一样被广泛采用。从硬件的角度来说,这可能意味着增强眼镜、隐形眼镜、车里的挡风玻璃、大脑植入、栓剂(suppositories)或者你有的东西。

如果你不是在这个前提下和我探讨,那么下面的的内容将对你没什么帮助。也许有一天这儿会出现关于这个前提的讨论,但对我来说这个结论已经不需要争辩了。

在这个信仰之外,我也套用Nick Bostrom 的话:这篇文章里的许多假设可能是错误的,但我不知道是哪一个。

| 与早期互联网相比

对现在而言,增强现实无论是嵌入到可穿戴设备中,还是以“魔法镜子”或手机窥视镜的方式,它在部署和消费方面都很像早期互联网的布局。主要是,消费级增强现实系统被设计为在一个时间内只运行一个程序,而那时候的互联网应用程序,也是在一个时间里只能连接一个系统或数据模型。

相对应在内容创作方面,创作者必须给每个应用单独创作内容。如果我想给Layar AR 平台创造内容,我必须基于他们的用户界面后端(这不是可扩展的方法),然后根据这个目标提供一个版本。如果我想对Aurasma、Wikitude或BrowsAR 做同样的事,或者做其他的标记来追踪,我需要重新给每个平台设计。

互联网的早期应用,在某种程度而言有非常多的限制。上个世纪90 年代,如果你想传输文件给一个用户,你得先打电话给他,让他们准备好,启动和收件相关的程序,通过拨号连接联系到对方,然后传输文件。而如果我想和他们聊天,我需要断开连接,打电话给他们让他们启动聊天应用程序,关闭收发程序,然后才可以聊天。

早期互联网的部分力量,在于它使得任意的内容可以在任何地方进行演示。这个能力从HTML 开始,TimBerners-Lee 采用了已被接受的标准SGML。不久后浏览器诞生了,从1992 年基于文本的浏览器Lynx 的到来开始。

正是这种内容和表现形式的分离,才有可能创造现在被称为互联网的生态系统。也正是在这样的背景下,创新的推动和标准化的发生,才带给我们现在的浏览器:可以同时运行多种程序,有功能齐全的应用以及独立于浏览器的设计。

这并不是说,人们致力于围绕互联网各大平台做专门化的设计是没有价值的。必须强调的是,现在的情况有些跳跃,超越对当前创造物和增强现实内容的思考。现在是一场竞赛,去定义最具有实力的平台,并希望它能够成为事实上的标准。通过这样做,这些早期进入者希望能围绕封闭系统,定义自己的市场。

| 但问题显然更大

这些问题可以被解决,通过对网页和3D 图形标准化,建立灵活的标记语言,给AR 浏览器开放SDK,并使之和内容彼此独立。这将是寻求共识的挑战,但这不是在重新发明轮子,事实上他们已经在这儿了。

广泛采用一种标记语言是可以想象的,而且很可能会出现一个或多个独立于内容的AR 浏览器(更重要的是,也独立于硬件),这就像我们现在基于屏幕的互联网内容。

更大的问题来自于真实增强现实应用对内容的感知能力。用户在互联网中的输入,限制在键盘和鼠标,但AR 应用被期待能够对我们的思想做出反应。AR的硬件必须转播AR 软件的内容,并且连接到系统里从各个传感器的输入:视觉输入、音频输入、语音命令、地理信息等。

但这样的系统会对信息流做什么事情?当然,你可以想象一个应用程序做一些和你的位置和方向相关的工作,并且在头戴式设备中进行地图标记,但我们现在就有了,而且这非常无聊。

在互联网的情况下,搜索通过超链接,能够对文本输入访问远程托管的内容。以AR 作为等价的类比,但在“搜索”这个环节就失败了。就结果而言,我们在AR 操作中并没有鼠标,所有输入到搜索里面的,是视觉和传感器的数据,而非小心输入的文本信息。所以超链接往往不管用。

在最普遍的意义上,AR搜索是必须的,作为第一步,要把我们大脑所想的和信息做到一致。听起来很简单么?并不是这样。

| 教机器以语义

要教会机器识别它看到的东西,这里面有一百万个难题。我不打算把它们一一列举出来,部分是因为我不够资格,另外也因为这篇文章并不是直接关于机器学习和计算机视觉。

这是关于未来的重要难题。当机器能够识别出东西,或者一个具体的实例、地点和接近用户的其他人,这都是AR 未来的问题。

当一个AR 系统解决了它看到的问题,这就能够给刺激带来反应链,导致系统实际上给你的周围增加新的场景。例如,当指向我的AR 隐形眼镜的时候,它会采集一些颜色的信息,也许会有一些深度信息(3D),一些规模信息(上下文),地理信息,声音、温度、高度等,然后根据这些信息来识别出物体。

目前来说,小规模的作者驱动的AR 系统,需要内容创造者在创造时输入3D 模型和2D 文本。应用程序在这个时候,会搜索输入的视频流,看这些物体的文本和数据库中哪些物品能够匹配上。而当它能够识别出一个的时候,就给出设计好的回应。这些回应是有限的,在大多数情况下,对视频或3D 内容在预先定义的空间关系上进行叠加或者识别。

为了解当前系统固有的问题,增强现实反应和输入之间的对应关系,取决于个人作者的决定。在这个封闭系统里,我们来看看关于这些的案例,里面有很多的利益相关者。

在我们的假设下,未来不依赖于内容的AR 浏览器,会在各种各样的硬件上运行。当我们看着一个可乐瓶的时候会发生什么?首先,这儿会有很大的光泽,而下面会更多,系统会像我们的大脑一样,识别出这个罐子,并且说道:“这儿有一件你的东西,属于可乐罐的类别,甚至可能会有更多的信息,例如凹陷的、打开的、生产于亚特兰大,2017年11 月过期等。

更重要的是,这是一个象征性的识别,相比于现在的文本检索,更抽象也更强大。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读