您所在的位置: 首页 > 新闻资讯 > 数码产品

下一场技术革命将发生在你的耳朵里

时间:2016-03-16 编辑:robin 阅读:2 次

 “我真希望我能触碰你” ,西奥多躺在床上说。 他在爱情中经历了沉默、被拒绝,但这一次他终于听到了萨曼莎试探性地回应:“你想怎样触碰我呢?”

这只是电影《Her》中动人的一幕:男主角西奥多和他耳朵中的人工智能系统坠入爱河。但是包括工业设计师 Gadi Amit 和易用性大师 Don Norman 在内的多位专家说,这种耳戴式智能硬件(或者 “耳穿戴”)已经不只存在于科幻小说中,而是马上就能成为现实。

市场上已经出现了一些与电影中异曲同工的隐形无线耳机。索尼公司最近推出了一款耳戴式智能硬件,叫 Xperia Ear。 英特尔也展示了一款类似的概念产品。另一款名为 Bragi Dash 的具有生理测试功能的可发声设备也将登陆 KickStarters。与此同时,另一家众筹平台也筹集了 1700 万美元,参与智能耳塞领域的竞争。苹果公司也参与进来:苹果将在新版 iPhone 上取消 3.5mm 耳机插孔,取而代之的可能是一对无线 Beats。难怪交互式界面公司的创始人 Mark Stephen 说: “我们已经和《Her》接近得难以置信了” 。

当然啦,要想打造电影中斯嘉丽约翰逊似的沙哑性感嗓音,我们还有很多文化、人体工程学和技术设计上的难关需要攻克。

像 iPhone 一样异军突起的穿戴设备

归功于亚马逊在语音智能领域的技术突破(亚马逊不久前发布了新的 Echo),我们终于能够随心所欲地在家里和电脑说话了。虽然亚马逊可能利用 Echo 扳回一城,但是据 MindMeld 的一项研究,只有 4%的智能手机用户用过 Alexa。与此同时,62%的市场份额都在其它手机端人工智能助理(如 Siri, Google Now, Cortana)手中。这就是为什么 Echo 早些年在这一领域的胜利果实会迅速被像索尼、苹果,甚至几家初创公司的个人设备厂商瓜分。除非亚马逊也像电影里的斯嘉丽约翰逊一样,随着隐形耳机,悄悄溜进人们的耳朵,否则难以力挽败局。

这是一种全新的产品:一种戴在耳朵里的独立设备,它能够听见你讲话并且轻声回应你。它像 Siri 或者 Alexa,它蜷缩在你的耳膜附近,外形是一个戴在耳朵里的隐形无线扬声器和麦克风。业内专家认为,这项技术在未来短短几年内就能实现。想象一下,你即将有一位个人助理为你记录日常对话,一个调研员帮你在 IMDb 上查到了你怎么也想不起来的演员的名字,一个贴心的伴侣不但愿意倾听你的困惑,还能够给你提供心理治疗……

虽然听起来科幻,但是很快就能席卷市场。密歇根大学的助理教授、Clarity-Lab 的主任 Jason Mars 说: “我认为耳穿戴能取得 iPhone 那样的商业成功” 。 “有了亚马逊 Echo,人们想出了很多有趣的点子来和自己的房子对话。现在有了耳穿戴科技,你就可以随时享受智能助理的协助了”。

亲和性的新高度

耳戴式设备与生俱来的亲和力将决定我们在哪以及如何使用它们。以往,每一个走过你身边的人都能看见你电脑屏幕上有什么,即便是手机也不能保证绝对私密。但现在,即使人工智能不知道你深藏内心的秘密,它至少只在你的耳边,就像有人贴着你的耳朵说悄悄话。

“在用苹果手表时,我还是在和一台机器讲话——我在跟我腕子上戴的这东西说话。尽管它快赶上通讯手表了,但它还是做在手表上的一个微创新。” Frog 的前首席文化官、Argodesigh 的创始人 Mark Rolston 说, “但是和我自己说话,像有一个鬼魂,一个天使,或者一个魔鬼坐在我肩上,就大不一样了。怎么说呢,它有更深的心理暗示作用,让我觉得我脑袋里有另外一个人” 。

Rolston 认为,私人交互界面的改变将会影响你和人工智能之间的关系。在一些私密性的事情上,你会很自然地依赖它 ——你可能不想让你的苹果手表提醒你什么时候该避孕了,但如果是一句只有自己能听见的语音提示来告诉你,就容易接受多了。渐渐地,你耳朵里的人工智能会悄悄地查到任何你不好意思当着别人的面用 Google 查找的信息。

“想象一下我在用右耳朵听你说话,然后 Siri 在我的左耳朵里教我怎么说,” 他说。“这样我就能出色地搞定这个面试,因为面试时有一台电脑不断地告诉我各种相关的问题和概念”。

同时,因为它的无所不知,我们很容易对它产生过高的期待,这会给设备设计者带来麻烦。在日常生活中,我们能根据情境,对身边的人抱有比较现实的期待,比如说,我们不会要求干洗店的员工帮我们算 12.98%的信用卡最低还款率,也不会让银行的人给我们讲一个睡前故事。但是对于一个像智能助理这样的新生科技而言,人们很难判断什么样的期待是合理的。用户可能会把这些平台当作无所不能,在任何情境下都全能的神一般的存在,而不是把它们只是当作软件,并随之对它们失望。

“AI 助理能为我们做什么” 和 “我们希望它为我们做什么” 之间的差距,是现有的人工智能技术的一个问题。“就像 Siri,总会出现很多失灵的情况”,英特尔新式设备公司的 Dan Eisenhardt 说。“我总是给 Siri 机会,但是只要一天中她有一两次不管用,我就会很失望。所以我就弃用了。”

在英特尔,Eisenhardt 正在通过创建基于音频、有更具体语境的可穿戴设备来解决这个问题。在国际消费电子产品展览会(CES)上,英特尔推出了和 Oakley 合作研发的 Radar。它将智能眼镜和耳机结合在了一起,致力于解决跑步者和骑自行车的人的一些问题。诸如 “我跑多远了?” 或 “我的心率是多少?”。因为它了解你所处的语境,所以可以专向理解你在聊的话题。这提高了整体的精确程度。而且它还具备学习能力,比如你问系统 “我的步调(或者跑速)”,过一会儿再问 “现在怎么样了”,它就能明白你问的还是步调。

全新的营销计划

那么这个存在于我们耳朵里的人声,它到底是一个通用的声音,还是不同公司会给他们的人声设定一个不同的性格?目前为止,第三方公司都在争相采用亚马逊的 Alexa,但是不远的将来,这些公司都会努力设计研发自己专属的声音特征。

“我可以让 Alexa 给我订个 Domino 的披萨或者叫个 Uber,但是这些品牌也会自己投入去研发个性化的声音”,Rolston 说。“我们面对的是一个全球性的巨大市场,会有成百上千家声音品牌出现。他们或许都基于 Siri 或 Alexa 的接口,但 Alexa 无法代表街边那家披萨店。现在是 Alexa 在跟我说话,但是我想要那个醉醺醺的卖披萨的。”

“解决方案就是让每个品牌有专属的声音,” Rolston 接着说。“如果我在 Siri 系统里有个披萨店,可能我就不说 ‘嘿,Siri’,而是说 ‘嘿,某某披萨店’。这些披萨店自己也不想听起来像 Siri,他们想成为自己。”

在 Botanic,Mark Meadows 研发出了叫做 “Avatars” 的聊天机器人,他们能初步实现让不同的聊天机器人产生不同的个性。比如,心理咨询师们可以通过同一个虚拟的心理咨询师来分享业内的知识,或者机修工可以创造他们自己的虚拟机修工。Meadows 实际上还为一套 Avatars 评价系统注册了专利。就像他所提醒的,人类总是盲目信任机器,而亲密感更给了机器难以置信的权力。

Meadows 还提到了最近麦当劳的一项促销活动。这项活动把欢乐儿童餐的餐盒变成了一台虚拟现实机。他希望麦当劳可以利用这项科技制作出一个麦当劳叔叔 avatar,并且让它直接和你的孩子们进行对话游戏,而你即便是家长,也无法知道对话内容。 “孩子们和麦当劳叔叔 Avatar 的关系可以让品牌更高效地和消费者互动。此时麦当劳叔叔已经不是你在电视上看到的那个奇怪的小丑了,” 他说。“它变成了一个亲密的朋友,会悄悄向你的孩子提供消费建议”。

Meadow 认为一个评价系统可以制衡这种品牌能力。他申请了一项聊天机器人 “牌照”,这是一个评价系统的专利,可以发现有可能滥用人工智能聊天机器人的行为。这套评价系统介于 Twitter 的认证和 Amazon 的评星级之间。

基础设施的挑战

对于 iPhone 用户来说,用 Siri 至多感觉像是进行了一次软件更新,这是因为使用 Siri 的成本是无形的。真正的操作远在北卡罗来纳,苹果在 Siri 上线之前就建立了全世界第一个数据中心,耗资 10 亿美元。隐藏的计算成本刚好能解释,为什么运营着地球上最大的服务器网络的亚马逊能在语音智能方面占优势。但尽管如此,我们还远远到不了电影《her》描述的智能世界。

“如果每个人都希望不间断地和 Siri 或者 Cortana 交流,当这些交流同时进行时,我们的数据中心根本应付不了如此巨大的数据流量,” Mars 说。“肯定有一些需求在技术上不能得到满足,就像我们不能让地球上每台手机同时下载视频一样,因为手机信号无法支撑。没有任何一个服务器可以满足成百万甚至几十亿人同时且不间断地和智能助理对话。”

试想当你打开 Siri 时,总会有一些故障出现。难道苹果没试图处理这些故障码?他们当然做了。但是人们是不是越来越少地使用 Siri 了呢?也许是吧。Mars 表示 Siri 已经很难有所改进, “每做一丁点质量上的改进,或者每增加一些用户,运行 Siri 的成本就会飙升。” 人工智能越是聪明,就需要越大的数据处理系统,这绝不是再建几个大服务器基地就能解决的问题。我们需要能处理更大数量级数据的服务器。这就是为什么在 Mars 的实验室,他在研究如何设计出能十倍甚至百倍提高运算律的服务器。例如,如果一个人的手机能够处理更多的数据,就可以让服务器操纵特殊的手机硬件来运行一些人工智能软件,这或许是条路。

所以我们依旧不清楚我们是否要让智能助手无处不在。如果基础设施只能支持一小部分用户,公司将如何筛选谁可以先用上这项技术?这些人在技术的协助下将比我们变得优秀多少?Mars 相信迅速发展的耳戴助手会加速服务器瓶颈的到来。

设计耳穿戴

当然,服务器只是硬件问题之一。耳穿戴的热销不代表它们已经技术成熟并进入全盛。硅谷 New Deal Design 设计公司的创始人 Gadi Amit 就不认为现今的耳戴硬件设备有索尼公司或者其他初创公司说的那么好。

一方面,就舒适度而言这些耳塞戴起来特别难受。比方说,有些人觉得苹果的耳塞棒极了,而另一些人连戴几秒钟都无法忍受。一旦设计者把塞绳去掉 (塞绳用来支撑耳塞的重量以在你的耳朵中固定耳塞),索尼和苹果的技术都不能提供其他固定方案,除非让你的耳道自己卡住耳塞。

“主要的问题之一是耳塞会掉出来。你塞回去他还是会在你做任何动作的时候再次掉出来,” Amit 说。“没有办法解决这个问题,只能把它拿出来,再通过别的途径挂在耳朵外边。” 但是一旦你把设备挂在了耳朵外边,这个设备的一切精巧性就都没了。外加你还得忍受耳廓的疼痛。

“舒适性的问题就摆在那,它是一个因人而异的事情。有的人觉得可以接受,但有的人就完全不能接受”,他说。“永远都不会有 100%的满意度,特别是在用户跑步的时候。整体满意度将只能徘徊在 30%或 50%” 。 他把这和触屏作比较,触屏在任何时候总是能达到 100%的满意度。

Amit 迅速反应到的另一个问题是声音质量的问题。声音产品市场已经有消费者在追求更高音质的外戴式耳机。参照其在过去十年的缓慢发展进程,微型听觉设备不会在近期有什么大的起色。同样地,麦克风和声音识别系统也存在着诸多限制,即便是他们很好用,在实际生活应用中精确度也只能达到 90%。

“这听起来挺高的,但实际上惨不忍睹。试想你在进行一次正常对话,如果听不懂其中的 5%,会很难理解对话内容”,Amit 说。“对于一些应用程序来说这已经很好了,但是如果我们想在未来几年用耳朵彻底取代图形用户界面,要走的路还非常远”。

相反地,Amit 想象中不久的将来会是各种交互方式交织的状况,这其中耳中电脑或者声控系统将只是一个组成部分。尽管他相信图形用户界面在 2015年 达到了顶峰,他对任何单一突破(比如 iPhone 的触屏)全盘吞没其他方式的用户体验的可能性深表怀疑。现在我们有能够读懂手势和面部表情的技术,我们有可视头机让我们在视频内容中身临其境,我们甚至有能够传导身体感受的触觉感受装置。

“我们有五种感官,我们要实现全部五种感官和智能科技的交互体验” ,Amit 说。 “我们现在设计这些项目时遇到的真正困难是如何找到正确的结合方式,并能适应用户多元的舒适度要求。如何混搭是我们现在面临的最大挑战。我们有各种各样的技术,就看你如何将他们搭配起来”。

就像 Meadows 说的那样,当这些技术同时发挥作用的时候,他们运行得更加和谐也更加准确。他们可以理解我们在说什么以及我们的感受。

这就是为什么苹果最近并购了两家你几乎都没听说过的公司:Emotient,一个情绪识别软件,能够在半秒钟的时间里通过人类表情识别情绪;Faceshift,一个可以记录人脸并同步到虚拟人像上的软件。放到一起,这两宗并购预示着如果 Siri 不仅能听到你还能见到你,她将变得更加智能化。同时如果你也能看到她,她也许也会变得更为打动人。

失落的一角:社会直觉

相比于数据中心和人体工程学限制,甚至是潜在的企业滥用亲密度的问题,耳戴助手面临的最大挑战来自于你耳朵中的人工智能设备很难掌握哪些细小的、社会化的因素。

“现在你有助手告诉你你最喜欢的意大利餐厅开门了,你有可能大为欣喜,” 圣迭戈加州大学的设计实验室主任、《日常设计》(The Design of Everyday Things) 的作者 Don Norman 说。“但是也有可能是在你开车或者过马路时,又或者当你终于和你的爱人进行深入的谈话的时候。最难以把握的部分是那些社交细节、时机,知道哪些时候适合或者不适合向你提供信息”。

耳戴助手将不得不经常费力应对这些只能凭直觉判断的社交场合,因为 Norman 相信耳戴助手的最大潜在益处在于能利用一天中一些 5 秒、10 秒、30 秒的零散时间。用这些时间他也许能查一下电子邮箱或者手机短信,都加起来也是一段相当可观的时间。但他还是为一个没有社交能力的电脑可能表现出的危险的莽撞行为而担忧。

“我担心的是安全。我们已经知道人们因为走路时看手机而受伤。他们会撞到东西,但是至少手机是在你可控范围内的。你可以想什么时候不看就不看。你可以强迫你自己不看, “他说。 “我过马路时从来不看手机。但是如果这是一个助手,给我建议、向我推荐东西、告诉我一些它觉得我可能感兴趣的事情,我没有办法控制它什么时候告诉我,这就有可能给我带来危险”。

在他的实验室,Norman 正在通过研究汽车的自动化装置研究这些复杂的社会界限。换句话说,一辆无人驾驶的汽车如何穿越繁忙的人行道口。“这些车不得不硬闯,要不它们就没办法穿越如织的行人”,他说。所以这就要求这些汽车编程能够适应当地汽车和行人的文化。在加利福尼亚,这意味着汽车一步步慢慢向前推进,行人自由走动。但是在亚洲,这就意味着汽车需要更加强力地突破人群,甚至是强塞过去。两种程序在当地都能奏效,但是如果你想调换这两者,加州的汽车会一天都呆在亚洲的十字路口动弹不得,而亚洲汽车会把加州的行人撞翻。

所以真的很复杂。

虽然对于那些《火线密令》里出来的神经敏感的人来说,《她》里面的科技将把我们带到世界末日,但是想到我们已经每天玩不止 150 次智能手机了,如果这都不能抹煞人类本性,一项新科技就毁灭社会恐怕也不可能。

“我走到我办公室的路上要遇到很多学生。我很惊奇地发现他们中 90%都在步行穿过校园时看手机” ,Norman 说。 “我试图了解他们在干什么,但是大部分情况下他们看上去都挺开心的。他们看得很入神。我不认为是科技让他们想要这么做。我想科技只是让他们能够随时保持联系。”