人机交互的未来

文/陈孝良

 

一般而言,机器比人类具有更强的知识去重、筛选、复制和迭代的能力,而人类知识想要获得更快发展,就少不了机器知识的支撑,这就需要解决人类知识和机器知识的交互问题。那么,怎么才能简单易行地把机器所理解的知识“复制粘贴”到人类世界? 这当然离不开人机交互技术。
人机交互发展历程
通信解决的是人和人交互的问题,人机交互解决的是人和机器交互的问题。随着机器的数量越来越多,以及越来越智能,人和机器之间的交互关系将是未来面临的主要问题。人机交互技术大致可以划分成5代,当前技术处于第4代。
第1代人机交互技术:以旋钮和键盘为代表,以模拟信号和字符为主要交互手段,可交互信息复杂度较高,效率很低,只能实现相对简单的任务,但可靠性最强。这个阶段的产品主要包括打字机、电视、照相机、早期计算机、功能手机等各种电子设备,一般都是采用小巧简单的操作系统或不用操作系统。
第2代人机交互技术:以鼠标为代表,以复杂图形为主要交互手段,可交互信息复杂度较低,效率得到提升,易用性增强,学习成本降低。这个阶段的产品主要就是个人计算机,Windows和Linux是代表性的操作系统。
第3代人机交互技术:以触摸屏为代表,以简单图形为主要交互手段,可交互信息复杂度更低,易用性提升,学习成本急剧降低。这个阶段的产品主要就是以触摸屏为核心的智能手机,IOS和Android是代表性的操作系统。
第4代人机交互技术:以语音为代表,以远场语音为主要交互手段。从这个阶段开始,人机交互的作用半径变得更远,真正释放了人类双手。而且,人机交互变得更加简单,人机交互和内容服务之间的耦合更强,交互具备了知识学习和传递的属性。但是,由于存在更多模糊空间,远场语音交互的可靠性相对下降。百度DuerOS是其中代表性的交互系统之一。
第5代人机交互技术:以多传感融合为主要交互手段,可交互信息的理解度和可靠性更高,融合交互将成为人和机器互相学习的关键路径。人机交互的智能程度和主动程度将会得到大幅提升,机器可以感知人类的情感,且主动与人发起交互。

未来的技术趋势
第5代人机交互的技术趋势可以归结为4个方向。
第1个方向是远场化。远场这个概念的提出,就是希望加强人们对“语音可以释放人类双手”这一魅力特性的认知。远场是语音新技术最为显著的标签,是声智公司对语音技术做出的主要贡献之一。
虽然第4代人机交互主打远场语音交互,但是在远场可靠性方面还有很多难点没有突破,比如,如何在多轮交互、多人嘈杂的场景中,实现人声分离等。因此,第5代人机交互将解决这些技术问题,让机器的听觉远超人类的感知。
这不仅需要算法的进步,还需要整个产业链的共同技术升级,比如更先进的传感器和算力更强的芯片。更重要的是,需要基础理论特别是声学的基础理论的技术进步。当然,这方面的难度很大,比如,生理声学受制于当前实验条件和人类伦理的约束,难于突破技术瓶颈,导致脑机接口的研究过程困难重重。
第2个方向是融合化。“声光电热力磁”这些物理传感手段只有相互融合,才能让机器感知信息。这是机器学习人类知识的前提条件。而且,机器的感知能力必须要超越人类——能看到人类看不到的世界,能听到人类听不到的声音。
事实上,众多先进的传感器已经达到了这个目标。不过,我们要把它们做得外形更小巧、技术更可靠、价格更实惠,如此,高端技术才能走进寻常百姓家。
第3个方向是智能化,这是最难实现的。智能化不是类人智能,而是人类知识和机器知识互相传递的泛化,也就是让机器可以理解人类的模糊知识。当然,这并不是自然语义处理就能解决的事情。比如,机器无法准确理解“小桥流水人家”这句话的意境。
那么,怎么才能让机器有文化呢?不妨先看看人类是怎么学习的,比如,我们想在语文考试时拿高分,平时就少不了大量阅读和记忆。机器也是如此,当它拥有大量的记忆(即数据)时,自然会比较聪明。
第4个方向是主动化,这要在智能化的基础上才可实现。让机器尝试理解人类情感表达,是人工智能最大的商业价值所在。在人和人之间的交互过程中,特别是在有商业价值的地方,主动交互占据相当大的比例。
如果要挖掘人机交互的商业价值,主动交互就是关键技术。机器只要部分理解人类思想和情感,就能影响人类的决策,这就是巨大的商业空间。况且,机器没有人类那么多的情感负担,比如,机器说再多的甜言蜜语都不会觉得害羞。当然,这可能会带来不友好的方面,比如,机器为了推销一款商品,可能令消费者不胜其烦。
任何技术都有两面,但是掌握技术的是人类,是每一家企业,所以一家企业的价值观决定了技术是服务人类还是破坏规则。归根结底,这是人类的问题。我们希望机器不断地学习,更好地造福人类,那么我们就应该不断地学习适应机器才是。
机器以海量的数据、强大的算力和优异的算法为基础,永不疲惫地进化迭代。以远场语音为核心的人机交互技术会逐渐影响人类的决策。在日常生活中,我们做决策时非常依赖周边人群的建议,这就是人类的社会趋同性,而机器恰恰擅长参与并引导这种趋同性。当然,如果将这种能力用错了地方,对人类的伤害也很大。

迎接最大挑战
人机交互的核心是语言,其最大的挑战也是语言。语言是洞悉人类天性的窗口,天然承载了人类的思想和情感,那么怎么才能让机器来获得这种能力呢?目前来看,深度学习很难解决这个问题,当前的实践只是证明了深度学习更适合模式识别领域,对于语言理解的效果并不显著,而人机接口更是挑战了人类极限,短期内很难看到实质性的成效。
更令研究者头疼的是,人类个体语言的差异性很难被机器理解。机器是基于数据分析来寻找规律,换言之,机器的特殊能力在于从海量数据中发现人类难以理解的数据关联。而人类个体自由语言的内涵有时“只可意会,不可言传”,很少有一定的规律可循。
人类的长处在于利用简单的小样本就可以进行逻辑推理。这是当前机器学习严重缺失的能力。目前,机器学习领域中的对抗网络、迁移学习等无法解决这个问题。
目前人机交互还处于萌芽状态,完全实现第4代人机交互依然任重道远。幸运的是,这项技术已经规模商业化落地,突破了可用的门槛。
从百度指数的分析来看,30岁以下的年轻人对人机交互的关注度不高,所以需要加强这个领域的教育普及,吸引更多的年轻人投身声学语音和语言理解这个行业,也期待更多学术机构能够联合起来,打破学科之间的壁垒,携手培养更多跨学科的年轻人,为人机交互的发展共创辉煌。
(本文作者陈孝良,工学博士,中关村高端领军人才,中国计算机学会语音对话与听觉专业组常务委员,中国声学学会声频工程分会委员,中国人工智能和大数据百人会专家委员)

转载请注明 文章来源:《科学画报》

〖 欲看更精彩文章、图片,请购买科学画报。每月月初出版发行,铜板纸彩色印刷,每本仅售8.00元 〗 

 
《科学画报》2019© 版权所有 沪ICP备05024827号