当今处于物联网时代,而语音识别被视作为人机交互的入口,由于人工智能和机器学习迅猛发展,语音控制也变得更为实用。在接下来的几年里智能语音将成为人机交互的新范式,语音技术将解放人类双手和眼睛,用户以较低的成本实现随时访问。未来与智能家居、可穿戴设备、机器人等交互模式,智能语音将是最佳人机交互模式。
语音识别是现在最为耀眼、大家生活中接触最多的语音技术。近些年来,语音识别技术突飞猛进,自然受到广大公众的极大关注。毕竟,语音识别的进步代表着机器的听力发展,是人工智能的重要一步。目前语音识别存在可穿戴设备的交互与通用应用程序入口两个急切需求。可穿戴设备因体积等原因限制,仅拥有局限输入输出设备。通用应用程序入口简单点说就是现在的VIV正在干或者说想干的事情。VIV希望通过一个语音助手解决所有现在所需要用APP去解决的所有问题。
智能语音存在两大技术瓶颈。第一个远场环境复杂,夹杂噪音、混响、自噪声等,容易导致机器端“听不清”,从而影响后续一系列操作。解决了这个问题,偏命令控制的终端便能带来良好的用户体验;第二个更深层次的智能问题,真正的智能需要实现语义的突破、需要声音与视觉的融合,这样的方案才更适合做拟人形态的机器人;第三个该项技术熟悉各种各样的语言、口音和方言。也许,这一点在中国尤为重要。
快速发展需跨越三座大山
要快速发展就必须跨越硬件、算法、内容这三座大山。首先是硬件,硬件部分芯片与麦克风阵列是核心部件。当下的语音技术还只在算法阶段。一类是成本较低的传统语音模式识别技术,通过波形比较、波形匹配以及特征化实现;另一类是基于AI技术的,由于适应性好,可做到更加精准地识别。只要芯片支持音频输入功能和对应的运算性能即可,比如CPU能够达到ARM双核1.2G就可满足语音识别的要求,但称之为专用的智能语音芯片并不严谨。其次是算法,主要包括语音检测、降噪、去混响和回声消除等传统音箱和通讯工具也需要具备的基本算法。智能音箱的关键算法是唤醒、语音识别、自然语言理解、对话管理、自然语言生成和文语转换等算法。第三是内容,语音识别的目的是将语音信号转化为文本,目前,语音识别技术相对成熟。声纹识别是根据语音波形反映出的个人生理和行为特征的语音参数,并以此来识别说话者的身份。现实中,该识别的准确率并不如指纹、虹膜识别。这也是智能语音更高“智能”形态的表现特征。
总结:智能语音技术的发展并非一朝一夕,所以在技术层面已具有根基,现有的硬件与方案是可以满足当下智能语音要求的,但若在性能、成本、智能程度上更进一层,仍需继续深耕,因为产品的逐级落地自然就有一个不断完善的过程。随着人工智能的发展和深度学习技术的使用,语音识别准确率已经达到了95%以上。计算机和智能终端的界面正在从“键盘+鼠标”变为“麦克风+按钮”,智能语音带来的交互新体验正在渗透。有数据显示,预计到2020年,全球语音识别的市场规模将从2015年的61.9亿美元增长到200亿美元,可以说语音识别未来的市场发展十分有看头。