侵权投诉
当前位置:

OFweek安防网

生物识别

正文

语音识别结合应用场景:未来可期

导读: 近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术走进了工业、家电、通信、汽车电子、消费电子产品等各个领域。

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术走进了工业、家电、通信、汽车电子、消费电子产品等各个领域。语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着深度学习技术的突破,识别准确率大幅提升,带动了一波产业热潮。对语音识别未来发展,各位大咖也有一些精彩论点。

  科大讯飞研究院副院长——王士进

  王士进表示,语音识别是人机交互里很重要的模块,从PC时代到现在的移动互联时代,人机交互由鼠标键盘走向智能手机、Pad等的多点触摸。到了智能硬件时代,交互则更加多元,不仅有触摸,还有基于语音、视觉的交互。原本是以机器为中心的人机交互,逐渐走向以人为中心的自然交互。

  他认为,在将来万物互联的浪潮下,以语音为主,键盘、触摸、视觉、手势为辅的交互时代很快会到来。

  提到传统的语音交互,王士进列举了几个缺点:第一,交互距离要近;第二,发音必须标准;第三,环境必须安静;第四,人机不能持续对话。

  科大讯飞在2015年提出AIUI,旨在解决上述问题同时期望在人工智能时代提供一种智能的人机交互界面。AIUI提供远场唤醒和识别降噪方案,兼容全国近17种方言,可以进行全双工交互和基于业务场景的多轮对话,同时结合讯飞超脑的认知智能使得机器进行更智能的交互。

  AIUI实现了软硬一体化、云端一体化、技术服务一体化,通过三个一体化提供人机智能交互整体解决方案,使得用户可以快速切换到新的业务场景。

  在提到基于AIUI交互技术的一些商业化尝试时,王士进列举了几种:

  在交流方面,科大讯飞在05年推出了听见智能会议这款产品。一般来说,会议场景的同传准确率为80%左右,而智能会议转写准确率则能达到90%以上,之后,其在医疗和司法系统进行了应用。另外,科大讯飞还推出了便携翻译机,易于随身携带,方便远程实时交流。

  在电视方面,最早的电视是用数字加上下左右按键控制仅有的十几个台,而现在的智能电视后台对接海量资源,通过讯飞智能电视助手可以进行方便的语音交互,节省时间。

  在汽车方面,由于人在驾驶时候手不能离开方向盘,故把语音引入代替手进行交互会方便许多。实际上相比其他应用场景,语音识别由于汽车场景的噪音更强,面临更大挑战,而科大讯飞也在基于车载的语音识别做了许多优化,更在宝马、奔驰、通用举行的全球车载语音识别比赛取得第一名,有效的支撑了车载场景的交互。

  在机器人方面,机器人与人的语音交互满足自然交互、个性化服务以及基于业务场景的整合服务,可以方便的任意打断,在理解用户的需求下进行精准的内容推荐和服务。

  语音识别和自然语言理解都是基于统计和概率体系,所以商业化过程建议选择人受到一定限制(如车载)或者很难做百分之百正确(如会议同传)的场景,然后随着技术的进一步成熟,可以进入到更多的场景。

  最后,王士进总结道,“语音识别和人机交互技术在进行技术优化的同时更要结合应用场景,最终可使得技术完善,产业更好的发展。”

  百度语音技术部声学技术负责人——李先刚

  提到这些年对手机百度语音搜索的不断优化过程,李先刚认为要做好这样一个产品,先要收集相关数据,然后将语音识别应用推广到相关产品线上供用户使用,用户使用后反馈回来数据形成完整链条,最终达到非常完美的状态。

  他把输入法在语音识别中的作用表述为:输入法这一场景对语音识别性能提升有非常大的帮助。

  而今年,百度在语音技术方面的进展包括基于GramCTC的端对端语音识别系统以及端对端说话人识别技术。

  基于CTC的端对端语音识别系统是目前主流的工业系统,在2015年底,百度实现了CTC端对端语音识别系统的上线。而今年,百度进一步提出了GramCTC算法。

  主流的说话人识别技术使用经典的DNN-IVECTOR技术,其框架基于统计模型,并将DNN引入此框架去学习。

  可以看到的是,语音识别已走向大数据和端对端的道路,百度也将把说话人识别技术向此发展,进一步提升相关性能。

1  2  下一页>  
声明: 本文由入驻OFweek公众平台的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

我来说两句

(共0条评论,0人参与)

请输入评论

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号