详细信息 位置: 首页 >> 行业动态  
 

智能语音的应用发展趋势

编辑:创泽      来源:创泽集团      时间:2022/3/26
 

智能语音,主要是人和机器通过语音作为媒介进行自然交互的形式,涉及到的核心技术主要包括四个方面,首先通过语音识别(ASR)转成文字,如果语音信号质量不好的话,前端会有一个语音增强模块;然后是口语语言理解,接下来是对话管理和口语语言生成,而最终通过文语转换(TTS)生成语音回馈给用户。

回顾语音识别的发展,在2000年之前,语音识别的错误率有明显的改善,而在2000年到2010年期间,我们做的很多努力很难再去进一步降低识别的错误率。在大概2010年后,在深度学习的推动下,利用大数据、机器学习和大算力这“三驾马车”,语音识别的识别准确度再一次明显提升,错误率再一次下降,并且在一部分数据集上实现了媲美人类语音识别的精度。

语音识别是智能语音范畴内的一个典型任务,除此之外,智能语音的任务还包括语音编码、语音增强、关键词检出、声纹识别等一系列任务,而智能语音技术能够服务的方向主要包括三方面,一是自然人机交互,二是自然人人交互,还有就是内容分析与挖掘,垂直落地的应用非常多,场景广泛,价值巨大。

在技术侧,智能语音行业发展仍然面临着声纹识别的不稳定性、语音识别的鲁棒性以及训练场景的长尾性的落地挑战;

而在应用侧,智能语音技术已逐步从纯技术形式应用,转向“语音+AI技术+行业“的创新式发展。

受供给侧的业务增长突破和需求侧的客户诉求推动,智能语音技术调用不仅是单纯为转写“人说了什么”或者输出“机器要说什么”,而是正逐步与语义理解、知识图谱等AI技术融合,让使用智能语音技术的机器本体更加具备认知性和行业关联性,结合行业 Know-how和甲方需求输出整体性、结果导向性的实用解决方案。

智能语音的技术挑战

1 声纹识别的不稳定性:人的声音在不同时间、 状态会呈现不同的特征,因此技术层面如何准确识别变化明显的声纹特征仍然面临挑战。

2 语音识别的鲁棒性:说话目标由远到近的移动、场景变化、背景噪音、混响嘈杂、干扰声源等真实场景,会给语音识别准确率带来较大 折扣。

3 训练场景的长尾性:面对低资源小语种和语言训练场景,如何通过较少资源获得规模有效的训练成果,是智能语音持续面临的技术挑战。


 
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】
 
推荐信息
高层窗户清洁机器人可清洁摩天大楼外侧难以触及的外墙的清洁机器人,650万美元的pre-A轮融资用于各种业务运营及持续的产品开发
将单个手指控制和自动化结合起来,以提高抓取和操作能力,涉及从截肢者残肢上的肌肉活动中解读意图的手指运动,以实现对假肢手的单个手指控制
政策+需求+场景+信创驱动工业视觉行业发展进入新阶段,助力中国制造的眼睛自主可控,其技术逐步由基础模式匹配向深度学习方向纵向超越式 发展
从数据模型逻辑、技术架构、需求功能、部署方式、存储介质、商业模式、数据库治理模式等七大维度对数据库发展脉络进行详细阐述
个性化配置;主动唤醒;主动引导;主动服务;主动迎宾;智能引领;售后服务体系是否完善;厂家的数量及规模有很多的客户案例
由普曼资本及潍坊中谷健康产业基金领投,小米集团联合创始人黄江吉,科大讯飞联合创始人胡郁及晨晖创投,浩方创投等知名投资人及机构方参与跟投,老股东高秉强教授本轮继续跟投
识别脑健康风险的数据积累较少,数据库建设仍较为薄弱;脑科学的研发资源共享有待提高,本土研究优势仍待发挥
武汉人工智能超算中心位于东湖高新区,合作单位有华为 中科院自动化所 武汉大学 武汉理工大学,算力规模是100p flops
 

行业动态

 
 

迎宾机器人在楼梯处迎接客人
 
新动态