4月15日,记者从中科院旗下人工智能(AI)创业公司云从科技获悉,4月以来,该公司通过优化算法、提出新模型,接连在语音技术方面取得多项突破,在语义纠错、语音识别、深度学习降噪等领域刷新多项语音识别权威纪录,超越此前亚马逊、搜狗等企业创下的最好成绩。
在语义纠错方面,云从团队提出的新模型在权威中文语音识别数据集Aishell和清华大学语音Thchs30测试集上,将字错率(CER)第一遍WFST解码以及第二遍RNN重打分结果分别相对降低21.7%和10.3%。字错率降低意味着更准确地将语音转换为文字,并尽量纠正语义错误。这一提升让AI更加“听得懂”。
在语音识别方面,云从新模型通过融合语音识别和说话人声纹识别,在提高识别率的同时,大大提升了在不同说话人场景下的鲁棒性。新模型刷新了Aishell的识别纪录,将字错率降低到4.34%,较过去最好成绩降低了8%。这一提升意味着AI可更精准识别出说话者,让AI更加“听得出”。
在深度学习降噪方面,云从团队基于“带有注意力机制的卷积递归神经网络”提出的深度学习降噪模型,在行业顶会Interspeech2020 DNS Challenge比赛数据集上取得了目前最好的结果,在诸如PESQ(衡量失真的指标)等指标上相对提高了10%以上。这些提升主要针对嘈杂环境去除噪声,使语音更清晰,让AI更能“听得清”。
“语音技术每提升1个百分点的准确率,都如同征服一座高山。”云从科技联合创始人姚志强对《明升官网明升体育app报》表示,此次云从一举在三项语音技术上取得新突破,不仅展现了企业的科研基础与创新能力,同时也彰显出云从在AI技术领域的全面性与综合性。近年来语音技术已经广泛应用于人们的生活,但大多是依托智能语音设备在室内安静环境下的单人交互,云从团队提出的多个创新模型,对于突破业界瓶颈,攻克嘈杂环境、多人对话等复杂应用难题,具有重大意义。
相关论文信息:
http://arxiv.org/abs/2104.05507
http://arxiv.org/abs/2104.05267
版权声明:凡本网注明“来源:明升官网明升体育app报、明升手机版(明升官网)、明升体育app手机版杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、明升头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。