科大讯飞“说话人角色分离”攀世界之巅

发布时间：2021-01-29

　　“这次参赛前，我们就定下了目标，一定要拿下比赛！”科大讯飞智能语音研究员孙磊对中华工商时报记者说。

　　近日，科大讯飞在国际说话人角色分离比赛（DIHARD-3）中摘得桂冠，是国内首次有团队在该赛事上取得冠军。此次获得好成绩突显了科大讯飞语音识别技术辨别说话人角色的能力进一步提升。

　　说话人角色识别实现新突破

　　自2016年以来，科大讯飞三次参加国际多通道语音分离和识别大赛（CHiME）并连续夺冠，而此次国际说话人角色分离比赛有何新突破？

　　“之前的比赛是给定语音边界和说话人信息，不需要你做判断，考验的是语音内容识别的准确度，而这次比赛我们是要去识别语音中哪些人在说话，分别在什么时候说话。”孙磊举例称，之前比拼的是机器能听懂说的是什么，而现在要分辨声音来源的不同。

　　据科大讯飞参赛团队介绍，说话人角色分离技术与生活、办公息息相关，凡是语音识别可以涉及的场景，都可以适用。

　　“在从技术角度构想的应用里，例如医疗场景下，医生在问诊的过程中与病人有很多互动，对话甚至会有各种干扰，在医生回访病例想要通过语音检索病情时，这项技术就能快速分辨出病人和医生的角色，帮助医生快速提取信息。”孙磊告诉记者，在未来新冠肺炎的治疗探索中，这项技术可以帮助医生提高工作效率。

　　但让机器分辨出不同的角色，实属不易。“在这些场景中，说话人数量不确定，多人语音交叠，对话风格随意，还有很多噪音的干扰。”孙磊介绍，DIHARD-3的比赛数据集合了不同场景的真实数据，评价指标严苛，说话人边界容忍度为0，科大讯飞联合中国科大语音及语言信息处理国家工程实验室杜俊副教授团队在四个任务排行榜上包揽所有指标第一名，获得冠军。

　　再添技术桂冠非一日之功

　　据了解，本次比赛科大讯飞团队重新梳理了技术路线，提出了多种解决思路来代替传统方案：创新性地将说话人角色分离问题当做语音分离问题来解决；将角色标签的指派问题转化为目标说话人的语音检测问题；创新性提出迭代式说话人估计算法，大幅提升了系统水平。

　　多年来，科大讯飞和中国科学技术大学共建语音及语言信息处理国家工程实验室，搭建产学研平台，保持开放合作的同时，始终把创新的引领作用摆在重要位置，不断开拓语音识别的前沿技术。

　　从实验室的博士研究生走向研究员的岗位，孙磊也切身感受到科大讯飞除了具备核心技术优势，更有持续推动产学研共同发展的创新力量。

　　“三年前我们团队第一次接触这个比赛时，处于摸索阶段，技术还不成熟，与国际顶尖水平还有差距，但我们从未放弃过。之后实验室一直关注前沿技术，科大讯飞又能够在真实复杂问题的解决中提供很多技术方案，在持续的沟通中，技术逐渐积累，不断迭代。”孙磊告诉记者，在说话人角色分离技术的探索中，团队也经历了不少困难，在学术和产品两端反复尝试，目前取得的成绩也只是阶段性成果，未来还将持续加码创新，不断实现自我超越。

　　新一代智能语音技术未来可期

　　随着单人语音识别逐渐走向成熟，开发多人交互语音识别技术是整个行业的发展趋势。

　　记者了解到，科大讯飞坚持参加说话人角色分离比赛，在技术上不断攻坚，其实正是在布局下一代智能语音技术。“比如手机输入法的语音识别、手机的语音助手等，这些场景较为单一，没有多人交互，也没有频繁的话语插入，但实际很多场景都是随机交互的，目前这一代技术还不能很好地处理这些问题。”孙磊解释，单人语音识别技术存在局限性，难以应对“多人”“交互”“重叠”等多重因素交织的复杂语音场景，下一代语音识别技术就是要突破这些阻碍，并且具有更高的应用价值和空间。

　　目前科大讯飞录音笔已经可以处理简单的说话人角色分离，此次比赛获得冠军意味着科大讯飞在说话人角色分离技术上有较大的性能提升，未来将在相关办公产品中普及应用。

　　科大讯飞财报显示，公司的研发投入连续多年占营收比超20%。

　　从摸着别人的石头过河，到摸着自己的石头过河，作为技术创新型民营企业，科大讯飞一直勇闯技术的无人区，并将在“十四五”新发展阶段努力实现科技产业的高质量发展。科大讯飞参赛团队表示，未来他们将继续完善创新研究，同时做好调研工作，让这些技术充分在产品应用上落地，更好地满足大众需求。