您现在的位置是: 首页 > 前沿科技 >

Google开源扬声器Diarization AI技术声称准确度达到92%

Google在最近的博客文章中宣布,他们已经开放了他们的扬声器二值化技术的来源,该技术能够以较高的准确率区分人的声音。Google可以通过将包括多个参与者的音频流划分为每个参与者同质的片段来做到这一点。
 Google开源扬声器Diarization AI技术声称准确度达到92%

将语音划分为同类片段具有许多应用。Google的研究科学家Chong Wang解释道:

通过解决“谁在何时说话”的问题,说话者区分在许多重要场景中都得到了应用,例如了解医疗对话,视频字幕等等。

能够准确地划分对话,可以提高在线和离线数字化系统的质量。最新的《Annals家庭医学杂志》报道说,这种好处在医疗保健行业具有许多实际好处。
 Google开源扬声器Diarization AI技术声称准确度达到92%

医生通常会在11小时的工作日中,在电子健康记录(EHR)中花费约6个小时来记录文档。因此,一项研究发现,超过一半的接受调查的医生报告至少有一种倦怠症状。

从历史上看,使用监督学习方法来训练语音听写系统一直是一项挑战。王解释原因:
 Google开源扬声器Diarization AI技术声称准确度达到92%

使用监督学习方法来训练这些系统是具有挑战性的-与标准监督分类任务不同,一个强大的区分模型需要能够将新人与未参与训练的不同语音段相关联。重要的是,这限制了在线和离线数字化系统的质量。

在流音频输入上使用在线扬声器二值化可以检测到不同的扬声器,如下图所示,其底轴颜色不同。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
Top