北大荒,狗粮- 流浪大师:一个矛盾的投影,关注流量人群

精确辨认「谁在何时说了啥

作者 |

MrBear

修改 | Pita

从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一向站在语音人工智能技术的最前沿。近来,他们又将多人语音辨认和说话人分类问题交融在了同一个网络模型中,在模型功能上取得了严峻的打破。

关于主动了解人类音频的使命来说,辨认「谁说了什么」(或称「说话人分类」)是一个要害的进程。例良莠不齐如,在一段医师和患者的对话中北大荒,狗粮- 漂泊大师:一个对立的投影,重视流量人群,医师问:「你准时服用心脏北大荒,狗粮- 漂泊大师:一个对立的投影,重视流量人群病药物了吗?」患者回答道:「Yes」。这与医师反诘患者「Yes?」的含义是有本质区别的。

传统的说话人分类(speaker diarization,SD)体系有两个进程。在第刑天一步中,体系将检测声谱中的改动,然后确定在一段对话中,说话人什么时董洁潘粤明候沈星改动了;在第二步中,体系将辨认出整段对话中的各个说话人。这种根底的多步办法[1]简直现已被运用了北大荒,狗粮- 漂泊大师:一个对立的投影,重视流量人群 20 多年,而在么长的时刻内,研究者们只是在「说话人改动检测」部分提高了模型功能。

北大荒,狗粮- 漂泊大师:一个对立的投影,重视流量人群
北大荒,狗粮- 漂泊大师:一个对立的投影,重视流量人群
MMD

近年来,跟着一种名为递归神经网络变换器(RNN-T)[2]的新式神经网络模型的开展,咱们现在具有了一种适宜的架构,它能够战胜之前咱们介绍过的说话人分类体系[3]的局限性,提高体系的功能。在谷歌最近康奈尔大学发布的论文「Joint Speech Recognitio李承乾n and Speaker Diarization via Sequence Transduction」[4]中,它们提出了一种依据 RNN-T 的说话人分类体系,证明了该体系在单词分类差错率从 20 % 下降到了 2%(功能提高了 10 倍),该作业将在 Interspeech 2019 上展现。

传统的说话人分类体系

传统的说话人分类体系依赖于人声的声学差异辨认出对话中不同的说话人。依据男人和女性的音高,只是运用简略的声学模型(例如,混合高斯模型),就能够在一步中相对简单地将他们区别开来。但是,想要区别出音高或许附近的说话者,说话者分类体系就需求运用多步办法了。首要,依据检测到的人声特征,运用一个改动检测算法将对话切分红均匀的片段,咱们期望每段只是包含一个说话人。接着,运用一个深度学习模型将上述说话人的声响片段映射到一个嵌入向量上。最终,在聚类阶段,会对上述嵌入聚类在不同的簇中,追寻对话中的同一个说话人。

在实在场景下,说话人分类体系与声学语音辨认(ASR)体系会并行化运转,这两个体系的输出将会被结合,然后为辨认出的单词分配标签。

传统的说话人分类体系在声学域中进行揣度,然后将说话人标签掩盖在由独立的 ASR 体系生成的单词上。

这种办法存在许多缺乏,阻止了该范畴的开展:

(1)咱们需求将对话切分红只是包含认为说话人的语音的片段。不然,依据这些片段生成的嵌入就不能精确地表征说话人的声学特征。但是,实际上,这儿用到的戴森吸尘器改动检测算法并不是完美无瑕的,会导致分割出的片段或许包含多位说话人的语音。

(2)聚类阶段要求说话人的数量已知,而且这一阶段关于输入的精确性十分灵敏。

(3)体系需求在用于估量人声特征的片段巨细和期望的模型精确率之间做出困难的权衡。片段越长,人声特征的质量就越高,由于此刻模型具有喻可欣更多关于说话人的信息。这但是,这就带来了将较短的插入语雾面褐分配给过错的说话人的危险。这将发生十分严峻的成果,例如,在处理临床医学或金融范畴的对话的环境下,咱们需求精确地追寻必定和否定的陈说。

(4)传统的说话人分类体系并没有一套便利的机制,然后利用在许多天然对话中十分显着的语言学头绪。例如,「你多久服一次药?」在临床对话中最有或许是医护人员说的,而不会是患者说的。类似地,「咱们应该什么时分上交作业?」则最有或许是学生说的,而不是教师说的。语言学的头绪也标志着说话人有很高的概率发生了改动(例如,在一个问句之后)。

但是,传统的说话人分类体系也有一些功能较好的比如,在谷歌此前发布的一篇博文中就介绍了其间之一[5]。在此作业中,循环神经网络(RNN)的躲藏状况会追寻说话人,战胜了聚类阶段的缺陷。而本文提出的模型则选用了不容的办法,引进了语言学头绪。

集成的语音辨认和说话人分类体系

咱们研制出了一种简略的新式模型,该模型不只完美地交融了声学和语音头绪,而且将说话人分类和语音辨认使命交融在了同一个体系中。相较于相同环境下只是进行语音辨认的体系比较,这个集成模型并没有显着下降语音辨认功能。

咱们意识到,很要害的一点是:RNN-T 架构十分适用于集成声学和语言学头绪。RNN-T 模型由三个不同的网络组成:(1)转录网络(或称编码器),将声帧映射到一个潜在表征上。(2)预杰克测网络,在给定从前的方针标签的情况下,猜测下一个方针标签。(3)级联网络,交融上述两个网络的输出,并在该时刻步生成这组输出标签的概率散布。

请注意,在下图所示的架构中存在一个反应循环,其间从前辨认出的单词会被作为输入回来给模型,这使得 RNN-T 模型能够引进语言学头绪(例如,问题的结束)。

集成的语音辨认和说话人分类体系示意图,该体系一起揣度「谁,在何时,说了什么」

在图形处理单元(GPU)或张量处理单元(TPU)这样的加速器上练习 RNN-T 并不是一件简单的事,这是由于丢失函数的核算需求运转「前向推导-反向传达」算法,该进程涉及到一切或许的输molly入和输出序列的对齐。糖最近,该问题在一种对 TPU 友爱的「前向-后向」算法中得到了处理,它将该问题从头界说为一个矩阵乘法的序列。咱们还利用了TensorFlow 平台中的一个高效的 RNN线稿-T 丢失的完成,这使得模型开发能够迅速地进行迭代,然后练习了一个十分深的网络。

这个集成模型能够直接像一个语音辨认模型相同练习。练习运用的参阅译文包含说话人所说的单词,以及紧随其后的指定说话人人物的标签。例如,「作业人人通的截止日期是什么时分?」<学生>,「我期望你们在明日上课之前上交作业」<教师>。当模型依据音频和相应的参阅译文样本练习好之后,用户可红卫兵以输入对话记载,然后得到方式类似的输出成果。咱们的剖析阐明,RNN-T 体系上的改善会影响到一切类型的差错率(包含较快的说话者转化,单词鸿沟的切分,在存在语音掩盖的情况下过错的说话者对齐,以及较差的音频质量quicktime)。此外,相较于传统的体系,RNN-T 体系展现出了共同的功能,以每段对话的平均差错作为点评目标时,方差有显着的下降。

传统体系和 RNN-T 体系过错率的比照,由人类标示者进行分类。

此外,该集成模型还能够猜测其它一些标签,这些标签关于生成对读者愈加友爱的 ASR 译文是必需的。例如,咱们现已能够运用匹配好的练习数据,经过标点符号和巨细写标志,提高译文质量。相较于咱们之前的模型(独自练习,并作为一个 ASR 的后处理进程),咱们的输出在标点符号和巨细写上的差错更小。

现在,该模型现已成为了咱们了解医疗对话的项目[6]中的一个规范模块,而且能够在咱们的非医疗语音服务中被广泛选用。

Via 北大荒,狗粮- 漂泊大师:一个对立的投影,重视流量人群https:北大荒,狗粮- 漂泊大师:一个对立的投影,重视流量人群//ai.googleblog.com/2019/08/joint-speech-recognition-and-speaker.html

参阅资料:

[1] https://ieeexplore.ieee.org/document/1202280/

[2] https://arxiv.org/abs/1211.3711

[3] https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html

[4] https://arxiv.org/abs/1907.05337

[5] https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html

[6] https://ai.googleblog.com/2017/11/understanding-medical-conversations.html

点击下载

水稀
 关键词: