语音开源_开源语音接口面临的挑战-白红宇

语音开源_开源语音接口面临的挑战

阅读量：2523 次

发布时间：2019-05-11

本文共 2228 字，大约阅读时间需要 7 分钟。

语音开源

如果您像许多开放源代码狂热者一样，您可能已经长大了，观看科幻节目如Knight Rider或Star Trek或（我个人最喜欢的） Time Trax 。他们有什么共同点？在每种语言中，语音都是主角与计算机交互的关键媒介。 骑士骑士（Knight Rider）拥有基特（Kitt）， 星际迷航 （ Star Trek）拥有无处不在的计算机，甚至在《时光 穿越》 （ Time Trax）中不朽的达里安·兰伯特（Darrian Lambert）都有可靠的全息助手塞尔玛（Selma）。

随着机器学习，计算能力和神经网络的发展，语音交互正逐渐从科幻小说转变为科学事实。

令人失望的是，这个领域的早期领导者主要是商业和专有厂商-苹果与Siri，亚马逊与Alexa，微软与Cortana，谷歌与Home，三星与Bixby。鉴于其营利的必要性，语音数据通常由大公司定期记录和存储，然后用于细分受众群体，介绍人物并通过广告定位他们，也就不足为奇了。与其他大数据一样，语音数据现在也成为一种货币。

鉴于自然语言理解被广泛用作用户界面，以及专有解决方案可能带来的隐私侵扰，开源语音的吸引力正在增长。

那么，开源语音堆栈中包含什么？

语音交互以唤醒词（也称为热门词）开始，它使语音助手准备接收命令。然后， 语音到文本引擎录制从声音听的话语成书面语言和意图解析器决定命令的类型，使用者要进行什么。然后，语音堆栈选择要运行的命令并执行它。最后，它使用文本到语音引擎将书面语言重新转换为语音。

在语音堆栈的每一层，都有几种开源解决方案。

唤醒词检测

是最早的唤醒词引擎。 PocketSphinx基于音素识别唤醒词，音素是将一种语言与另一种语言区别开来的最小声音单位。不同的语言具有不同的音素-例如，很难用英语近似印度尼西亚的颤音“ r”（此音素是“滚动”“ r”音时发出的声音）。对于不是母语人士的人来说，使用音素进行唤醒词检测可能是一个挑战，因为他们的发音可能不同于唤醒词的“标准”发音。

是另一个热门单词检测引擎；它可以通过商业和开源许可证获得。 Snowboy与PocketSphinx的不同之处在于，它不使用音素来进行唤醒词检测；取而代之的是，它使用经过训练的虚假和真实例子的神经网络来区分什么是唤醒词，什么不是唤醒词。

AI的唤醒词引擎通过训练递归神经网络来区分唤醒词和非唤醒词，其工作原理类似。

所有这些唤醒词检测器均在“设备上”工作，这意味着它们无需将数据发送到云，这有助于保护隐私。

语音到文本的转换

准确的语音到文本的转换是开源语音堆栈中最具挑战性的部分之一。是最流行的语音到文本引擎之一，它有几种“模型”可供选择。在语音到文本的世界中，模型是一种神经网络，已使用特定算法对特定数据集进行了训练。卡尔迪拥有适用于英语，中文和其他一些语言的模型。 Kaldi最吸引人的功能之一是它可以在设备上运行

Mozilla的实施以及相关的数据采集项目旨在支持更广泛的语言。目前，DeepSpeech的计算要求意味着它只能用作云实施-太“繁重”而无法在设备上运行。

语音到文本的最大挑战之一是训练模型。 Mycroft AI已。 Mycroft AI将经过训练的数据传回Mozilla，以帮助提高其模型的准确性。

意图解析

强大的语音堆栈还需要确保准确捕获用户的意图。有几个开源的意图解析器。是开源的，并且广泛用于语音助手和聊天机器人。

Mycroft AI使用两个意图解析器。首先，使用关键字匹配方法确定置信度得分，然后将控制权以最高置信度传递给技能或命令。采用了不同的方法，其中提供了实体的示例，因此它可以学会在语音中识别实体。

目的冲突是目的解析器的挑战之一。想象一下话语：

“由Whitlams演奏一些东西”

根据可用的命令或技能，可能有不止一种可以处理意图。意图分析器如何确定要传递给哪个？ Mycroft AI的将不同的权重分配给不同的实体，从而获得更准确的总体意图信心得分。

文字转语音

语音交互生命周期的另一端是文本语音转换（TTS）。再次，有几个可用的开源TTS选项。通常通过使用结构化的语料库或短语集收集语言使用者的录音来训练TTS模型。应用机器学习技术将记录合成为通常用于特定语言的通用TTS模型。

是最受欢迎的语言之一，并且支持多种欧洲语言。尽管多种语言之间的综合质量差异很大，但拥有适用于20多种语言的TTS模型。

Mycroft AI的Mimic TTS引擎基于 TTS合成引擎，并具有两种英语语音。较新的是基于Tacotron的实现，它具有更少的机械手，更自然的声音。 Mimic在设备上运行，而Mimic 2（由于计算要求）在云中运行。此外，Mycroft AI最近发布了Mimic Recording Studio，这是一个基于Docker的开源应用程序，它使人们可以制作录音，然后可以使用Mimic 2将其训练成单独的声音。

这解决了TTS的许多问题之一-具有自然的声音，可以使用各种性别，语言和方言。

离别笔记

越来越多的开源语音工具正在出现，每种工具都有其自身的优点和缺点。但是可以肯定的是，保护隐私的更加成熟的开源语音解决方案的动力仍然存在。

凯西·里德（Kathy Reid）将于1月21日至25日在新西兰克赖斯特彻奇举行的》。

翻译自:

语音开源

转载地址：http://dxyzd.baihongyu.com/

你可能感兴趣的文章