谷歌双语助理来了,支持多种语言功能
分类:科学技术

原标题:谷歌双语助理来了!中英夹杂也不怕,递归神经网络和随机森林显神威

原标题:Google 智能助理,支持多种语言功能!

来源:ai.googleblog、新智元

文 / 副总裁 Johan Schalkwyk 和 Google Speech 工程师 Ignacio Lopez Moreno

图片 1

多语言家庭正变得越来越普遍,一些数据来源 [1][2][3] 表明,多语言使用者的人数已超过单语言使用者,而且这一数字还会继续增长。鉴于多语言使用者人群庞大且不断增加,与以往相比,我们更需要使 Google 开发产品能够同时支持多种语言,以便更好地为用户服务。

使用 Google Assistant 的 Google Home Mini

今天,我们将推出 “Google 智能助理” 的多语言支持功能,让用户在查询时可以切换两种不同的语言,而无需返回语言设置。用户从英语、西班牙语、法语、德语、意大利语和日语中选择两种受支持的语言后,便可使用其中任意一种语言与 “智能助理” 对话,而 “智能助理” 会以相同的语言回应。之前,用户需要为 “智能助理” 选择一种语言设置,而每当他们想使用另一种语言时,便需要更改设置,但现在,多语言家庭无需动手,即可享受简便的体验。

多语家庭正变得越来越普遍,有一些研究发现多语人口已经超过单语人口,而且这个数字还将继续增长。随着多语用户数量的不断增加,开发能够同时支持多种语言的产品比以往任何时候都更加重要。

图片 2

今天,谷歌的智能助理 Google Assistant 开启了多语言支持,允许用户同时使用两种不同的语言进行查询,而无需返回语言设置。一旦用户选择了两种支持的语言(目前支持的语言包括英语、西班牙语、法语、德语、意大利语和日语),他们就可以使用其中任一种语言与 Google Assistant 进行对话,智能助理也会以同一种语言做出回复。

“Google 智能助理” 现在能够识别语言、解读查询内容,并使用正确的语言作出回应,而且用户无需触摸 “智能助理” 设置,便可完成这些操作

在此之前,用户必须为智能助理选择一种语言设置,每次想要使用另一种语言时都必须更改设置。但现在,对于多语家庭来说,与谷歌助理交流的体验变得更加简单方便了。

然而,实现这项强大的功能却并非易事。事实上,我们付出多年的努力解决了诸多难题。最终,我们将问题拆分成三个独立的部分:识别多种语言、理解多种语言,以及为 “Google 智能助理” 用户优化多语言识别。

图片 3

识别多种语言

Google Assistant 现在能够识别语言、解释查询并使用正确的语言提供回复,而无需用户手动设置设置。

当有人在说另一种语言时,即使我们自己并不说这种语言,也能够识别出来,只要注意语言的声学效果(语调、音域等),便可做到这一点。但是,即便有了完整自动语音识别系统的帮助,定义自动口语识别的计算框架也非常具有挑战性 1。在 2013 年,Google 开始使用深度神经网络 [4][5] 来研究口语识别 (LangID) 技术。如今,借助递归神经网络,我们最先进的 LangID 模型可以在超过 2000 个备选语言对中识别各种语言对。作为其中一类神经网络,递归神经网络在解决序列建模问题上尤为有效,例如语音识别、语音检测、语者识别等方面的问题。我们遇到的挑战之一是如何处理更大的音频集,这需要获取能够自动大规模理解多种语言的模型,并且达到可以让这些模型正常运作的质量标准。

然而,实现这一功能并非易事。事实上,研究人员努力了多年,解决了许多具有挑战性的问题。最后,我们将问题分解为三个独立的部分:识别多种语言,理解多种语言,以及为 Google Assistant 用户优化多语言识别

理解多种语言

识别多种语言

要同时理解多种语言,便需要并行运行多个进程,且每个进程产生增量结果,从而使 “智能助理” 不仅能够识别用户提出查询时所使用的语言,还可以解析查询以创建可操作指令。举例来说,即使是在单语言环境中,如果用户要求 “设定下午 6 点的闹钟”,则 “Google 智能助理” 必须理解 “设定闹钟” 的意思是打开闹钟应用,输入 “下午 6 点” 的显式参数,而且还要推断出闹钟应该设在今天。要对受支持语言的任何给定语言对执行这项操作可谓一项挑战,因为 “智能助理” 执行与在单语言情况中相同的工作,但现在必须额外启用 LangID,并且不只是一个,而是同时运行两个单语言语音识别系统(在本篇博文的稍后部分,我们会进一步说明当前两种语言的限制)。

人类是有能力识别出别人在说另一种语言的,即使他们自己不会说这种语言,只需要注意语音的声学特征(语调、音域等等)。但是,即使借助于全自动语音识别系统,定义一个自动口语语言识别的计算框架也是很有挑战性的。

重要的是,我们需要在几毫秒的时间内评估 “Google 智能助理” 和用户查询中提及的其他服务异步生成的实时增量结果。我们借助另一种算法来完成这项工作。该算法使用由 LangID 产生的候选语言概率、我们的转录置信度和用户偏好(例如最喜欢的艺术家),对两个语音识别系统中每个系统提供的转录假设进行排名。

研究者通常认为,口语识别比基于文本的语言识别更具挑战性,对于文本语言识别来说,相对简单的基于字典的技术已经可以做得很好。口语词汇的时间 / 频率模式很难比较,口语词汇很难划界,因为口语可以毫无停顿地以不同的节奏说话,而且麦克风可能会记录除了语音之外的背景噪音。

图片 4

在 2013 年,谷歌开始使用深度神经网络开发口语识别(LangID)技术。今天,谷歌最先进的 LangID 模型已经可以使用递归神经网络区分超过 2000 种可供选择的语言对。递归神经网络特别适用于序列建模问题,例如语音识别、语音检测、说话人识别等。研究人员遇到的挑战之一是使用更大的音频集——获取能够自动理解多种语言的模型,并达到允许这些模型正常工作的质量标准。

我们用于 “Google 智能助理” 的多语言语音识别系统与标准单语言语音识别系统示意图。排名算法用于根据有关用户和增量 LangID 结果的相关信息,从两个单语言语音识别器中选择最佳识别假设

理解多种语言

当用户停止讲话时,模型不仅可确定用户所说的语言,还能解读用户的说话内容。当然,这个流程需要复杂的架构,因而会增加处理开销,而且可能会造成不必要的延迟。

本文由威尼斯网址开户网站发布于科学技术,转载请注明出处:谷歌双语助理来了,支持多种语言功能

上一篇:没有了 下一篇:百万分之11,怎样将大课题融入到教学中
猜你喜欢
热门排行
精彩图文