人工智能驱动的语音识别正在进入一个新阶段全面的全球理解

导读 一家语音识别初创公司刚刚获得6200万美元的B轮融资。这笔钱将如何使用?为了让计算机能够理解世界上的每一种声音。如果这没有让您觉得雄心勃

一家语音识别初创公司刚刚获得6200万美元的B轮融资。这笔钱将如何使用?为了让计算机能够理解世界上的每一种声音。

如果这没有让您觉得雄心勃勃,那么您还没有花足够的时间让Siri撰写短信。语音识别一直是开发人员面临的巨大挑战,也是各行各业密切关注的难题。该技术对机器人、自动驾驶汽车和个人计算等领域的人机界面产生了影响,所有这些都将受益于能够准确解释自然语音的计算机。

因此,语音识别是一种技术切入点,一种市场需求,可以帮助刺激技术的发展,这些技术将对我们与机器的交互方式产生广泛的共鸣和不可估量的影响。

这也是一个股权问题。毫不奇怪,语音识别目前适用于全球一小部分人口。

挑战的很大一部分是训练模型。大多数训练数据需要手动分类,这意味着准确性只能在非常窄的一组说话者中实现(毫不奇怪,该窄组恰好对应于最有价值的消费者)。Speechmatics正在采取不同的方法来争取更具代表性的语音识别。

根据斯坦福大学“语音识别中的种族差异”研究中使用的数据集,与谷歌(68.6%)和亚马逊(68.6)相比,Speechmatics记录的非裔美国人声音的总体准确率为82.8%。这种准确度相当于语音识别错误减少45%——相当于平均句子中的三个词。

它的引擎使用不需要人工干预的未标记的、更具代表性的语音数据,暴露在数十万个单独的声音中。这有助于将覆盖范围扩大到讲英语的人之外。

“我们在过去几年取得的进步让投资者对我们的B轮融资充满了兴趣,”首席执行官KatyWigdahl说。“Speechmatics团队雄心勃勃。我们在语音技术方面拥有真正的传统,并结合了一些世界上最有才华的语音和机器学习专家。”

目前,该引擎可以理解34种语言,这只是很大的语言桶中的一小部分(全世界有7,000多种语言)。但该平台在标点符号、数字、货币和地址方面取得了令人瞩目的进步,这些传统上阻碍了语音识别引擎。

所有这些都引起了这家英国公司的极大兴趣。3PlayMedia、Veritone、DeloitteUK和Vonage等公司以及世界各地的政府部门都在使用该平台。