cover of episode Alexa, Can You Hear Me? Making AI Voice Assistants Better for Everyone.

Alexa, Can You Hear Me? Making AI Voice Assistants Better for Everyone.

2024/1/12
logo of podcast WSJ’s The Future of Everything

WSJ’s The Future of Everything

AI Chapters Transcript
Chapters
AI voice assistants have become commonplace, but their accessibility for people with atypical voices is limited. Error rates for those with neurological conditions can be significantly higher than for typical speakers. The podcast explores how technology companies and researchers aim to improve this.
  • AI voice assistants are not equally accessible to everyone, especially those with atypical voices.
  • Error rates for people with neurological conditions can be as high as 90%.
  • Tech companies are working to improve accessibility but it remains a challenge.

Shownotes Transcript

亚马逊Q业务是来自AWS的生成式AI助手,因为业务可能会很慢,就像在泥地里行走一样,但亚马逊Q有助于简化工作,因此像一些玛丽·辛格每月业绩这样的任务可以立即完成。访问aw点com闪存,了解亚马逊Q业务能为您做什么,了解更多信息。

各位《未来的一切》听众,温馨提示:在我们开始今天的节目之前,为了给您带来更多您期待的原创报道和访谈,我们做了一些调整。每周五收听我们的节目,并告诉我们您的想法。请发送邮件至FAV播客@WSJ点com。另外,提醒一下,如果您的家中使用了语音助手,本节目中我们会多次提到一些常见的语音助手名称。

我们深感抱歉。

迈克尔·卡什住在以色列的特拉维夫。

我知道,虽然我在英国长大。

他说他49岁,在英格兰长大。你可能难以理解他。

因为他说话口齿不清。

他说他一直都是这样说话的。虽然他的朋友和家人一直都能理解他,但他表示,他需要多年的语言治疗才能有信心与其他人交谈。

他说这样是为了让别人理解他和他的幽默感。数字工具对每个人都有用,但对卡什来说,这意味着能够让人们理解他。他在一家为口语非标准人士制作语音工具的公司担任产品专家,其中包括一款帮助你与患有口吃的人进行一对一交流的工具。

它甚至与亚马逊Alexa集成,可以控制他家里的电视和空调。但当涉及到像Alexa或苹果Siri这样的语音助手内置工具时,他发现使用它们很令人沮丧。

大约十年了。

自从AI语音助手变得普遍以来。它们内置于手机和智能音箱中。在那段时间里,人们已经找到了如何充分利用它们的方法。

嘿,谷歌。播放海浪声。

Alexa,打电话给哥哥。

Siri,播放收音机。

Alexa,音量调低。音量调低。Alexa,停止。但这些语音助手远非完美。许多大型公司,如谷歌,表示其自动语音识别工具的错误率可能低于10%。

但对于那些声音受到帕金森氏症或特定语音疾病等神经系统疾病影响的人来说,错误率可能会高得多,高达50%甚至90%。我能再说一遍吗?但如果AI语音助手一开始就能更好地为每个人服务,无需任何培训呢?来自华尔街日报。

这里是《未来的一切》。我是阿莱克索·萨利赫。今天,我们将讨论学术界和亚马逊、谷歌等科技公司如何努力使AI语音助手更好地为声音非典型的人服务。如果他们能做到这一点,AI语音助手就能更好地为我们所有人服务。敬请关注亚马逊。

Q业务是来自AWS的全新生成式AI助手,因为许多任务会使业务变慢,就像在……

模式中寻求帮助。幸运的是。

有一个更快、更容易、更简洁的选择。亚马逊Q可以安全地理解您的业务数据,并利用这些知识来简化任务。现在,您可以立即总结季度业绩或进行复杂的分析。

Q搞定了。访问AWS点com闪存,了解亚马逊Q业务能为您做什么,了解更多信息。

你到底是怎么制作语音系统的?伊利诺伊大学厄巴纳-香槟分校电子与计算机工程教授马克·霍塞格·约翰逊说,在过去十年左右的时间里,这发生了很大的变化,使得用于依赖与成绩单匹配的音频数据(称为标记数据)的模型发生了变化。但如今,您需要大约一千小时的音频,没有任何关联。这被称为,你猜对了,未标记数据。

并且你有一个神经网络,这是一种算法,其输入和输出之间的关系由许多数字决定。因此,我们希望学习所有这些数字,以便这个神经网络能够根据已经出现的语音声音来预测即将出现的语音声音。

在此之前,训练算法需要大量的计算能力。

霍塞格·约翰逊说。我们上次在大学里尝试这样做时,训练运行花了三个星期。所以这需要相当多的计算机时间。

但一旦完成,研究人员就会测试它,以便他们可以微调算法。

我们使用一堆标记数据,看看效果如何,然后弄清楚我们可以做些什么,以便让它做得更好,并不断调整它以使其做得更好。

听起来很简单,对吧?嗯,制作这些语音识别模型直到相对较近才成为可能。事实上,霍塞格·约翰逊确切地知道……

我会说那真的是。关键时刻可能是2014年12月,当时第一个商业上可行的端到端神经网络自动语音识别系统问世。

换句话说,一些研究人员制作了一种算法,可以识别我们说话时发出的声音并将它们转录出来。他们没有的是大量的数据来训练他们的算法。巧合的是,几个月后,一个革命性的数据库上线了——Librispeech,它包含数百小时的业余有声读物录音。另一组来自约翰霍普金斯大学的研究人员将这些有声读物与在线免费图书馆项目古腾堡中的文字进行了关联,突然之间,他们有了可以使用的数据库。

我相信该数据库的存在使得深度学习自动语音识别革命成为可能。

萨·约翰逊说,该数据库之所以如此重要,是因为研究人员终于为他们的AI语音助手获得了足够的训练数据,使其真正可用,并且这有可能使其在商业上可行。

更大的数据集和将要使用的端到端神经网络训练系统使得公司能够创建真正会被现实生活中的人们使用的产品。

但这些错误率并没有下降得那么多,因为模型最初训练的数据。他们不太擅长理解说英语为第二语言的人,或者说话声音非典型的人。

也许并不奇怪,算法往往难以处理人类难以处理的相同类型的语音模式。因此,例如,由于严重的构音障碍或语言障碍,患有严重构音障碍的人很难被语音识别算法理解。

而且,从那以后的几年里,尽管算法有所改进,但它们并不总是对这些群体有所改进。因此,各公司不得不寻找自己的方法,使其AI语音助手更容易为更多人所用。从事这项工作的人之一是乔什·梅雷利。他是亚马逊2021年的设备首席无障碍研究员。梅雷利因其在……

科技无障碍方面的贡献而获得了麦克阿瑟天才奖。“我的工作实际上与确保亚马逊生产的产品尽可能多地为残疾人士所用有关。”

他的工作也与个人利益相关。

“是的,我是一名首席研究员,但我也是盲人。我不仅非常了解如何为残疾人研发产品,而且我当然也深深地融入到多个残疾人社区中。”

他参与开发的产品之一是Alexa,亚马逊的语音助手,现在已应用于多款亚马逊产品,包括其Echo……

智能音箱。你可以用语音购物。你可以用语音看书。你可以用语音看视频。对于所有亚马逊客户来说,Alexa非常酷。但对于残疾客户来说,Alexa具有变革意义,因为它为他们提供了使用这些服务的机会。电影、书籍、购物,对于残疾人来说,这一切都非常便捷,梅雷利说。

亚马逊对辅助功能的关注源于其希望让尽可能多的客户都能使用其产品的愿望,这导致了一些有趣的方向,包括一个根本不需要语音的功能。

一位无法说话的顾客告诉我们,她真的很想能够在家中使用Alexa。于是我们想出了“轻触Alexa”功能,它基本上使用Echo设备之一,并允许你设置任意数量的不同类型的交互,这些交互由轻触特定磁贴触发。

还有一家名为Voiceitt的公司。还记得我之前提到的迈克尔·卡什工作的Voiceitt吗?它是在……

无障碍的原则上建立的。“我们的核心关注点是如何利用语音识别来帮助患有影响语音的残疾、疾病、医疗状况的人们使用自己的声音进行交流并被理解。”

Voiceitt的联合创始人塞里奥斯·斯莫利说。2020年,Voiceitt推出了与亚马逊Alexa的集成以及语音命令功能。它允许人们为语音助手编程命令,以便它可以执行诸如打开客厅的灯之类的操作,但这也有局限性。

但对于许多想要更流畅、自发地说话的人来说,我们了解到这可能会限制他们。

因此,还有改进的空间。2023年8月,Voiceitt发布了其最新产品Voiceitt 2。这是一个基于浏览器的应用程序。是的,用户仍然需要对其进行训练,但一旦他们完成升级,就会解锁数字世界的新功能。

这些功能和特性包括转录和听写,因此可以使用他们的声音撰写笔记、文档和电子邮件,以及与AI生产力工具进行交互。因此,能够通过语音与ChatGPT进行交互,对于这些人来说是极其赋能的。

但斯莫利说,最显著的功能是能够创建人们正在说的话的实时转录,并将这些转录集成到常见的办公软件中,如WebEx。

Alexa有时会这样描述它:Voiceitt对于今天的远程办公场所来说,就像坡道之于办公大楼一样。如果一个人无法加入、互动、参与视频通话,那么他们就无法真正发挥自己的潜力并在工作中进行沟通。

我有机会在我的采访中试用了这种语音,采访对象是之前遇到的在Voiceitt工作的迈克尔·卡什。我们当时使用的是Zoom,实时转录像字幕一样出现在他的视频框下方。它相当准确,虽然并不完美,但它很有帮助。

对于像我这样习惯于快速对话的人来说,这有点尴尬。等待几秒钟让转录赶上卡什所说的内容有点不舒服,你可以听到它。在这段对话中,我等了整整三秒钟……

才出现转录。我们……现在……

就是这样。你,我们,你有明确的需求,而公司能够解决这个问题。嗯,一些公司正在努力为声音非典型的人解锁互联网。另一些公司正在努力在物理领域扩展语音辅助功能,稍后我们将详细介绍这些工具。

亚马逊Q业务是来自AWS的全新生成式AI助手,因为许多任务会使业务变慢,就像在……

模式中寻求帮助。幸运的是。

有一个更快、更容易、更简洁的选择。亚马逊Q可以安全地理解您的业务数据,并利用这些知识来简化任务。现在,您可以立即总结季度业绩或进行复杂的分析。

Q搞定了。访问AWS点com闪存,了解亚马逊Q业务能为您做什么,了解更多信息。

各公司正在想出创造性的方法,使语音助手更容易为更多人所用。另一家致力于此的科技巨头是谷歌。大约五年前,谷歌内部的人开始讨论语音助手如何无法可靠地理解声音非典型的人。由此产生了一项名为Project Euphonia的努力。

目标是让任何因任何疾病而难以被他人理解的人都能参与进来。录制一些短语,然后作为对他们贡献的回报,我们会给他们一张Visa礼品卡。

这是杜利·库特,谷歌研究的产品经理。

快进到今天,人们已经录制了超过一百万个语音样本。有两千人参与其中,他们有着各种各样的残疾。因此,该数据集使我们能够研究如何改进针对这些人的语音识别。有了这些数据……

谷歌已经推出了一个名为Project Relate的独立应用程序,该应用程序可在谷歌Play商店向公众提供。

它的工作方式是用户下载该应用程序。他们被要求录制500个简单的短语,然后我们会在后台自动训练一个个性化的语音识别模型。然后,用户可以在应用程序中使用此模型,它可以用来转录他们正在说的话,或者我们有一个重复功能,可以直接用清晰的电脑语音重复你刚刚说的话。

谷歌表示,数千人下载了Project Relate,尽管我没有确切的数字。以下是从谷歌网站上的演示视频中看到的Project Relate的工作示例。它展示了一个患有肌营养不良症的人在咖啡店点餐,“热巧克力,热巧克力”。

对。

Relate有一些局限性,它只提供英语版本,并且仅在某些国家/地区可用。虽然训练个性化模型可以降低许多用户的错误率,但这并非对所有人都有效。

我们仍然会看到一些语音障碍非常严重的人。在这种情况下,坦白地说,这个应用程序可能完全没用,因为即使我们有他们的数据,也可能不足以获得信号来真正理解他们的声音。

谷歌已经进行了测试,以查看收集到的残疾人数据是否可以用来更好地训练其语音识别系统,称为通用语音模型。它可以转录一百多种语言的语音。目前,它仅用于YouTube,谷歌发言人表示,该公司目前没有计划将其集成到其他产品中。

你可以想象,对于那些希望语音识别效果非常好的人,或者也许他们有相当严重的语音障碍,他们可能会发现个性化更有用。但对于其他人来说,也许我们可以让语音识别一开始就能为他们工作。

像苹果的Siri和亚马逊的Alexa这样的人工智能语音助手已经成为我们日常生活的一部分。但对于那些声音不典型的人,包括患有帕金森病和肌肉萎缩症等疾病的人来说,这些工具的使用可能会令人沮丧。现在,包括亚马逊和谷歌在内的一些大型科技公司以及研究机构正在想办法让它们变得更有用。要创造出开箱即用的适合每个人的语音助手,需要付出什么努力?

科技公司训练语音助手理解非典型语音 亚马逊利用生成性人工智能让Alexa更健谈、更强大 Alexa、Siri、Cortana:为什么你所有的机器人都是女性 深度语音:扩展端到端语音识别(2014年,arXiv) Librispeech:基于公共领域有声书的ASR语料库(2015年,IEEE国际会议) 伊利诺伊大学香槟分校的语音无障碍项目 了解更多关于您的广告选择。访问megaphone.fm/adchoices</context> <raw_text>0 Katya 说,谷歌的目标是实现无缝的语音识别,从一开始就适用于每个人,无需用户培训,而这并不是唯一一家追求这一目标的公司,亚马逊也在与该公司合作,旨在实现这一目标,这也是我们之前听到的研究员Mark Hosea A. Johnson正在努力实现的语音无障碍项目的一部分。

我喜欢说,如果这项工作成功,唯一能注意到的就是他们的系统之前所犯的错误不再那么频繁了。

驱动亚马逊等语音系统的人工智能系统是基于数据训练的。为了让这些系统更好地识别非典型声音,你必须提供更多的数据。提供非典型声音的人的数据似乎很合理,对吧?但获取这些数据并不总是那么容易。Hosea Johnson是语音无障碍项目的首席研究员。

我们的目标实际上是建立一个足够大且多样化的残疾人士语音数据库,以便技术公司和大学能够拥有一个可访问的语音识别系统,能够开箱即用,适用于残疾人士,而无需进一步个性化,因为它已经很好地建模了残疾如何影响语音的多种方式。

语音无障碍项目于2022年启动,获得了一项为期两年的资助,直到2024年。一些相当大的名字参与其中。亚马逊、谷歌、Meta和微软正在资助该项目并提供指导和反馈。

该项目旨在汇集2000名受帕金森病、严重小儿麻痹症、中风等影响的人的声音。Husk和Johnson表示进展良好。他们在2023年4月开始招募帕金森病患者。当我在11月与他交谈时,他说已有800人报名,尽管只有280人的语音受到疾病的影响,足以对项目有用。

人们告诉我们,参与这个项目很有趣。他们似乎特别喜欢自发的语音提示,会问人们一些问题,比如“你最喜欢的音乐家是谁?”或者“你是如何为四个人准备早餐的?”各种疯狂的问题。人们在回应这些参与者时感到很有趣。

符合研究人员标准的五种疾病之一的患者会对计算机中的提示作出回应。如果他们完成任务,他们每人将获得180美元。主持人Koba Johnson表示,该项目在收集的数据周围内置了隐私保护。任何希望使用这些数据的大学或公司都必须遵守该项目规定的条款。

例如,如果参与者决定不再希望保留他们的数据和数据集,研究人员将使用该数据删除该人的声音。

我与一些公司交谈时,他们也提到了关于他们自己收集的数据隐私的一些相似观点,亚马逊的一位发言人表示,它在真实世界的请求上训练Alexa。客户可以选择删除他们的录音和转录,但该公司可能会保留他们几乎所有互动的其他记录,Katya说。

谷歌的Euphonic项目允许参与者要求删除他们的数据,或者如果他们愿意,可以要求获取他们的数据副本,而小型语音公司表示,它使用客户数据来训练其算法,但该公司遵循“尽可能高的标准”来确保数据隐私、安全和存储,以训练语音语言模型。Hosea Johnson表示,该项目正在组装的数据集似乎已经很有前景。在一项实验中,研究人员测试了来自帕金森病患者的语音的开箱即用的语音识别。他们表示,最初的错误率为20%,但通过对团队收集的数据进行算法训练,他们表示错误率降低了一半。

我认为通过更聪明的创新和算法,这项语音技术还有很多提升的空间。但即使只是这个非常简单的步骤,已经将错误率降低了一半。

Johnson表示,他对通过像语音无障碍项目这样的努力,使得语音助手能够很好地为非典型语音的人服务充满希望,这可能在未来几年内实现。但除此之外,他表示,语音助手可以变得更加有用,也许在超出我们的电话和智能音箱的地方。

你可能会拥有一个能够在你的设备之间移动的人工智能,无论你获得许可在什么设备之间移动,并且这个语音助手会伴随你到处。我希望人们能够利用这一点来完成我们现在使用笔记本电脑所做的许多事情。

但亚马逊的Josh Milley表示,尽管我们与技术互动的方式中还有更多的语音空间,但无障碍意味着永远不要过于依赖单一的方法。

是的,语音正在变得更好。语音应该变得更好,但它绝不应该是唯一的方式。我认为我们正在寻找、探索并真正开发所有其他与设备互动的方式,除了语音。

《一切的未来》是《华尔街日报》的制作。Stephanie Elegant Fit是《一切的未来》的编辑主任。本集由Knee Alexo Salla制作,我们的事实检查员是Perna Nathan Michael Level,Jasa Offending是我们的声音设计师,Root Thy Music Cathode New Sop是我们的监督制作人。

I Shall All Muslim是我们的开发制作人。Scott Silly和Fly是副编辑,Philanthropy Son是《华尔街日报》新闻音频的负责人。喜欢这个节目,请告诉你的朋友,并在你最喜欢的平台上给我们留下五星评价。感谢收听。

亚马逊Q业务是来自AWS的新一代生成性人工智能助手,因为许多任务可能会使业务变慢,就像等待一样。

mod a help. 幸运的是。