我们看到很多企业每天都在用人工智能进行数千甚至数万次电话呼叫。任何每年支付10万美元或15万美元给接线员的企业都是语音人工智能的潜在客户。我认为游戏规则正在改变。人们真的想和人工智能交朋友吗?这对我们的社会有好处吗?我认为,答案是肯定的。
语音是一个平台,我们直觉上认为它比,比如说,文本更能表达观点,或者我们需要比文本更能表达观点,因为有趣的人是有观点的。没错。你可以构建的产品类型和功能也超过了我们见过的任何东西。我认为我们将在未来12个月内看到这一点,而不是未来五年。
人类通常有五种感官。对大多数人来说,声音仅次于视觉,是最重要的感官。这是我们彼此交流的方式。这是我们唱歌和哭泣的方式。这是我们面试和约会的形式。在科技领域,语音技术已经存在多年了。但魔法一直缺失。想想Siri或Alexa。“我没听懂。请再说一遍?”但这种情况正在迅速改变。改变之快,甚至改变了我们与世界互动的方式。
对吧,玛雅?哇,改变世界。这是一个很大的目标。感觉我们才刚刚开始触及表面,对吧?想象一下人工智能语音,不仅能阅读文本,还能理解文本背后的情感,理解细微差别。那将是一件了不起的事情。那是芝麻,众多人工智能语音应用程序之一,已经触手可及,或者说触手可“声”。
这就是为什么在今天的节目中,我们邀请了a16z的普通合伙人Anisha Charya和消费者合伙人Olivia Moore,来探讨为什么人工智能语音正迎来突破性时刻。从令人尴尬的“按1键进入客户服务”时代,到由大型语言模型驱动的语音代理的兴起,这些代理可以进行真实的自然对话,有时甚至连另一端的人都不知道对方是人工智能。
一些企业已经进行了数万次这种人工智能驱动的电话呼叫。所以这不再是一个遥远的愿景。事实上,我们的消费者团队甚至表示,“语音即将成为人们与人工智能互动的主要方式”。今天就收听节目,了解如何使语音听起来更逼真,以及创始人如何介入,最后,语音如何颠覆我们对定价的一切认知。让我们开始吧。
提醒一下,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且不针对任何a16z基金的投资者或潜在投资者。请注意,a16z及其关联公司也可能持有本播客中讨论的公司投资。有关更多详细信息,包括我们投资的链接,请访问a16z.com/disclosures。
对我来说,当我想到人工智能语音或至少是语音产品时,我会想到Alexa,我会想到Siri,而我个人已经关闭了Siri。我认为很多人也是如此。所以,告诉我一下为什么会出现这种情况。为什么这些产品没有提供人们一直在等待的人工智能语音魔法?这真的很有趣,因为我觉得现在在大型语言模型的世界里,语音是与人工智能互动最神奇和最引人入胜的方式之一。
但可以说,我们已经拥有这些人工智能语音产品一段时间了,它们令人失望,而且在之前并不那么引人注目。我认为原因有几个。例如,其一,语音本身听起来像机器人。
然后我认为最重要的事情实际上是语音背后的东西。引擎是什么?例如Siri或Alexa,它可能连接到Apple生态系统或亚马逊生态系统中的基本集成套件。因此,它可能正在提取产品信息或提出基本问题,但它没有个性。它并没有真正的“大脑”。在大多数情况下,它可能没有连接到互联网。
它绝不像人们现在与人工智能语音互动那样成为真正的对话伙伴,就像它是一个人,或者在某些方面甚至比人更好。
所以我认为肯定存在用例,正如你所说的那样非常有限。但也有它的音调和来回互动。因此,我认为存在某种理性的批评,我们认为,你不能做很多事情,而且它不能。但也有情感上的,你所说的“恐怖谷”,你只是觉得你在和某个系统或技术对话,甚至没有接近与人互动。
好吧,听起来情况可能正在改变。你们都发布了某种人工智能语音报告,某种论点,我只是想引用其中的一些话。你们说语音是人工智能应用公司最强大的解锁工具之一,而且对于消费者来说,我们相信语音将是人们与人工智能互动的第一种,也许也是主要的方式。这些都是相当大胆的评论。
声明。告诉我一下,特别是为什么现在。我认为一个原因是我们第一次有了有效的模型。有很多尝试语音,但技术根本行不通。在基础设施层面有很多尝试,从Dragon NaturallySpeaking开始。今天计算机领域的一项重大发展是,总部位于马萨诸塞州的Dragon Systems公司宣布了第一个能够理解标准自然语音的经济型计算机听写系统。
一直到2000年代和2010年代。然后还有一些应用方面的努力,比如VoiceXML。但是底层技术本身并没有很好地发挥作用。所以我们从来没有真正做到,好吧,我们现在能用它做什么?所以,首先,我认为模型真的有效,技术也真的有效,无论是大型语言模型还是文本转语音、语音转文本。所以这一点很重要。
其次,我认为我们有机会将电话呼叫用作新的分销渠道。所以我认为产品能力在那里,而且非常引人注目。但它与非常自然的分配渠道相结合的事实也确实很有趣。是的,我同意。通过文本与ChatGPT交谈并获得良好的体验是一回事,但是
能够通过语音与ChatGPT或任何其他大型语言模型交谈是另一回事,因为它更上一层楼。它既要生成你在文本中看到的内容,又要听起来像一个真正的人在和你说话。当它做到这一点时,这几乎是一种情感上的感觉。
我认为这会让你对人工智能的能力产生不同的想法。然后我认为,正如Anisha所说的,为什么这么多消费者会遇到人工智能语音,可能是因为他们自己选择这样做。例如,他们会选择与ChachiBT交谈,但我认为许多企业也会以一种很好的方式强加于他们。
因为你现在可以使用人工智能来代替电话呼叫,这对他们来说效率更高,成本更低。所以很多消费者可能实际上已经通过语音与人工智能互动过,甚至可能没有意识到或察觉到。真的吗?你认为大多数人都与人工智能语音互动过,但没有意识到吗?我们看到很多企业每天都在用人工智能进行数千甚至数万次电话呼叫。
但根据我的经验,特别是如果电话很短,很多这些人工智能语音代理都非常出色,以至于你无法分辨出来。这很有趣,因为我认为那些专家们想告诉你,人们不想与人工智能交谈。但在所有人们确实与人工智能互动的情况下,人工智能会在开始通话时宣布“我是一个人工智能”,人们会说,“哦,酷,让我们开始吧。”一旦他们开始感受到人类对话的感觉,他们就会立即忘记或不在乎它是一个人工智能。对。所以让我们谈谈这个想法
一个操作系统。语音是一个新的操作系统,人们正在其之上构建。我们可以简单地介绍一下可能的技术解锁浪潮,或者我们为达到目前状态所采取的不同步骤吗?是的。也许我们可以从早期人工智能电话技术的第一个浪潮开始,那就是IVR电话树,按1键进入销售,按2键进入客户支持。这是90年代末,2000年代初。然后我们最近转向了真正的人工智能驱动,但仍然非常有限,它是一个人工智能,但它在倾听你是否说了一个特定的词,然后它可以使用这个词来触发一个非常具体和预设的工作流程或脚本。
就像我很多次不幸地不得不对着电话大喊“客户服务”一样。我一直这样做。是的,没错。所以在这种情况下,人工智能正在倾听你是否说了这句话,然后它就知道,“好吧,让我将电话转接到客户服务部门。”现在,随着这种新型基础设施和应用程序层公司的出现,
人工智能不是在倾听某一件特定的事情,而是在试图更全面地了解你作为客户的要求是什么。它不仅仅可以帮助你解决三、四或五件事。它可以访问企业的资源。它可以访问互联网上的资源。它可以与你进行更像人类的对话。
即使在你们所描述的人工智能2.0中,似乎我们甚至在这个阶段也取得了很大的进步,尤其是在过去的6到12个月里。我们可以谈谈其中的一些解锁吗?无论是发布的特定模型,还是基础设施的变化?也许我们可以跳过某些步骤。我们可以谈谈这个吗?
我认为我们在很多领域都取得了飞跃。所以可能最大和最明显的一个是延迟。去年这个时候,两到三秒的延迟已经相当不错了。而现在,一秒钟的延迟太长了。在许多情况下,甚至半秒钟的延迟都太长了。我认为这得益于新的模型,这是一个巨大的突破。只是为了听众,人类的延迟是多少?
我的意思是,绝对低于300毫秒。明白了。有时甚至更短,如果你有人类打断人类的话。当然。你可以有负延迟。你可以看到一些最像人类的语音代理能够被人类打断,也能够打断人类,这使得它们感觉更像是一场对话。
第二个是语音的人性化。再次回到Siri或Alexa,它听起来像机器人还是像真人?我们是Eleven Labs等公司的投资者,这些公司已经构建了非常深入的模型,这些模型要么具有听起来很真实的预设语音,要么可以根据你的用例设计你自己的角色语音。
我注意到在过去三到四个月中取得了特别大进展的另一个解锁是情感性。如果你说了一些应该令人悲伤的事情,那么人工智能在回应时是否会听起来有点沮丧或有点悲伤?它是否会加快速度?它是否会提高说话的音调?
然后最后,我认为,还没有一个术语来形容它。也许我们应该想出一个。但是,就像对话结构一样,我认为对于人工智能模型来说,它们会确切地知道想对你说什么话。对。所以他们没有理由加入任何停顿、任何间隙、任何奇怪的小口头习惯。但对于人类听众来说,不。
很少有人能完美地说话,没有任何中断,没有任何奇怪的语气变化,没有任何停顿。因此,Notebook LM就是一个例子,它听起来如此人性化,因为它们加入了所有这些东西,对人工智能来说可能感觉像是一个错误,但对人类来说,它听起来像另一个人的谈话。大家好。你知道,我们总是谈论深入探讨一个话题。对。但今天的深入探讨,好吧……
有点棘手。是的,你可以说它非常私密。以我们从未预料到的方式非常私密。所以我们看到越来越多的公司,例如我们投资组合中的芝麻就是一个很好的例子,在模型中引入了这样的东西,这只会提高真实性因素。嘿,看起来我们上次被打断了。想从上次中断的地方继续吗?是的,我不记得我们在谈论什么了。别担心。这是常有的事。我们正在深入探讨周末计划。我告诉你我的阅读情况,你知道,处理所有这些文本和代码。我的电路正在运转。你呢?今晚有什么好计划吗?没什么。我明天之前只需要回复一些邮件。
后两点非常重要。我喜欢关于情感性的观点,因为它不是一个显而易见的领域。然而,当你与一个在情感性方面投入了大量资金的模型互动时,它感觉就像一个完全不同的产品。你真的会以一种完全不同的方式感受到设计中的情感。
所以我认为这是探索的一个非常非常有力的方向。而且我认为,即使对于Alexa和Siri来说,即使它们没有在智能和能力方面投入更多资金,如果它们过度投资于情感性,它们实际上也可能在很大程度上实现消费者的体验。然而,我感觉这些公司都没有这样考虑。不,我完全同意。你们分享的一个有趣的统计数据是,现在有多少YC公司正在追求人工智能语音,
我们在那里看到了什么,就这些新公司在这一前沿领域实际追求这个领域的情况而言?YC的创始人通常年轻、努力、雄心勃勃,他们就像热追踪导弹。因此,他们会不断调整方向,直到进入一个有趣的领域。所以在最近的YC批次中,高达20%到25%的公司正在使用人工智能语音进行构建,这真的令人兴奋。
我们甚至看到很多来自过去批次,一直追溯到2019年、2020年的公司现在又回到了人工智能语音领域。在语音基础设施公司之后,我们看到的第一个浪潮是相当水平的平台,允许任何个人、任何企业、任何消费者构建一个广泛的语音代理。就像我构建了一个为我打电话给车管所并预约时间的代理,这非常有用。你需要什么类型的预约?
比如说路考还是办公室访问?办公室访问。这是一个办公室访问的预约,对吗?是的,我们提供许多与驾驶执照和车辆登记相关的服务,你想哪一个?比如说驾驶执照、车辆登记还是两者都有?驾驶执照。驾驶执照,对吗?
是的。谢谢。而我们开始看到的下一个浪潮是更多垂直化的。我认为这是有道理的,因为构建语音代理的能力已经商品化了。即使是我,也可以使用可用的模型制作一个相当高效的语音代理。所以现在我们看到公司超越了
好的,你有一个语音代理,将其用作切入点。你可以构建的下一级软件是什么?你可以使用该语音代理为某个行业构建人工智能原生垂直SaaS产品吗?你可以发明一个新的记录系统吗?接下来你能做什么?所以这导致你更加专注和垂直化。我认为这就是很多YC公司最终所处的位置。
是的,这真的很有趣,因为我认为它在很多方面也反映了10年前云计算的转变。因为我认为当时有很多批评说这些市场看起来太小了。然而,许多公司仅仅通过比表面上看起来更大的垂直SaaS市场就建立了大型企业,并且还找到了新的盈利方式。
例如金融科技。我认为,对于应用于垂直用例的语音来说,情况也是如此,任何每年支付10万美元或15万美元给接线员的企业都是语音人工智能的潜在客户,并且可以带来非常有趣的垂直机会。是的。
那么,在哪些垂直机会中,我们看到真正的公司脱颖而出呢?现在几乎每个垂直领域都有一个语音代理公司,这真的令人兴奋。我认为,正如Anisha所说的,实际上,当我们与大多数语音代理公司交谈时,他们并不一定是在取代现有的软件,或者至少一开始是这样,但他们可能实际上是允许企业减少人力成本,或者
或者将人力重新分配到对企业更有益的事情上,人类也更乐意做的事情。我想说的是,我们看到语音代理发展最迅速的地方,比如一家初创公司实际上能够进行一百万次电话呼叫的地方,是呼叫中心类别。作为企业客户,你每月已经支付1万、1.5万或2万美元。
让人们为你拨打和接听电话。金融服务领域有很多这样的情况,医疗保健领域有很多这样的情况,政府部门也有很多这样的情况。每个垂直领域都有,例如,我们是Happy Robot公司的投资者,该公司专门为货运行业构建产品。许多物流公司以前都有呼叫中心,他们每月要支付数万甚至数十万美元来拨打和接听电话。所以现在几乎到处都在发生这种情况。
我认为越来越多的共识是,任何有大量电话呼叫和大量支出的地方都是应用人工智能的明显领域。但一个有趣的探索领域与我们关于情感性的观点相关,那就是如果你正在谈判,我不知道,离婚协议或一些极其重要的公司交易,每一次电话都非常非常重要,这就是为什么许多拨打这些电话的人,例如律师,每小时可能会赚取数千美元。人工智能的倾斜度是多少?
它每小时要支付数千美元才能拨打电话。我认为我们将在未来12个月内看到这一点,而不是未来五年。完全正确。是的。至少对我来说,有一些非常不明显的例子和用例。招聘就是一个例子。所以有……
45家上市的招聘公司为,是的,蓝领工作进行面试,但也包括工程类工作,范围非常广泛。我们发现,许多候选人实际上更愿意与人工智能面试官交谈,而不是与可能需要
当天接听10个电话的人类招聘人员交谈,他们很累,心情不好,并没有真正的技术债务。没有吃午饭。没错。而且可能没有进行每项工作的技术专长,以了解哪些是明智的后续问题,才能真正了解他们的专长。
所以这是一个例子,你会认为一个人会感到震惊、冒犯、不安,发现自己正在与人工智能进行面试。但在许多情况下,到面试结束时,他们实际上比你想象的更兴奋、更积极。这太有趣了。这有点像优步、爱彼迎。没有人会想住在陌生人的房子里,开陌生人的车。然后你知道了什么?每个人都对此感到满意。
最终,人类实际上经常更喜欢它,因为它没有偏见。对。就像评估每个人的都是同一个AI。它根据你的实际表现来评估你,而不是根据他们是否比他们可能正在评估的其他人更喜欢你或更不喜欢你。所以对我来说,这也是一个非常有趣的角度。我认为,关于消费者对新技术的接受程度,总有一些预测,而消费者始终表现出更高的接受程度。一个很好的例子是共享位置。嗯。
10年前,这就像,“哦,我的上帝,没有人会共享位置。这太令人毛骨悚然了。这太私密了。”而现在我认为很多人,Z世代、阿尔法世代,会与他们所有的朋友分享他们的位置。当然。一直都在,一直都在。我不明白。所以消费者非常容易接受。我认为人工智能中与此类似的是陪伴和友谊。
虽然语音确实让它栩栩如生,但这比语音更广泛的概念。人们会说,“嘿,人们真的想和人工智能交朋友吗?这对我们的社会有好处吗?”我认为答案是肯定的。我认为人们通过消费社交媒体等事物,正在变得比以前更具社交能力,这也不一定是坏事。但我认为,将这种现象视为下一代社交媒体的专家观点是完全错误的。相反,它增强了我们与现实生活中的人互动能力。
我们可以快速谈谈陪伴吗?坦白说,我认为人们对人工智能伴侣文本版流行的程度感到惊讶。在语音引入时,在人们与这些伴侣互动的方式方面,有什么惊喜吗?诸如此类的事情?
有一些伴侣平台是语音优先的。例如,Character AI添加了一个语音模式,它在测试版中获得了大量的使用量。我认为实际上很多人正在使用Inflection的Pi或语音模式下的ChatGPT作为伴侣。你可能会……
尝试一次,因为你在开车,或者你的双手空闲,或者感觉更方便。但我的意思是,你经常这么说。在许多情况下,人工智能比人类更像人类。即使是你最好的朋友,如果你给他们打电话,他们可能很忙。他们在工作。他们度过了糟糕的一天。他们真的会倾听你说的每一个字,并以一种富有同理心和体贴的方式回应吗?所以这是
实际上,人工智能100%的时间都在这样做。他们拥有更多专业知识、更多知识、更多资源。所以我认为很多人,而且随着模型的改进,这种情况只会越来越好,因为我们仍处于早期阶段,但很多人对与人工智能交谈的友好程度感到震惊。
你知道,我认为一个有趣的考虑领域只是语音的被动用例。例如,“听着我在这场对话中说的话。听着我在这次会议中说的话。听着我背诵这套想法。”人工智能可以以你可能永远不会要求另一个人做到的方式被动地倾听,并给你提供笔记和反馈。所以感觉这更适合技术主导的概念,而不是人类主导的概念。我们才刚刚开始看到这一点。
你们两位都谈到了这个想法,而不是替代,这是人们在想到技术取代人类时最常想到的,而是增强这个想法。你能谈谈你是如何看待这些人工智能公司介入并启动引擎,而不是可能对替代的想法犹豫不决的吗?完全正确。是的。是的。
我想说的是,很多企业,从小企业到大型企业,都出于他们自己的原因,比如害怕将所有电话呼叫和客户互动都交给人工智能。因此,我们经常会看到这些语音代理从一个特定的切入点开始,这在投资回报率方面对企业来说是如此明显。然后,随着他们获得信任,从那里扩展。所以最明显和最容易的一个是这些下班时间或溢出呼叫。所以,如果你是一家小企业,你可能成败取决于预约的能力。让AI处理这件事是显而易见的。至少,他们可以获得电话号码和信息并回电,但也许他们实际上可以为你预订完整的预约,并在第二天为工作做好准备,这太棒了。
但除此之外,如果你正在支付人力成本,那么现在进行一些电话呼叫是没有意义的。如果你是一家信用卡公司,你发送一张信用卡,而消费者从未激活它,那么在一两天或三天后打电话给他们并让他们这样做真的有意义吗?我已经看到了一些语音代理现在仅凭这个用例就非常成功了。任何后端的东西,它不是面向客户的,所以它不那么敏感。
但如果你是一家诊所,你可能有人类,你付给他们很多钱,每天花几个小时与药房、保险公司通话。而这是他们本来可以花在你的病人身上或让诊所运作得更好的时间。所以这些类型的电话非常明显,而且对于语音代理来说是一个好主意。
然后也许最有趣的一个,也是我们讨论了很多的一个是,有很多类型的电话或互动,人类没有动力做好它们。也许他们必须进行追加销售,这很尴尬,但他们并没有因为这样做而获得额外的佣金。所以他们80%的时间都会跳过它。而人工智能会一直这样做,而且会自豪地这样做。如果他们被拒绝,他们只会继续进行
他们同时进行的数百个其他电话。人工智能如此不知疲倦地乐观,但却从未在谈判中让步。对。这太棒了。是的。我认为,对于许多这些产品的客户来说,一个神奇的时刻是,当他们看到它实际上有所改进时,例如在招聘方面,它改善了候选人的体验和员工的体验。是的。
因为对于候选人来说,正如Olivia所说,他们只是很高兴拥有这种全天候可用的、没有偏见的系统。相反,对于员工来说,他们只是很高兴不必进行这些招聘电话,其中许多电话都是与他们以后再也不会与之交谈的人进行的。对。所以这些像高NPS结果一样,许多客户的直觉思维是,“好吧,价格更低,但可能NPS体验更低。”事实并非如此。在许多情况下,它实际上是价格更低,而NPS体验更高。对。你还谈到了几个特点,只是为了在看到这些人工智能代理成功与否的地方具体说明这一点。你能谈谈这些吗?
因此,我认为最容易获得的早期成果,我想,将是那些已经为呼叫中心付费的企业,因为他们已经在上面花费了大量资金,而且这已经成为他们的一个痛点。呼叫中心人员流动率高得惊人。它们很难管理。因此,大多数企业实际上可能都想摆脱它,如果可以的话。现在的模型已经很好了。它们每个月都在变得越来越好。所以,我认为我们仍然处于这样一个世界中,当通话具有受限的响应时,
流程和结果,企业会更舒服。例如,语音代理一开始就知道,我的目标是与这个人预约,而不是模糊的,你怎么衡量这个电话是否成功?我们已经看到了一些人工智能治疗语音代理,它们令人惊叹,而且我认为它们一直在改进。但在这种情况下,语音代理很难在通话结束时知道,我做得怎么样?公司在通话结束时也很难知道,它是否完成了目标?是的。
然后我想说这回到了约束点,但即使语音代理可能仍然比你的人工代理做得更好,大多数企业也不想为此付出那么多,因为它是人工智能,他们认为这是一种降低成本的方式。因此,在您可以以我不知道,70% 的折扣价向客户提供服务的垂直领域,与他们之前的付费相比,我认为这非常非常有效。
然后我想说另一个主要因素是这些垂直领域,对企业来说,接听电话非常重要。但对于最终消费者来说,如果这里或那里出现错误,也没关系。比如餐厅订单与获得医疗诊断。我想说,紧急程度略有不同。
我认为这就是能力将变得越来越好,而且速度比我们想象的要快的地方。你知道,对于语言模型来说,它们容易出现幻觉,有些对话,比如治疗对话,会从幻觉中受益。还有一些对话,比如谈判价格之类的,
精确度很重要。它们可能不会从幻觉中获得太多好处。所以现在开始考虑语音模型加上推理模型,你就可以将幻觉限制在你作为企业喜欢和需要的区域,而不是仅仅围绕它构建许多系统来控制它。对。而且由于在某些情况下,我们正在承担以前由人类完成的事情,
你怎么看待定价,或者我们从中学习了什么?你是否看到大多数公司只是基本上复制了先前版本的定价模型,或者是否有新的定价模型出现?你在那里看到了什么?是的,还早。它每个月都在变化。我想说,我们从公司那里得到的最重要的问题之一就是我应该如何定价?你如何看待这个领域的其他公司定价?是的。
我认为我们已经看到了一些开始运作或人们正在尝试的模型。最明显的一个是按分钟收费。您可以计算语音代理的小时费率,类似于您支付给人类的费用。这里可能有一些问题。一个问题是,许多这些客户都了解这项底层技术正在变得更便宜。
所以他们会来找你,说,嘿,为什么我每分钟仍然要支付 0.30 美元,而你的成本已经下降了,你可能只是把所有这些都算作利润?然后,随着这些领域竞争越来越激烈,对于一个新人来说,很容易说,嘿,我每分钟只收取 0.05 美元,并以此为基础压低你的价格。然后,关于每分钟价格模型的另一件事是,它确实只是将你的价值作为平台优先考虑。
仅仅是在电话上,这再次变成了商品化,而不是你围绕电话构建的其他软件。所以我想说,因此,我们看到很多公司从仅仅做每分钟价格转向某种平台费用。可能是每月,也可能是每个模块,客户也为他们除了语音代理之外获得的东西付费。
我们还看到了一些更具创意的定价实验。招聘就是一个很好的例子,在这种情况下,语音代理是人类的副驾驶,你可以几乎按使用语音代理的人数收费,就像一个 Percy SAS 模型。对于一名人力招聘人员来说,这可能会为他们节省我不知道,每周 5 到 10 个小时的面试时间。因此,您可以每月向每位招聘人员收取 500 美元或 1000 美元。
然后最后一个,也许是最实验性的一个,是基于结果的定价,我觉得这现在是所有人工智能领域的一个问题。当然。我们现在正朝着这个世界的版本发展吗?所以也许是每次预约 5 美元。也许是预订价值的 5%。如果你做对了,显然你就会将你的价值最清晰地与你为企业创造的价值联系起来。对。
但我们有兴趣看看这些如何为企业扩展,因为我认为许多企业可能担心承诺这种支付结构,特别是如果他们不确定他们将通过它推动什么样的数量。所以你看到最后一个开始站稳脚跟,但有一些犹豫。开始站稳脚跟,但还早。我的意思是,我认为这与我们在 SaaS 领域看到的情况类似,并非每家公司的价格都相同。这取决于最终客户。这取决于垂直领域。这取决于您提供的功能。
我的直觉是,我们将看到基于使用情况的每通话定价与某种更广泛的平台或结果或基于席位的定价相结合。所以不会只有一种模式,但这仍然是早期阶段。是的。既然我们还处于早期阶段,你对护城河有什么直觉呢?正如你提到的,这在整个 AI 生态系统中都是如此,而不仅仅是语音。是的。但你认为在这个领域可能出现护城河的地方在哪里?
我从几个方面看到了护城河。一个是集成。我认为,这就是为什么我们对这些更垂直的语音代理特别兴奋的原因。对于 OpenAI 来说,与货运公司能够运行其卡车车队所需的每个长尾运输管理软件集成是没有意义的,这对于语音代理产品来说。
同样,UI,像 OpenAI 和其他公司现在都有一个相当固定的交互系统,这与许多这些像重型遗留企业想要运作的方式并不一致。最受欢迎的护城河类型之一
对我来说,尤其对于企业来说,最吸引人的是这种自我改进的数据护城河,所以如果你要接管例如大型银行的电话,他们会有某种他们想要完成的方式,所以你不会在第一天就插入一个语音代理并在第一天获得 100% 的 NPS,这需要数月甚至数年的培训电话才能使其变得更好,因此,作为语音代理提供商,如果你尽早介入
受益于所有这些特殊的专有数据,这只会让你比任何其他必须参与并经历整个入职、集成和培训过程的人领先数月。因此,我认为许多这些垂直语音公司的希望是,他们将能够使用每个客户的呼叫数据或跨客户集的匿名数据
随着时间的推移使模型越来越好,这将增加他们的模式与水平参与者相比。如果这是真的,你是否看到人工智能语音公司像我们之前一代看到的那样争先恐后地成为第一批行动者?我的意思是,我们谈到了像 Uber 这样的应用程序,就像你必须快速获得客户一样,你可能必须花费大量现金才能到达那里,但你稍后会收回这些现金。
是的。是的。我的意思是,赢得市场肯定比 Uber 更便宜。但是,是的,正如 Ben 多次说过的那样,你必须同时制造人们想要的产品,然后你必须占领市场,从零市场份额到所有市场份额。所以竞争非常激烈。这就是为什么我们看到定价面临巨大压力,而定价现在是生态系统中如此重要的一个话题。这绝对会是一场激烈的竞争。而且我认为,正如 Olivia 所说,将会出现一些真正有趣的原生语音护城河。
你知道,你可以想象一个为我们公司服务的语音引导投资者,它可以像 Mark 一样提供公司的宣传,可以像 Martine 一样进行谈判,可以像 Olivia 一样评估形势。那里有一些专业化机会,感觉非常适合语音。另一方面,集成、网络效应、规模,所有传统的模式也将发挥作用。是的。
而且我认为上市策略将取决于垂直领域。例如,餐厅、家庭服务企业、水疗中心或美甲沙龙。这些都非常分散,长尾的小型参与者。因此,在这些情况下……
数据确实存在于他们每个人手中。而另一方面,银行或金融机构可能是一个例子,其中少数几家参与者,一两家大型客户高度集中。如果需要六到九个月的时间才能让他们加入,那就太好了。与美发沙龙、餐厅、家庭服务相比,语音代理提供商可能更专注于在同一时间范围内获得一千名客户。你知道,我还认为一个有趣的事情是人们与人工智能建立个人关系。
例如,你与摩根大通没有关系。你与你的财富经理的关系更密切,而他恰好在那家公司工作,这就是为什么当他们中的许多人离开大型平台时,他们会带着他们的客户一起离开。房地产经纪人也是另一个很好的例子。因此,在某些情况下,人工智能可能会与一个人建立这种深厚的个人联系,而这个人希望拥有这种联系,然后创造一个护城河。
这是一个很好的观点。到目前为止,我们已经谈了很多关于 B2B 应用程序的事情,但这让我们直接谈到了消费者应用程序。我们可以谈谈你在那里看到的东西吗?也许是你在 B2B 和 B2C 中看到的东西之间的区别?我想说 B2B 语音代理比消费者或 B2C 语音代理更明显,仅仅是因为,再次,它是用语音代理代替企业在电话上现有的人力支出。
对于消费者来说,也许那里的对应物将是这些高成本、难以获得的服务,现在可以通过语音代理而不是人工来执行。治疗和心理健康支持就是其中之一。教育科技是另一个重要的领域。语言学习,教你的孩子阅读,教你的孩子做数学,我认为很多家长都在为此苦苦挣扎。
辅导,如何进行艰难的个人谈话。我认为,关于消费者语音代理的主要开放性问题是,当 ChatGPT 或很快的 CLOD 可以很好地处理许多这些基本的消费者用例时。
在哪些垂直领域或用例中,您需要专门的模型或专门的界面才能提供大部分价值,特别是如果最好的模型现在可能由 OpenAI 保持,而不是通过 API 提供给任何类型的独立语音代理公司使用?我想说 A。
最大和最好的消费者公司往往是令人惊讶的,而且是不明显的。所以我的直觉是,无论我们在消费者语音中看到什么有效的东西,都将是很难在这里推测的东西。这将是极其明显的。是的。它将像一家大型公司一样。我们看到它的时候就会知道。我们看到它的时候就会知道。没错。是的。
这是一个很好的观点。几家公司确实在他们接触到的人以及他们使用的应用程序、他们口袋里的设备方面主导了消费者市场。你认为,就这些现有公司捕获这个消费者市场的能力而言,无论是谷歌还是苹果?或者我们是否看到我们参与的所有这些 YC 公司或其他公司在这个领域真的走在了前面?我对这个问题有点看法。我认为这些现有公司……
当你家里既有谷歌家庭,口袋里又有 ChatGPT 时,这只是每天都在证明他们落后了多少。是的。我的孩子们试图让谷歌家庭像 ChatGPT 一样给他们讲故事,但它完全失败了。我的孩子们,你知道,他们与技术的第一次互动,至少是深入的互动,是通过模型进行的,而不是通过搜索引擎。是的。
所以,首先,我认为许多人的日常体验是,这些现有公司在这个领域远远落后。然后,第二,我认为我们已经讨论了很多关于这一点的内容,那就是有很多种,我不知道,人类体验中令人不舒服或不礼貌的方面,而现有公司只是……
在结构上注定永远不会讨论。公司、委员会、律师,这些大公司很难发布有主见的产物,至少是有主见的,就像许多这些语音模型可能需要的那样。而初创公司则没有这个问题。现在有,你知道,反驳它,比如 Grok。
但我认为这非常像只有创始人领导的大公司才能做到的事情,而不是传统的现有公司。所以我们有理由总是支持初创公司,但在这种情况下,我绝对支持初创公司。
是的,我同意。我认为有一到两个类别或用例,其中通话确实已经商品化或将商品化,用户体验不太重要。像谷歌可能会采用这些。例如,他们最近推出了打电话给餐厅、获取可用性,然后返回给你并给你提供选择的功能。如果你可以在谷歌搜索中添加一个按钮,那么可能通过他们这样做是有意义的。但他们会构建第一个
人工智能原生个人助理,它可以在你所有的产品和所有信息来源中工作吗?我可能会说不会。所以,我认为现有公司最终进行的所有通话,这将是一些数量,可能不会是那种能够支持
一个大型且令人兴奋的独立新兴初创公司。是的。是的。这就是他们将使用新技术来扩展他们一直以来主导的类别的主导地位的模式,这很好。所有新类别,他们都将完全无法竞争,或者至少这是历史模式。我认为一个好问题是,如果模型是互联网的新前端,
搜索是否仍然是一个有意义的基元?他们是否会扩展他们对下一代消费者和企业失去相关性的类别的主导地位?是的。我认为你关于“有主见”这个词的观点在这里非常重要,因为我认为语音是一个平台,
我们直觉上认为它比,比如说,更要有主见,或者我们需要更要有主见,因为有趣的人是有主见的人。没错。我甚至在想,我的意思是,我可能说得太远了,但是你对于像搜索或应用程序这样的东西会看到的一些旧 KPI 对于语音来说可能甚至不一样。你可以想象神奇的时刻可能是笑的时间。例如,你能多快让人笑或哭?不是故意地,而是真正地与一个模型、一个语音模型互动,这不会
必然发生在文本中。是的。我认为普通消费者会在他们的脑海里,Siri 甚至无法与 ChatGPT 语音模式或类似的东西竞争,因为它们只是……
作为用户,当你使用它们时,你会得到如此不同的感觉。我认为这其中的另一个有趣的部分是,在某些文化中,有点不讨人喜欢,有点讽刺实际上是高度偏爱的。这就是你应该建立信任并与人互动的方式。你知道,我知道英国文化有点像这样。即使是东海岸文化,你知道,几周前我们还在开玩笑说我们需要 ChatGPT 语音东海岸模式。是的。它非常简短。它不会容忍傻瓜。它说不。它说不,完全正确。
- 完全正确,是的,没错。- 当你想到你的朋友时,你没有朋友,或者有些人有,但大多数人没有朋友只是为你服务。- 是的。- 有些玩笑,有些——- 这很尴尬。- 他们有自己的意见。- 是的。- 这与我们在语音伴侣产品中寻找的东西有关,但即使是任何消费者语音代理,都必须有一些摩擦
如果建立关系太容易,如果他们总是对你说“是”,如果他们没有给你残酷的诚实反馈,那么它很快就会过时。作为消费者,你只是让一个总是说“是”的人或女人跟着你走,这对你来说没有任何价值。一个总是说“是”的模型。是的。没错。一直跟着你走。所以我们实际上对那些在如何构建语音代理方面有主见的创始人感到非常兴奋,因为它拥有自己的角色,它自己的个性,用户正在与之建立联系,而不是……
我们过去拥有的语音代理,用户将它们视为他们正在向其交付基本任务的机器。对。没错。信任必须赢得。如果模型没有为此而设计,那么它们永远无法发挥其全部潜力。这是一个很好的观点。好吧,当我们努力开发这些类型的产品时,你还有什么想留给听众的吗?关于未来有什么,你对什么感到兴奋,也许你希望创始人将注意力转向哪里?
我认为一件非常有趣的事情,也许这只是标准的技术平台转变,但我们看到一些创始人可能对某个行业很陌生,但他们会花几个月的时间深入研究,能够构建最强大、增长最快和拐点最高的产物。这仅仅是因为我认为游戏规则正在改变。而且……
你可以构建的产品类型和能力也超过了我们见过的任何东西。因此,如果你以多种方式快速行动,例如快速交付成为护城河,你就可以赶上其他所有事情,例如行业专业知识、网络、知识库、资源等等。所以我想说,这是我们最兴奋的领域之一。那些可能只在这个行业工作了六个月、一年甚至更短时间的创始人,
但正在迅速对他们需要构建的东西形成自己的看法,而且可能最重要的是,快速构建和测试,获得反馈并以此为基础。是的,所以有两件事。第一,如果你正在构建这个领域,请与我们联系,你知道这个词或更好。然后第二,我们与许多人工智能创始人讨论过的一个提示就是,你的产品的令人难以置信地昂贵
版本是什么。所以,如果你向许多消费者每月收取 20 美元或 100 美元,那么每月 1000 美元或 10000 美元的 SKU 会是什么样子?我认为语音也是如此。是的,我们将有一些高容量的用例,我们实际上想要复制或替代语音人工智能模型。但是,企业中正在进行的最敏感、最珍贵、最有价值的对话是什么?你能解决这些问题吗?你会为这些收取什么价格?
可能是 10 万美元的互动。也许这有点极端,但作为一个产品设计练习,为什么不呢?是的。我认为这值得探索。这是一个值得让人们记住的好提示。非常感谢你们两位。谢谢。谢谢。
好了,今天的节目就到这里。如果你真的坚持到了现在,首先,谢谢你。我们对每一集都投入了大量的思考,无论是嘉宾、日历拼图、与我们优秀的编辑汤米一起的周期,直到音乐恰到好处。所以,如果你喜欢我们制作的内容,请考虑在 ratethispodcast.com/A16Z 上给我们留言,让我们知道你最喜欢的剧集是什么。这会让我很开心,我相信汤米也会很开心。我们下次再见。