Dust’s Gabriel Hubert and Stanislas Polu: Getting the Most From AI With Multiple Custom Agents

2024/11/26

Training Data

Chapters

Gabriel and Stanislas discuss their confidence in the belief that multiple AI models will coexist, driven by the need for quick evaluation and comparison, security sensitivity, and the potential for local models.

Competition in the AI model market will drive the need for multi-model integration.
Security and data sensitivity will influence the choice of models.
Local models may be preferred for certain use cases due to latency and security concerns.

Shownotes Transcript

我们要求全世界从计算器技术转向，敲击相同的按键，你将得到相同的结果。计算器技术提出相同的问题，你将得到略微不同的结果。这种情况不会发生。这是最大的转变，自从计算机出现以来，我们使用的工具发生了变化。我们要求整个劳动力队伍转向一种剧烈的思维方式。

而你获得这种转变的唯一方法是拥有一个你足够舒服的风险回报比，就像，你知道我的意思，我不是要求你每次都正确。我要求你给我一个草稿，它能帮我节省很多很多很多时间。并且，就r而言，这是我愿意在其范围内探索的东西。我认为，这确实是我们在尝试过ChatGPT的人或只是对新技术好奇的人身上看到的预测之一。他们预计其中一些会有点问题，但对他们来说，上行情景是如此清晰明了，以至于他们愿意为了启动事情而进行这种局部风险权衡。

欢迎来到本周的训练数据。我们欢迎Gabriel Hubert和Stanislas Polu，Dust的联合创始人，Dust是一个统一的产品，用于构建、共享和部署个性化的AI助手，成立于2023年初，此前他们在Stripe和OpenAI工作多年，是第二次创业的创始人，Gabriel和Stanislas创立Dust的观点是，不会只有一个模型统治所有模型，多模型集成将是充分利用AI助手的关键。

他们很早就确信，访问你数据孤岛中的专有数据将是释放AI全部潜力的关键，并且他们知道你希望保持这些数据的私密性。我们已经合作了18个月，他们的预测一直非常准确。

所以今天我们决定向他们询问这些预测。我们将了解他们如何看待模型领域的演变，以及产品关注度相对于构建专有模型的重要性，以及AI如何增强而非取代人类能力。Gabriel，欢迎来到训练数据。

谢谢。很高兴来到这里。是的，谢谢。很好。如果你也在这里的话。

伙计们，我最想问的第一件事是，你们在2023年初创立了这家公司。当时，看起来似乎只有一个模型可能统治所有模型。而当时的模型是GPT-3.5。

3.5。我不知道4是否已经发布，但这领先于曲线，人们对此感到非常震惊。你们提出了一个相当反传统的观点，即实际上会有许多模型，并且能够将这些模型组合在一起并在其之上进行高级流程将非常重要？到目前为止，你们完全正确。在一年前半是如何获得做出这个决定的信心的？

是的，我认为关于模型……但很明显，许多实验室已经出现。对于普通观众来说，这并不明显，但对于了解市场动态的人来说，许多实验室正在兴起。我认为，对我们来说，在这个领域会出现竞争是自然的，因此，让用户能够快速地在不同模型之间切换以根据用例获得最佳价值是有价值的。

是的，我认为从使用角度来看，能够快速评估和比较显然很重要。展望未来或已经进行的一些对话，似乎正在处理的数据的审查级别、安全性和敏感性也可能会影响某些不同的用例。因此，我们很兴奋地看到人们考虑将较小的模型用于某些用例在设备上运行。你可以想象一个世界，在这个世界中，你希望能够在对不太敏感的内容进行API调用到前沿模型之间切换，这对于获得最先进的推理能力绝对至关重要，而对于一些较小的分类或某些任务，则可以在本地完成，而你用于代理或助手的界面保持不变。这种切换需要在模型之上有一层。

你每次都提到了这一点。在过去几年与你们的合作中，你们提出了许多其他非凡且正确的预测，我认为这仍然不明显，即会有许多模型。你将拥有一些本地模型，你将拥有一些API调用，然后你实际上作为客户希望在它们之间进行选择或希望拥有某种控制权。

首先，你为什么认为这将会发生，为什么会有多个模型？其次，这是否可以通过某种路由机制、某种管理程序层来避免？这种情况会发生吗？你们会成为那个管理程序层吗？嗯，帮我理解一下，我认为……

这涉及到两种操作模式，我们思考未来。这基本上是未来的模型分布。有一种情况是，技术按照今天的趋势继续快速发展。在这种情况下，仍然会有一些大型参与者之间的竞争，因为对GPU的需求非常大。

用于构建这些越来越大的模型，因为我们唯一知道的方法是通过规模来获得更好的模型，在这个世界中，能够随时切换到最佳模型的这种动态将长期存在，我想，直到我们达到这个动态的终点，然后是AI的这种分布式架构，我们稍后会更详细地讨论，也许技术会停滞不前。在这种情况下，不会只有一个模型。

它将是一个大型模型，最终每个人都将拥有这个模型。最终，在你的MacBook M2上，你将能够在几年内在几个小时内训练GPT-6，然后这种路由器，这种路由器的需求就会消失，因为技术已经变得非常普及。嗯，就信任生产者令牌而言，每家公司都将拥有自己的模型。在这个世界中，我们将拥有我们的模型。

哦，我们必须就此向你们施压。所以，你们正在建立一个业务，无论哪种世界出现，你们都能获胜。你认为我们将进入哪种世界？

这绝对很棘手。这很有趣，因为就模型的能力而言，我们已经看到或拥有了这样的认知，即该系统在过去几年中发展非常迅速，我们看到了更大的上下文支持、音频支持、图像支持等等。但与此同时，我们看到真正改变世界的是这些模型的推理能力。

而这些模型目前的推理能力在过去两年中实际上相当平稳。有很多关于规模的讨论，大约在两年前，如果我没记错的话，内部训练达到了顶峰。这意味着就推理能力而言，它已经停滞不前。我也这么认为。

有一种凯文·凯利式的观点，即实际上存在指数级进步，但你只是每隔一段时间才能看到这种进步的样本。因此，在没有最近样本的情况下，人们将其解释为停滞不前，而实际上只是样本偏差，你可以看到这一点。

那么，你认为他是对的吗？你认为实际上存在指数级进步，我们只是还没有看到它吗？或者你认为它实际上就像汇编编码一样，推理突破并没有像……

人们希望的那样取得进展。就我而言，我强烈感觉它并没有像我最初对这项技术最乐观的想法那样快速发展。这就是为什么我允许自己提出这个问题，或者只是考虑差异……

在我们对2024年的预测中，我们认为……

我们将会有一个重大的推理突破。你认为它会到来吗？是的，很难说，因为这并不确定，即使它没有到来。有很多理由相信它可能不是……核心技术限制。

你可以提出许多反对意见，也许情况是这样的，这需要时间，训练下一代模型所需的集群规模非常巨大，这涉及到基础设施和重新编程方面的许多复杂性，因为GPU在扩展到如此多的GPU时会发生故障，它们总是会发生故障。所有训练在集群中都是高度同步的。因此，可能只是扩展到下一个数量级所需的规模非常非常困难，并且不会存在某种内在限制，而只是一个阶段，在这个阶段我们学习如何从红色1级到红色5级。但对于GPU……

基本上，你曾在OpenAI工作过一段时间，所以人们从Dust的经历中认识你。但我必须记住的一件事是，你从2019年到2022年末在OpenAI担任关键研究员，发表了许多优秀的论文。其中一些与数学和AI有关。你与OpenAI的团队一起研究了这个问题，你认为数学对于这种推理突破至关重要吗？或者它是否正交于我们实际上可以在文本语言数据中学到的东西？

我仍然相当确信这是一个伟大的研究环境。我们花时间玩了一个……然后融资。他当时在FAIR工作，研究主题，这正是……这与我们当时阅读的内容非常相似，朋友们在工作场所竞争，朋友们分享想法……我认为当时的理念是，数学，特别是形式数学，它能给你完美的逻辑，是一个非常独特的环境。

研究推理能力并提升推理能力，因为你有一个经过验证的……所以你知道它受到能够验证模型精度的限制，在一个非正式的环境中，这需要人类在某种程度上进行检查。因此，这很可能是一些必须在某个时刻出现的东西，但由于某种原因，它还没有出现，但它应该在某个时刻出现，并且仍然非常依赖于大型语言模型研究中的形式数学研究。我记得其中一个……

你向我展示的方式，当时我作为一个……将数学应用于软件，软件，其余部分的门，并从一些最关键的系统开始，这些系统是唯一经过手工证明和手工验证的系统，这表明手工完成和机器完成需要付出多少额外成本，以及我们从能够扩展和普及这一点中可以期待的未来收益。

嗯，你们通过Dust API调用看到了很多活动。当你们构建Dust系统时，你们可以选择使用哪种基础模型。嗯，你们可以调用许多不同的模型，比如我作为用户。

我经常调用的不只是GPT-3，我还调用GPT-4，我还调用Dust系统，在我的客户实例中，我从许多选项中选择一个。你们在趋势方面看到了什么，什么表现非常好？我个人最近对Anthropic的模型印象深刻，但你们对此有更深入的了解。

我认为……我的意思是，我们已经进行了……训练。你知道，你将拥有通常的编码偏好，人们会想要切换只是为了看看另一边是什么样子。因此，当你观察切换时，你并不一定在观察人们确信另一边的模型更好，而是在观察人们想要尝试的习惯，但这是真的。

我们对Claude、最新的Llama 2版本和Emprical收到了很好的反馈。我们在我们的用户群中看到了一些对该模型的粘性。我认为街上的说法是，对于某些编码应用程序，Code Llama实际上表现非常好。

我们还没有通过Dust提供它，但它即将到来。哦，那太好了。看，这就是你因为Ren和Esco而醒来会得到的东西。所以你在炎热的一天早上7点汇报。

所以是的，Code Llama显然在某些当前能力方面非常有趣，然后你必须将其与人们获得的实际体验结合起来。因此，推理不能完全……独立于延迟……去年某个时候的延迟基本上可以用来计时。在Serenity Co，你可以看到API中的延迟，因为人们在西海岸醒来。

因此，人们的用例可能或多或少地对这些敏感。我们现在正在覆盖德国的AI模型和Robes模型。我们看到了一些对从默认模型（当我们第一次启动时使用的是OpenAI模型）转向其他模型的兴趣，这并不是说OpenAI模型没有……

在过去的一年中，人们对开源模型充满了热情，这实际上是你们的预测之一。你们每年都会对AI做出这些伟大的预测。我很喜欢阅读它们。

其中一个观点是，今年某个时候，一个开源模型将在LM质量方面超越闭源模型，但这似乎还没有发生。而且，围绕开源模型的热情（或者更确切地说，是其相对于闭源模型的进步速度）似乎也减缓了一些。也许可以回到这个话题。凯文·斯科特谈到我们在创作时进行采样，这是一种持续发生的事情，我们还没有看到它。但你认为开源生态系统会如何发展？它最终是否会在某个时候超越闭源生态系统？

我的意思是，每个人都说过，这与我们所说的相呼应。并且，通过模型的分布，有一种方向，即开放的，这将无处可去。而分布式的开放的，这将赢得一切，对吧？因为，如果技术平台开放，显然会迎头赶上，最终每个人都可以训练高质量的模型，那么，追求专有模型就没有价值了。

嗯，我认为存在一个临界点，在这个临界点上，开放的最终会成为赢家，这显然将是一件大事。然后，在目前的动态中，确实开源一直落后，显然，嗯，嗯，我认为必须指出的是Facebook或Meta的努力，因为他们拥有尝试新模型所需的资源，到目前为止，他们一直非常公开地发布每一个模型。所以，看到他们未来几个月会推出什么，也许会让这种预期成为现实，这令人兴奋。对此的警告是，假设最好的模型是最大的模型，这是一个相当安全的假设，尽管可以讨论。这意味着这些模型在某种程度上将是巨大的，这意味着即使它是开源的，也没有人能够……

运行它。

呃，它需要的资金太多了。你只需要大量的GPU才能在法国运行它。因此，这将真正影响这些模型的使用，即使它们在当前的成本方面更好。这是一个关于……

消费的观点，这很有趣，因为这意味着你仍然可能拥有一个世界，在这个世界中，存在大量的基于API的推理需求，无论底层模型是专有的、托管的还是开放权重的，因为技术能力……

你的一个创始假设与模型质量和模型性能有关。这可以追溯到大约两年前，那时即使是两年前，模型也足够强大，并且在经济上也足够可行，以至于你可以在其之上解锁一系列独特的、引人注目的应用程序。

即使在那时，瓶颈也不一定在于模型质量，而在于模型之上的产品和工程。我不知道这是否是今天的共识观点。我们仍然听到很多人在等待模型变得更好。就我们而言，我们恰好同意你的观点。但问题是，你在2022年看到了什么让你有了这种观点？如果我们快进到今天，你在企业中部署这些东西的实际经验是什么？在哪些产品和工程方面需要突破才能实现你的愿景？

促使我关注这一点的是我在使用GPT-3之前看到的。它来自两个非常不同的动机。首先是，它非常有用。

没有人知道它。没有人可以使用它。但它已经存在，几乎已经在API中。我的意思是，当时它在API中是2.5，这是一种轻微的迭代，但它是在同一天训练的，所以它是一个非常好的模型，这是一个基于Cortex的模型，它比当时可用的东西好得多。

在API中。

然而，当时的AR（增强现实）非常小，与我们今天看到的相比，几乎不存在。所以这是一种动机，并且这与这样一个事实相结合：我开始感觉到，我的意思是，我有预感，用当时的科技很难发明一个非凡的数学家。

所以我把它看作不是一个日期，而是一个非常漫长的、缓慢的、快速的迭代，我当时也在研究。当我将这些模型用于日常任务时，我已经在利用它们的效用。所以这是第一个动机。

而我另一个非常矛盾的动机是，加布里埃尔当时的想法是，如果这项技术发展到AGI，那么我们应该建立一家公司。所以我们最好现在就做这件事，因为下次可能就太晚了。我没有完全回答你的问题，但我想……

这让我兴奋。当我们开始集思广益，寻找部署这种原始能力的方法时，我们挖掘的地方之一是混合微调的一些局限性。当时人们谈论很多微调，很多咨询公司都在销售很多幻灯片，这些幻灯片基本上是告诉大公司花很多钱进行微调。

让我感到不安的两件事是：第一，它很昂贵，而且你必须经常做，没有人知道他们必须经常做。第二，对于人们想要微调的大多数事情来说，这真的不是一个好主意，特别是像对公司数据进行微调是一个坏主意，而不是在某些可以看出收益的特定任务上进行微调。但是，将公司的背景（这显然是每个真正公司的痴迷）——它如何为我工作？我如何让它按我想要的方式工作？——的想法将通过不仅仅是改变模型本身的技术来实现，而是通过控制数据来实现。

它可以访问其任何用户可以访问的数据。这些是新世界和旧世界之间某种混合的模型。它的旧版本是关键在于，仍然是同一个人决定如何向公司成员展示新技术，以及他们到位后可供团队衡量其影响的指标和任何数据密钥。

这些是旧的软件问题，它们仍然需要在新界面上推出，因为界面现在是这些新的助手，这些代理。然后，一些新的问题围绕访问控制。在一个一半操作由非人类完成的世界中，访问控制的外观和感觉是否相同？我可能想访问一个2020年的文件。

我能否访问该文件？是的，在2024年，也许助手可以访问该文件，并可以向我提供一个摘要，其中省略了我不应该访问的一些关键信息，但仍然让我可以访问一些对我继续工作很重要的决策点。而这套原语，这套新的答案，实际上并不存在。

以及当今文档的存储方式。因此，如果你考虑在一个现实环境中部署这种能力，在这个环境中，人们仍然必须面对这些控制和这些护栏，那么产品层实际上非常厚。用于构建逻辑和可用性以确保性能以及采用的应用程序层相当薄。我认为那是重点，对吧？当我开始时，这里有很多事情要做。

也许你可以深入探讨一下，因为当我们在2023年与你们互动时，很多人仍在启动这些大型语言模型公司。而你们有非常具体的观点，那就是未来是应用层。引擎盖下会发生很多事情，我们只会成为顶部的抽象层，让事情发生。

在我看来，随着事情的发生，无论如何，我们将通过构建人们真正使用和喜爱的产品来取得成功。首先，你如何对此充满信心？其次，情况如何发展？即使在SaaS和企业部署中，这方面有什么困难？你们在RAG方面一直领先于曲线。我的意思是，我一直在谈论微调，但你们在检索方面做了很多工作，这甚至在我称之为检索之前就已经存在了，并且实际上做出了关于信息的明智决策。从应用层的想法到你们今天的现状，一步一步地走一遍。

你可以想象这种信念存在于一个你仍然决定成为前沿模型的世界中。我们之所以将两者分开，是因为这似乎需要花费很多钱来承担很大的风险，我的意思是，为了尝试开发一个前沿模型或等效的前沿模型，并且还要对它的分布方式下注，需要花费很多钱来承担很大的风险。我们的内部口号是“在达到产品市场契合度之前，不要使用GPU”。

在我们真正知道它将被部署在哪些用例上之前，我们看不到训练我们自己的模型的价值，并且有更便宜的方法来探索和确认哪些用例实际上将产生最大的价值并产生最大的参与度。第二个原因实际上是关于这个数据矛盾，例如，在互联网数据上进行训练的截止日期很难持续设定。事实上，你实际上可以对上周发生的事情有一个内部了解，这意味着微调是一个难题，它不是一个已解决的规模问题。

因此，如果你从这个信念倒推回去，这意味着在许多情况下，它不是自我。因此，另一种技术必须是实现大部分收益的技术，并且从文档中提取少量上下文，将其输入到场景中，让你的工作助手更有帮助。一个有趣的趋势是，实际上许多决策只需要有限的上下文和信息就可以得到极大的改进。

当时上下文窗口很小，已经与某些场景兼容，所以我们说，让我们把信息带进来。当然，我们在过去一年中看到的是这些上下文窗口的大小增加了，这使得将所有正确的数据（希望不超过正确的数据）暴露给前沿模型的推理能力变得更容易。我们的经验是，首先，人们需要时间来理解这些区别。

这很难，你必须经常跳出自己的圈子才能意识到这一点。世界……这种现象分布得相当均匀，人们对在工作负载中全面推出AI或推出这些前沿模型的能力的含义有不同的假设，你必须让他们回到他们真正关心的问题上，这总是非常简单的事情。你知道，我想更快地工作。

我想知道我错过了什么。我想在一些我发现重复的任务中提高生产力或效率，然后只在绝对必要时才解释将要使用的技术，因为人们会比它在引擎盖下如何工作更关心他们的体验和感受。百分之九十九……

时间里，发生的重大见解，然后我认为我们已经这样做了很长一段时间，很高兴看到市场上的一些人也这样做，那就是人们实际上非常擅长识别他们在工具箱中需要的工具。我们没有足够尊重用户，说你需要一个能做所有事情的单一工具。这个难题应该完全被抽象出来。

你应该向一个神谕提出这个问题，神谕会回答。人们很擅长区分螺丝刀和锤子。你知道，当他们想开始工作并且需要一把螺丝刀时，如果他们得到的是一把锤子，他们会非常非常失望。

这听起来像是一个锤子的回答。因此，专门的代理，专门的助手，以及使之易于设计、监控、迭代和改进——所有这些都需要……这很快对我们来说就显而易见了。人们对此很满意。

因此，让我们觉得我们有了一个可以坚持下去的见解的首要问题是，每个人都在问我们关于我们痴迷于顶级用例的问题，并说，人们最常将它用于什么？跨公司的顶级用例是什么？什么？我知道我几乎可以看到亚马逊的眼睛试图决定他们要垂直整合哪个领域，以及我们将构建该垂直用例的专业版本。

但我认为完整的故事是碎片化。我认为故事是为团队或公司提供工具，让他们看到改进员工工作、增强员工能力的机会，并了解将帮助他们做到这一点的法律障碍。因此，与其封装有用的技术突破并将其从用户手中夺走，不如在正确的级别向他们展示这些突破，这将赋予人们更大的自主权，并使他们能够设计我们从未想到过的一些东西。他们中的一些人会出现的。我们几乎无法想象自己没有做到这一点。

感觉就像是在为人们提供乐高积木，让他们自己去探索各种用例。为了更实际一点，你能分享一些你在客户群中看到的独特、令人惊讶或特别有价值的用例吗？做点什么。

再多说一点，Angel。很明显，人们正在考虑那些非常明显的用例，这些用例已被有趣且快速地部署，我们增强了销售团队、支持团队和营销团队。这本质上是上下文检索和内容生成。

H，我需要回复一张工单，你知道的，我需要了解工单的答案，并为工单生成草稿。呃，我需要和客户谈谈。我需要了解他们的垂直领域以及我们的产品如何解决他们的问题，并起草和融化跟进他们的异议。

嗯，我需要呃，准备一篇博客文章来展示我们与市场有何不同，再次，就像我要计划什么使我们与众不同并生成没有语气的声音。这些都很明显，而且相当预期。让我兴奋的是看到两种类型的事情。

一种是非常个人的帮助，个人痛苦。呃，人们通常，实际上是职业生涯头几年的年轻人，每周、每天都在寻求建议。比如我今天做得怎么样才能达到我的目标？你认为我未来几天应该关注哪些方面？你能不能实际分解一下我在过去几天里在Slack和Notion上的互动，并指出我本可以做得更好。

我正在获得反馈，而且我有点时候说得太理论化了。Ally，你能指出我在即将发送的这两条笔记中可以改进的地方吗？这很令人兴奋，因为所有的赌注都是不，我们想让每个人都成为建设者。

我们想让每个人都能看到这一点。入门并不难。通过降低激活能量，立即看到小的收益，而不是等待下一个模型或下一个版本，这将真正解决他们的一切问题。

个人用例在严重方面，第二类让我兴奋的用例，呃，基本上是跨职能的。因此，数据孤岛的存在是因为这些功能不说同一种语言，它们说同一种语言，但它们不说同一种语言。因此，了解代码库中发生了什么，当你不知道代码的功能时，让助手翻译成简单的英语，最后一次糟糕的请求被合并做了什么是有力的。

对于那些在工作中受阻的人来说，这很有力，他们不知道应该烦扰谁才能获得更新。所以，你知道，营销到工程，销售到工程，另一种情况是在从冗长的销售电话中提取技术信息是有力的，因为它意味着工程师不需要APMM或APM的抽象来获得来自与关键账户的最后一次通话的要点。他们可以只关注助手对他们自己项目中的那种内容的注意力，并获得这些更新。

所以我认为我们所兴奋的这一类助手，我认为，代表了我们希望快速发展的、表现良好的公司运作方式的未来，在那里，数据对你有用，你应该做出的决定总是可以访问的。你不需要担心哪个部门决定了它或创建了它。你可以访问它，而信息在公司中流动的这种流畅性有助于你做出更好、更快的决策。每天都如此。嗯，还有什么例子是我认为你错过的吗？

但是不，是的，我认为我想补充的是，正如他所说，用法非常分散。我们一次又一次地看到同样的场景。

所以我们有数据来支持这种说法，因为我们构建了一个沙盒ks，它非常强大，呃，而且灵活，但同时也因为激活用途的复杂性，呃，并非微不足道，因为当你拥有像产品这样的水平沙盒时，是的，但是为了什么？所以，七月，与所有用户一起进行的试点测试首先明确地确定了两个案例。所以他们真的试图考虑这个问题，我应该为我的公司关心哪些用例？并尝试代理其中几个。

我们总是看到同样的模式。我们看到第一个用例，部署使用情况的想法。我们尝试将其转移到另一个用例。第二个用例被部署，使用情况有所增加。

然后我们通常会面临一个阶段，在这个阶段，使用情况趋于平稳，缓慢增长，最终达到gAmber临界点的大规模使用，所有这些都变成了大约公司70%的人，这就是我们用户的模式，以及从70%的蔓延。呃，使用量随着时间的推移而增加，最初由利益相关者确定的松散案例变得可信，轶事竞争。其余的使用情况。

这就是我们感觉这提供了价值的地方。对我们来说，很难知道所有这些案例是什么，因为我们有一些拥有几百人和几百个助手的公司的例子。所以这只是很难回答这个问题。最好的案例是什么。

就像这些很好的例子一样，这让我想到一个类比，我想试着问你们一下，你们可能会挑剔这个类比，但这只是我脑子里突然冒出来的东西，那就是，正如你所描述的那样，许多案例。你可以想象某种垂直应用程序是围绕这些用例构建的。而我想到的类比是，有无数个垂直应用程序。

然而，很多工作在哪里发生？电子表格。为什么这发生在电子表格中？每个人都知道使用电子表格。

它们很灵活。你可以随心所欲地定制它们。所以类比是，我想知道这是否有点像未来的电子表格。

你知道，其中一些应用程序可能会从垂直特定应用程序中剥离出来，但即使那样，人们仍然会回到个人代理，因为它就在那里，它是可用的，并且拥有你的数据很熟悉，你知道如何使用它。你可以快速、简单、有效地构建你想要的东西。就像，这对你来说是一个合理的类比吗？

我认为这是一个惊人的能量，另一件我在思考的事情是，这花了我最长的时间才能开始合作。这就像，我不知道，是二十年前，十五年前。然后，在某个时候，使用它来做某事就像，“哦，这有点像一个很酷的实时界面，你可以在其中实时获得函数的结果。”

是的，这就是工作。这件事就像，它是一个很酷的工厂，面向Facebook和工程师。我现在明白了。

是的，我认为这对于实验成本来说也很有趣，如果考虑到我们的一些客户试图尝试并描述他们正在经历的游戏，他们对未来功能的兴奋程度。我们已经获得了80%的生产力提升。有些功能的生产力提升只有5%。

我们甚至不确定我们是否正在衡量它们，对吧。但是当助手的专业化足够接近能够增强该垂直zed A的分布问题的实际工作者时，我们看到了收益，垂直zed的助手几乎不可能解决。你如何在预算紧张的时候深入到那个功能中，关于哪些技术适合的决策有时会很复杂，而有时这就是性能提升最明显的地方。

我们的一个用户每年节省了8000个小时，用于将两个工作流程扩展到一个他们决定不组建全职团队的国家。所以基本上省略了一些无聊的细节，但是像审查网站，将它们与外国语言的注册文件进行比较，进行政策检查，这是一个确定的检查输入数量，对于代理来说非常清楚，他们正在审查所有语言和地理位置的账户，而这些人还不熟悉，因为他们真的在探索这个国家。嗯，立即获得收益，例如对助手的第一个版本进行非常非常容易的迭代，两周内将其投入生产，将其推广给三个由助手及其CT辅助的人工代理。

O.一个共享。就像你知道我们看到每月超过600个小时。我认为我们的定价很糟糕，但我兴奋的是，这个案例不可能通过特定的zed销售策略来探索或发现，因为我不知道你如何接触到特定青少年中的相当初级的人，并且能够如此快速地深入地向他们推销。

呃，如果你拥有这种共同的基础设施，人们理解它的构成要素？并非每个人都知道如何做某些产品，并非每个人都知道如何制作数据透视表，但每个人都明白他们可以玩弄基本的东西，并可能从他们身边的人那里获得帮助，这是我们一直在做的事情。而构建者在公司中的地图，这些人的热力图，关于它的含义是，这些人只是对迭代、探索和测试新事物感到兴奋，我认为这很好地说明了这一点。

未来高绩效或高潜力的，就像这是在整个大陆寻找人才的潜力。因为使用最多的人是那些最舒服地说“我不害怕某些东西会带走我工作中无聊和重复的部分”的人。我很高兴看到这些消失，并专注于高价值的任务。

我认为在最初的六个月里，我是那些大声疾呼“主要用例是什么？”的人之一。这两个家伙听过很多很多次，然后我最终意识到，这是一个原始的，我们谈论的是电子表格。你可以谈论自由，一个文字文档。

你可以谈论办公套件。当我与Dust交互时，我认为它就像Slack。除了我没有在Slack上与我的同事交流，而是在Slack上与助手交流。

他们实际上为我做了这种工作，我可以向他们展示这种工作。所以它感觉，Pat，正如你所说的，有点像电子表格与Slack的人体工程学相结合。因为它被带给我了，而不是我必须去使用它。呃，这花了我一段时间才做到这一点，现在我看到了碎片化是你追求的力量。

关于你的用户的精神特征提出了一个很好的问题，因为你的共同点是，就像在寻找那些雄心勃勃、富有创新精神的人一样。我不知道你是否给他们起了个名字，但让我们称他们为“创造者”。

你知道，那些不怕尝试新事物、愿意构建事物的人，你是否想出了一个系统化的方式来找到这些人？或者他们倾向于通过口碑或其他方式找到你，因为那不是，你知道，领英简介？不要说，你知道，grio mika，对吧？

我认为这是一个在几个层面上都非常有趣的问题。但是，呃，情绪是关键，对吧？所以，预测Dust取得巨大成功的事情来自于核心，并试图思考昨天与一家公司的首席人事系统官进行的通话中最有力的部分，他无法停止打断五分钟。

在我的图片中，是的，我确实谈到了，是的，我已经有了关于这个的博客文章，好的。我把我的信用卡放在哪里？这叫做你明年？这是自上而下的运动。

是对这项技术改变大多数人大部分时间都在电脑前度过的事情的热情和乐观，你需要这个，这个是非常重要的条件，因为我认为它解锁了三件事。第一，它解锁了对水平探索平台的信念。安全能够支持业务而不是成为障碍的能力。

嗯，而且有时是呃，例如设置，我们有创始人和领导团队，就像你如何提及你自己的员工上周和领导会议中被问到的问题一样，谁，我喜欢你如何更快地获得更好的答案来回答你的一些团队查询。所以一旦你有了这个，那么你就有了正确的桑巴。我说的是正确的补丁盘，我认为我们还没有完全破解构建识别。

啊，所以现在，它更像是贝茨。产品令人难以置信，易于使用。任何人都可以创建一个助手，即使他们的组织没有将他们标记为构建者。只是他们的助手的一些共享功能有点被认为。但是我们可以从人们探索产品、为自己创建助手、以有限的方式与他们的队友共享助手的方式看出，对那种类型的很好的预测。就我个人而言，如果你让我预测谁将成为，谁将成为那个家庭中的一员，我会根据歧视性因素的数量来判断，在某种程度上，年龄有点大，但就像那些可能在职业生涯早期的人，他们有一系列的任务，他们显然知道他们可以得到助手来帮忙，所以他们为自己制定了用例，那些有重复性任务并将其编写出来的人，从而摆脱了很多重复的事情。

只是为了避免遗漏，就像我们之前的谈话一样。我认为可以说，比如IT，指的是25岁以下的人，就像我们昨天说的那样，高级用户，那些一直使用它的人。嗯，在公司里，25岁以下的人是主力军，因为他们没有固定的思维模式，只是为了明确这一点。

但这并不适用于所有人。你可能70岁了，还在不断地以新的方式创新。但在核心方面，他们没有被设定好的模式。

顺便说一句，这对于很多下一代的Notion操作人员来说也是正确的，我们与之密切合作。这是一家25岁以下用户主导的企业。你知道，团队里的其他25岁成员一直在催促我转到Notion，这是一种完全不同的思维方式。在Dust，感觉非常相似。

是的，我认为我们拥有的、有用的东西是，ChatGPT作为一款现在显然闻名世界的产品，取得了巨大的成功。呃，这使得建立试点变得非常容易，只需告诉团队，你们知道吗，发送一份调查问卷，询问人们在过去七天中个人使用ChatGPT的频率，按降序排列。这就是你们的试点团队。

这就是你想要的人。挑毛病，踢轮胎。因为他们已经，我们要求全世界从计算器技术（按下相同的键，你会得到相同的结果）转向铸造技术（提出相同的问题，你会得到略微不同的结果）。

这正在发生。这是自计算机诞生以来，我们使用的工具发生的最大转变。我们要求整个劳动力队伍转向一种更灵活的思维模式。

而你获得这种思维模式的唯一方法是拥有一个风险回报比，并且你足够舒服，就像，你知道吗，我不是要求你每次都正确。我要求你给我一份草稿，它能帮我节省很多很多很多时间，以及这种噪声的分布，这是我愿意在其范围内探索的东西。我认为，这是我们在尝试过ChatGPT的人或只是对新技术好奇的人身上看到的预测指标之一。他们预计其中一些会有点问题，但对他们来说，上行空间是如此清晰和巨大，以至于他们愿意为了开始而承担这种局部风险。

所以你们公司内部和外部都有一些非常强烈的信念，好消息是，你们一直以来都对这些强烈的信念很正确，你们也提到了其中一些。我的意思是，你们在它成为主流之前就谈到了从终端到安全的方式的转变，谈到了抽象化和向量化。

我认为这可以展开，如果你愿意的话。当然，如果我们深入探讨这个兔子洞，这将对节目产生重大影响。你谈到了没有GPU之前没有产品市场匹配（PMF），对吧？你能简单介绍一下Dust遵循的一些信念吗？它们可以是哲学性的，就像其中一些一样，也可以是战术性的，比如没有GPU之前没有PMF。

第一个是，专注于我们的产品是正确的做法，因为我们认为我们只是触及了我们能够用这些模型做的事情的表面。现在，我们正在从对话界面学习。这就是为什么你使用Slack集成的原因。

而且我确实，我确实相信，这种类比，Slack集成，不会长期持续下去，因为我们与该技术互动的方式将会改变。它始于对话界面，但最终会走向一个非常不同的方向。基本上，这些模型就像计算机的CPU，呃，应用程序编程接口（API），而令牌就是与之交互的界面。

我们正在做什么，对吧？这仅仅是发明bash脚本。我们还没有发明用户界面（UI）。我们还没有发明多处理。我们还没有发明很多东西。我们正处于从产品角度利用这项技术所能做的最开始阶段，无论它是否会进化，或者是否会保持现状。

是的，我认为一个词将会很重要，而且我觉得最近的新闻实际上帮助证实了这一点，就像大海中的一滴水一样。因此，我们的一个产品模型是增强人类能力，而不是取代人类。这不仅仅是说我们不是来让人们失业的新版本。

我们真正认为的是，在未来五到十年内仍然有工作的人，给予他们最好的外骨骼，这将带来巨大的好处。这是一种与众不同的公司和产品对话方式，对吧？明年我们要从你的顶线中拿走多少钱？与……

这是你作为一家企业无法探索的潜在机会的数量，因为你的员工被拖累，推动着陈旧的流程，甚至不知道他们对公司其他部门的依赖关系。这就是你对那些你花了这么多钱雇佣的聪明人施加了多少摩擦，因为他们一天中的一半时间或一周的一部分时间都花在了我们根本不应该谈论的事情上。第二点是，这与……

就像你从一开始就一直在说的那样，Gabriel。一开始，你不想用“生产力”这个词。我想知道这是否发生了变化，如果发生了变化，你选择不用的细微之处是什么。

我认为“生产力”这两个词是我犹豫使用的，因为对我来说，“生产力”有时感觉像是一种优化，而实际上，有两种方法可以提高生产力，一种是更快地做同样的事情，另一种是做更好的事情。我认为有效的生产力是努力与影响之间的关系。

归根结底，如果你没有花时间去做你被分配的任务，但却为公司带来了最大的交易，你的老板永远不会生气。没有人会说这是一个糟糕的决定，因为我认为，你的职业生涯发展得越好，你越接近公司的领导层，你就越意识到这与努力无关。这实际上是关于影响。

而影响有时会以意想不到的、完全出乎意料的方式出现，就像，事后看来，我们当然需要关注这一点，但你需要腾出时间、空间、精力和心理认知空间来做到这一点。另一个是企业搜索。我只是觉得我们不想把它放在网站上，因为信息检索显然是一个人们非常兴奋、非常快速地使用的案例。

但是，我非常确信，寻找文档是人们并不特别热衷的一步。没有人早上醒来会说：“我很高兴我第一次就能找到正确的文档。”人们只想完成工作。

而碰巧的是，使用来自七个不同数据孤岛中的三个不同文档的上下文可以帮助他们更快或更好地完成工作。所以我认为搜索这一部分只是一个辅助任务。没有人真的想搜索。他们想要完成，他们想要证明，他们想要测试。但搜索这一步是我们认为会被抽象化并回到出发点的一步。

我认为我们与这项技术交互的界面和体验将会很快尝试忘记原始数据源是什么，一旦我们克服了今天存在的信任障碍。嗯，所有这些都归结于人类和非人类代理之间的协作，我认为Anthropic的项目是一个惊人的例子。嗯，去年夏天我们考虑过协作。

去年夏天，我们有一位来自……的优秀的实习生，他们花时间研究AI协作界面。你如何与助手聊天来改进你正在思考的东西，无论是应用程序、项目、文档还是脚本？这显然是Anthropic发布的工具让更多人受益的原因。

对我来说，这是我们需要改进的界面和交互方式，这将是未来的方向。所以我们说增强，我们会坚持下去，因为我认为这确实帮助我们专注于帮助人类和非人类更快取得进展的界面。这将是关于提案的。

我如何才能让人类参与到一个以正确方式撰写的提案中，以便决定我们是否要接受或拒绝它？这将是协作。我如何才能让人类的语言在助手面前尽可能容易理解和可靠，以便最终项目能够尽快进入最终形式？

所以你需要这种界面，代理和人类之间的这种交互。当你过快地进行替换时，当你只专注于替换和移除时，你会忘记这一点，你构建的东西本质上是“发射后不管”的，你会看到游戏，你会看到金钱游戏，但是，你知道，如果你已经自动化了100%的客户支持工单，你仍然需要更多人的见解来了解人们对什么感到愤怒。你仍然需要了解并掌握人们卡住的原因。

否则，你会减缓你的产品开发工作，而今天的产品开发工作成败取决于一些来自支持工单的评论。因此，你如何让这个问题消失，实际上可能更便宜，当然。但它也是孤立的，我认为这不是你的产品和业务如何最好地服务客户的长期观点。嗯，因为你仍然需要考虑最终的界面，这些界面将使决策变得更好、更具战略性和最佳选择，以满足你未来客户的需求。

所以，始终让人类参与其中，我的意思是，这是保持这种状态的一种方式。但它是以人为本的，我们正在构建的所有这些技术的重点是更好地服务人类。一旦你移除了这一点，你就犯了一个严重的错误，因为其他人会这样做，他们将拥有更好的客户、员工和利益相关者的体验。然后他们会赢，显然。

有些情况会让我和你陷入困境，比如这种情况，我们知道人类犯错的次数更多。所以我们应该显然避免这种情况。这是一个复杂而细致的问题。因此，我确信在某些领域，纯粹的替代具有完全理解的外部价值，没有负面的外部价值，但我认为我们对价值是如何创造的以及如何在公司各个部分中发挥作用的建模非常糟糕。你知道，经济学家一直在证明，当你不对负外部性进行定价时，我们会陷入混乱的局面。

呃，所以我向那些要求你像这样自动化优先的领导者提出的问题是：好吧，我不知道你最担心的是公司的哪些部分。我经常发现这会让首席执行官们对客户在支持工单中所说的内容感到恐慌。因此，让这个问题消失，让这个问题不那么明显，对于某些高管对话来说可能很好。

而且你的股价可能会产生强制性后果，如果你没有在正确的地方解决这个问题。但是，但是，但是，我认为还有更多的事情要做，而不是削减你资产负债表3%的数字。如果你让你的团队掌握这些技术，并且如果他们能够提出想法，那么你给予团队的机会范围将比仅仅解雇员工要广泛得多，你应该避免这样做吗？

我认为我不希望我们在这个生态系统中被视为，这种技术的破坏性将夺走一些人的工作，因为这些工作目前是由人类完成的，缺乏更好的替代方案。我认为在某些情况下，你可能会看到这些工作被创造出来，因为我们一直在等待机器人，这些工作是以一种因为我们一直在等待机器人而被构建的方式被构建的。但我不知道这是公司领导者所兴奋的。我认为外部、未来、我们需要向前发展的方式以及我们的竞争对手将要做什么，这些都是应该分享能量和支持领域的方式，以支持你们。

嗯，第二次创业，呃，十多年前你创办了你的第一家公司。呃，你们很早就被Stripe收购了。你们很早就加入了他们。作为第二次创业者，你们这次学到了什么，做了哪些不同的事情？

嗯，我认为，真正理解的是，一些具有爆炸性的赌注比过早地过度优化一些在市场上仍然毫无意义的事情更有可能让你取得有意义的成就。这是我认为我们思考方式不同的一点。所以，比如探索与开发，嗯，以及所有这些框架。

呃，这是一点。嗯，我认为你给予团队的透明度和信任，我们我认为我们并不反对它。更重要的是，我们更关注它能赋予你多少权力。

所以，呃，这个想法，我从Stripe获得的最好的经验之一，就像用纸质记录和IT一样，是走廊里两个人进行一次谈话，然后其中一个人会花时间写一份纸质记录或文档，说，你知道吗，我们刚刚进行了这次交流，我们在这方面取得了进展，IT为其他人节省了时间和精力，无需进入会议室或弄清楚这个决定已经做出，并且IT会培养一个信任和尊重的关系网络，我认为这是无与伦比的。然后你如何作为一个团队取得更多成就。所以在文化上，你需要从一开始就推动这一点，因为尤其是在职业生涯早期的人们并不总是觉得很舒服，我们的信息应该公开。

所以我认为这是一个有很多例子的地方，比如你长期以来真正相信的大市场。当我们十二年前开始我们的第一家公司时，我们热爱这项技术。这太棒了。

这太神奇了。这些是二维码。每个人都会使用它们。呃，现在我们必须等到疫情过去才能销售二维码。好的，接下来就做这个。

所以，就像爱上这项技术，而没有真正理解如果它成功的话，业务规模会有多大。并且尽早提出这个问题。有一件事我觉得有所不同。

那么，我们保留了什么？这些是我们共同的经验。我认为拥有建立公司经验的优势在于，你已经探索了一切。

你已经探索了美好、糟糕、快乐和痛苦，并且你了解整个API。它使更有效的融资、合伙人行动和公司运营成为可能。我认为这是一个非常大的优势。

嗯，我认为我最大的不同之处在于，我认为他和我完全不同，他提到的关于领导力的问题。作为一个创始人，你并不总是那么好。我的意思是，这不仅仅是让你尽早参与，而是让你去建立它，去建立最初的火花。

但是，为了公司的利益，你不是那个必须建立它的人，你是那个必须为人们创造一个环境，让他们参与进来，建立这些场景，探索和创造新的东西的人。而你能提供的最大价值是，我不喜欢用“领导力”这个词，它不一定是真正的领导力，而是指导，并试图创造一个环境，让每个人都有机会做他们想做的事情。但是的，在指导和环境中，一切作为一个整体运作，但这将是我们从Stripe中学到的最大的不同之处。

让我们进入闪电轮。我有一些问题要问你们，好吗？

闪电轮问题一，嗯，你经常在Twitter上分享你对人工智能世界走向的预测。此刻，你对人工智能世界走向的最大反向预测是什么？不要告诉我一点这个一点那个。所以，我了解你的观点，你对人工智能世界走向的最大反向预测是什么？

嗯，我看到，呃。这是一个闪电轮。我只有一点想法，呃，这将是艰难的。这将是，我们认为我们将经历一个相当艰难的时期，所以兴奋感将会下降。也许需要一段时间才能进入技术的下一阶段。这将创造巨大的价值，但人们还没有准备好，这需要很长时间才能被社会所接受。所以，有巨大的价值需要创造，但这将是一个我们可能面临艰难时期的时期。

对吧？短期悲观，长期乐观。闪电轮问题二。呃，这是给你们两个的，你们最钦佩世界上谁？在人工智能领域。

啊，啊，他太不可思议了。我有机会和他一起工作，呃，他是我最喜欢的人之一，他非常聪明，但他不是那种天才型建造者。他是一个天才领导者。

他就是一个有远见的人。我认为，呃，他的能力是惊人的。我认识他，呃，我不，实际上我不认识他，但在纯粹的人工智能天才方面，我认为是Ilya Sutskever和Yann LeCun。他们有疯狂的姓氏，所有那些人们仰望的人。但如此人性化，任何你……

我对那些已经存在一段时间并且表现良好的人印象深刻，他们在系统中充当良好的阻尼元件。他们只是知道，提供摩擦，保持乐观但谨慎。对我来说，我认为这是第一次，我记不清是在推文中、播客中还是文章中，但听到年轻一代说，“你知道，我们可以用三明治里的少量水做出相当不错的决定”。

而这些事情需要发电站规模的数据源，并且在某些事情上并没有做出很好的决定。所以我们觉得缺少一些东西，而他以优雅的方式把它重新放在了正确的角度。这对我来说很有趣，因为我认为很难不去屈服于炒作。

所以在某些方面，推动一个简单的想法，比如开放，我认为Yann LeCun正在相当积极地这样做，尽管这并不总是最简单的决定，而且还说我们可能并没有一直解决所有问题，呃，这很好，而且根据我的个人经验，那些为他工作或与他一起工作过的研究人员，我从中学到了很多东西，所以这，而且它不是法国的，但有一种谦逊，一种节制。我在发现关于风险预测和分类的整体情况时，欣赏了这一点，比如长达十年的欺诈风险预测和客户入职，以及医疗保健索赔管理等等。嗯，感觉很好，好像有一些人已经看到了很多，做了很多，并且更倾向于质疑而不是肯定。

好的。所以这就引出了第三个也是最后一个闪电轮问题。你选择了一个法国人作为你最钦佩的人，而Dust公司自豪地诞生于法国。巴黎一直是，当然，所有人工智能相关事情的中心，你对法国生态系统的看法是什么？除了我用英语开始之外，你想对正在收听这个播客的法国创始人说些什么？这是他们的错，不是我们的错。

是的，我认为法国的生态系统很棒，因为，嗯，与我们十二年前或十五年前第一家公司相比，我们现在有租户，因为已经有一代人通过市场并培养了所有这些人才，最近，人工智能人才也出现了爆炸式增长，这非常令人兴奋。嗯，所以我说它创造了一个……

人才的……

呃，在适当的条件下，可以创造出令人难以置信的公司。显然，这并不是一件容易的事，从法国挑战美国市场，所以这些事情需要考虑。

当然。是的，我认为如果你们有雄心壮志，还有更多的事情要做。只要你们不违背现实，比如，你们可以，你们可以对抗某些方面的叙事。你们可以对抗重力，至少你们不应该。你们应该与重力一起工作，好吧，你们应该对抗，但我们还有更多的事情可以做。我认为我们必须表现得更像以色列这样的科技国家，我认为，呃，呃，混合，呃，对人才在哪里以及它是如何连接起来的以及拥有高度信任的连接组织的认识，我认为这是一个伟大的催化剂，并且在促成伟大公司的诞生方面非常出色。嗯，但要认识到市场在哪里，人们在哪里购买，人们在哪里付款，以及人们在转向新技术方面做出决定的速度有多快，尤其是在这个领域。

我认为最大的建议是，作为一个法国创始人，如果你一直是法国人，你会有那种感觉，认为在美国一定发生了一些神奇的事情。那些人身上一定有一些特别的东西。

好吧，我会告诉你一个替代方案。我正在与ICO合作。这些都是新奇的人类。他们没有任何逻辑能力，就像我们一样。

所以，非常重要的是要雄心勃勃，并且坚定地相信你们可以做到，你们可以在任何地方做到这一点，这些都是来自法国人的话。这是美国，太棒了。

这是一个很好的结束点。谢谢你们，先生们。

喜欢你们。

Dust’s Gabriel Hubert and Stanislas Polu: Getting the Most From AI With Multiple Custom Agents 01:03:07 Share

Training Data

Chapters

Shownotes Transcript

Dust’s Gabriel Hubert and Stanislas Polu: Getting the Most From AI With Multiple Custom Agents