Chapters

The origins and development of Chatbot Arena, from its initial experiments with fine-tuning open-source models to its evolution into a crowdsourced AI evaluation platform.
  • Chatbot Arena was inspired by Stanford's Alpaca project.
  • The project aimed to address the challenge of evaluating open-source chat models.
  • Initial success came from offering free LLM inference and a side-by-side UI for model comparison.

Shownotes Transcript

大家好,欢迎来到最新的空间播客。我是亚历山德罗,我是Decibel Partners的合伙人和驻场CTO,我的搭档是Swyx,Smol.ai的创始人。

今天我们很高兴也很兴奋地欢迎LMSys的Anastasios和Wei Lin。

我之前见过你,我想是在去年的NeurIPS会议上。

你在会上展示了一篇论文,我并没有完全理解,但它似乎是一篇关于你的方法如何优于其他搜索方法的理论论文。我不记得具体内容了,但我记得你很有自信。

哦,我完全记得你。我之前没有联系到这一点,但是的,那绝对是真的。很高兴再次见到你。

是的,我一直在拼命寻找你的论文,但找不到。基本上,我不得不放弃了,因为我不理解。

这是关于PID控制还是在线控制?这真是久违了。

这很有趣,学术会议有时会落后于实际情况半年左右,但关于一致性风险控制,我建议大家看看。我有录音,但我从未发表过,因为我觉得自己无法解释清楚。

但是ELO分数很容易理解。你们在过去几年中对语言模型基准测试做出了巨大的贡献。你们想介绍一下自己,并简要介绍一下LMSys的历史吗?

大家好,我是Wei Lin,我是加州大学伯克利分校的五年级博士生,目前正在从事Chatbot Arena项目,进行众包AI基准测试。

我是Anastasios,我是伯克利分校的六年级博士生。我的博士论文主要研究理论统计学和模型评估与测试的基础。现在我将150% 的精力投入到Chatbot Arena 项目中,这很棒。

那么,它的起源是什么?你们是如何想到这个想法的?你们是如何让大家参与其中的?早期有哪些关键时刻让它成为这个领域的标准?

Chatbot Arena项目是去年4月或5月左右开始的。在此之前,我们基本上是在实验室里尝试如何微调基于Llama 1模型的开源聊天机器人。当时,Llama 1是一个基础模型,人们并不真正了解如何微调它。我们受到了斯坦福Alpaca项目的启发。因此,我们基本上从互联网上收集数据集,称为ShareGPT数据集,它类似于用户与ChatGPT对话的对话数据集。结果发现它是一个相当高质量的对话数据集。因此,我们在此基础上进行微调,然后训练并发布了名为V2的模型。人们对此非常兴奋,因为它展示了开源模型如何达到类似于ChatGPT的对话能力。然后,我们发布了该模型,并为该模型构建了一个演示网站。人们对此非常兴奋。但在开发过程中,我们面临的最大挑战是如何评估它?我们如何论证我们训练的模型优于其他模型?开源模型与其他专有产品之间有什么差距?当时,GPT-4刚刚发布,还有Cloud One。它们之间有什么区别?然后,每周都有一个新的模型被微调并发布。所以,即使到现在也是如此,对吧?现在我们有V2的演示网站。然后我们想,好吧,也许我们还可以添加更多模型,例如API模型。然后我们很快意识到人们需要一个工具来比较不同的模型。因此,我们在网站上实现了并排UI,供人们选择进行比较。我们很快意识到,也许我们可以做一些类似于在ECLMs之上进行对战的事情,只是匿名化身份,让大家投票决定哪个更好。所以,社区决定哪个更好,而不是我们,不是我们争论我们的模型更好或什么。结果发现,人们对此想法非常兴奋。然后我们发推文,启动了项目,这就是4月或5月。然后在最初的几周内,我们的推文就获得了数十万的浏览量。然后我们每周定期更新,从一开始就添加新的模型,包括GPT-4。所以,这就是最初的情况。

另一个关键时刻,只是为了插一句,就是私有模型,比如GPT,我有点...

这很重要。

一开始,我看到最初的发布日期是5月3日,是测试版。4月6日,我们为播客录制了基准测试101集,只是谈论了数据是如何存储在预训练语料库中的,等等。基准测试真的不是我们评估模型好坏所需要的。为什么你们当时没有创建基准?也许当时,你们只是想再次收集大量数据,运行一个看起来更容易的评分系统,而不是创建一个需要用户投票的整个网站。你们当时的想法是什么?

我认为更根本的是,我们不知道如何自动化这种基准测试,当任务是对话式、多轮的、开放式时。例如,如果您要求模型为您撰写一封电子邮件,无论目的如何,都没有标准答案。如何对它们进行评分?或者写一个故事,或者一个创意故事,或者我们现在使用ChatterBee的许多其他事情。它更开放。我认为,有时人类也很难给出绝对的评级。这就是为什么我们有这种成对比较,更容易让大家选择哪个更好。因此,我们使用这些成对比较来计算排行榜。

另一方面,我认为这是一个挑战,这种在线动态基准测试比静态基准测试更昂贵,而人们仍然需要静态基准测试。例如,当他们构建模型时,他们需要静态基准来跟踪他们的进展。

这并不意味着我们的基准测试比所有其他基准测试都更好,它只是衡量了一种不同的性能,已被证明是有用的。

你们还发布了MTBench,这是一个静态版本的Chatbot Arena,人们可以在模型开发中使用。

我认为我们仍然进行静态基准测试的原因之一是,我们仍然想探索,尝试是否可以自动化它,因为最终,模型开发人员需要快速迭代模型。因此,我们探索了LM作为法官,以及ArenaHard,试图筛选和选择我们从Chatbot Arena收集的高质量数据子集,并将其用作问题,然后自动化法官流程,以便人们能够快速获得高质量的基准信号,使用这种在线基准。

作为社区建设者,我对最初的早期阶段很感兴趣。显然,当你们为人们提供免费的A/B测试推理时,人们会来使用你们的平台。你们认为哪些是关键因素?是资金支持吗?是营销吗?当人们进来时,你们是否注意到数据中明显的偏差?现在你们已经有了足够的数据集,可以区分编码和困难提示等内容,但在早期,情况可能更加复杂。

是的,也许首先要明确的是,我们的理念一直是最大限度地提高有机使用率。我认为这确实回答了你的问题,即人们为什么来?他们来使用免费的LLM推理,对吧?而且,许多用户只是来网站上进行直接聊天,因为他们可以免费与模型聊天。然后,您可以考虑,嘿,让我们更自私、更保守或更保护主义一些,说,不,我们只为进行对战的用户提供积分,等等。这种策略行不通,对吧?因为我们试图建立一个大的漏斗,一个大的漏斗,可以引导人们。有些人充满热情和兴趣,他们进行对战。是的,参与者分布不同。正如你指出的那样,这并不代表普通人群,而是代表真正关心的人群。在某种程度上,这可能还不错,因为这些人是高级用户。我们并不声称代表世界,我们代表的是来投票的人。

你们是否需要进行任何营销活动?有什么有效的方法吗?你们是否遇到过任何困难?从一开始就是成功的吗?

在某些时候,几乎完成了。好的,因为你可以想象,这个排行榜取决于社区参与度。如果明天没有人投票,那么就没有排行榜。

在最初的启动后,我们确实经历了一段用户数量下降的时期。是的,在某些时候,情况并不乐观。实际上,我加入这个项目是在项目启动几个月后,为了处理统计方面的问题,对吧?正如你可能想象的那样,这与我之前的研究工作联系了起来。当时,这并不像,你知道,这肯定不是一个评估工具,等等。这只是,哦,这是一个很棒的项目。就像Wayland看起来很酷,就是这样。

当然。在开始时,因为人们不了解我们,不了解这是什么,所以我们很难。但我认为我们很幸运,我们有了一些最初的势头。而且,模型提供商之间的竞争变得非常激烈。这使得评估对我们来说变得重要,对吧?因为排名第一总是排名第一。

还有信任因素。我们工作的首要任务是信任。我们希望确保我们所做的一切都符合规范,没有人受到不公平待遇,人们可以从我们的个人资料、以往的工作以及其他方面看出我们值得信赖。我们不是为了赚钱,也不是为了出名。我们只是想提供一个很棒的公共排行榜,一个社区驱动的项目。

是的。

我想深入探讨一下偏见,以及其中一些统计控制。人类偏好评估的经典案例是,人类明显更喜欢更长的上下文或更长的输出,这实际上并非我们所希望的。我认为你们大约两个月前发布了一些长度控制研究。除此之外,还有其他已记录的偏见。我很好奇你们对偏见了解的总结,以及你们是如何控制它们的。

在非常高的层次上,是的,人类有偏见。完全同意。以各种方式。这并不清楚是好是坏,你知道,我们尽量避免对这些事情做出价值判断。我们只是尽量描述它们是什么。我们的方法始终如下:我们收集有机数据,然后分析这些数据,从中获得所有可能的见解。现在,我们有数百万个数据点,可以用来从中提取见解。其中一个见解是问,风格的影响是什么,对吧?你们有大量数据,有投票,人们投票支持不同的方向。我们有所有对话。我们可以说,哪些风格元素会影响人类的偏好,以及它们是如何影响的?这是一个重要的问题。为什么这是一个重要的问题?因为有些人想知道如果响应长度相同,哪个模型更好,对吧?人们想知道控制长度或控制Markdown、标题数量、项目符号列表、文本是否加粗等模型身份的因果效应。有些人对此并不关心。我们的想法不是强加一种判断,认为这些不重要,而是说,事后我们可以分析数据,以一种方式分离所有影响人类偏好的不同因素。

我们通过统计回归来做到这一点。也就是说,我们排行榜上显示的Arena分数是一种特定类型的线性模型,对吧?这是一个线性模型,它采用模型标识符,并将其与人类偏好相匹配。通过统计回归,人类偏好与模型标识符相匹配。最终得到的是一个系数参数向量。当系数很大时,它会告诉您GPT 4.0或其他模型,系数很大,这意味着它很强。这正是我们在表格中报告的内容。它只是模型标识符对投票的预测影响。

你们能看到这个想法吗?这是一种通用的方法。如果您有一些干扰参数,它存在并提供预测价值,但您实际上并不想估计它。您想消除它的影响。在因果推断中,这些东西通常被称为混杂因素。您可以对影响进行建模。您可以将它们放入模型中,尝试进行调整。另一个这样的因素可能是成本。例如,我想查看模型的成本调整性能,哪些模型在成本方面表现出色,参数数量,哪些模型在参数数量方面表现出色,我们可以事后测量这些。我们可以做到这一点,而不会引入任何损害有机数据性质的东西。

是的。

所以,我想,通过对数据的分析,我们可以了解哪些模型在哪些任务中表现出色。

我认为,我们想添加这些新类别的原因基本上是为了回应我们社区提出的问题,即我们不会为所有内容创建一个单一的排行榜。这些模型在不同领域的行为差异很大。例如,某个模型擅长编码,某个模型擅长更技术性的问题,等等。另一方面,为了回答人们关于,好吧,如果所有这些低质量数据(因为我们从互联网上众包数据)存在噪声的问题,那么我们如何有效地降噪?如何有效地过滤掉这些低质量数据?因此,我们花了一些时间深入研究这些问题,以了解我们如何有效地过滤所有这些数据,因为这些数据点是媒体。如果您想重新标记自己,这是可能的,但我们需要某种自动化数据分类管道,以便我们有效地将它们分类到不同的类别中,例如编码、数学、结构以及更困难的问题。因此,希望通过将数据分割成这些有意义的类别,为人们提供更好的信号,更直接的信号,这也阐明了我们实际衡量的内容,我认为这是基准测试的核心部分。这就是最初的动机。

是的。

数据是自由的,还是仅仅是自然的?

没有转基因。是的,所有这些努力都是开源的,我们开源了所有数据清理管道和过滤管道。

我喜欢你们发布的笔记本。实际上,它们非常适合学习统计学。

同意。

那么,首先,关于代码执行,E2B团队,我相信他们会很乐意提供帮助。

我将很乐意安排。他们非常支持。我们投资了一家名为Dreadnought的公司,我们主要从事AI红队测试。对我来说,最有趣的事情是,你们是如何做到这一点的?例如,模型入侵是一个方面。我们还在播客中采访了DeepMind的Nicola Scarlini,他谈到了上下文窃取和权重窃取等问题。因此,这涉及到更多内容。我很好奇你们是如何看待模型的,以及更广泛的系统,即使是红队竞技场,你们也只关注模型的入侵,对吧?你们没有对模型的系统级测试进行任何测试,例如,你们是否可以获取训练数据,提取一些层和权重等内容?

所以,正如你所看到的,红队竞技场目前还处于早期阶段,我们仍在探索可以添加到平台上的潜在新游戏。所以,想法仍然相同,对吧?我们建立了一个由社区驱动的项目平台,人们可以在网站上玩得开心,当然。这很重要,然后帮助大家测试这些模型。你们提到的一个方面是窃取秘密,窃取训练集。这可能是其中之一,你知道,它可以被设计成一个游戏。例如,你们是否可以利用他们的凭据?我们可以将凭据隐藏在系统提示中,等等。所以,我们确实有一些想探索的想法。

我认为这很棒。红队测试领域有很多很棒的想法。我个人不是红队专家,我不喜欢四处进行红队测试,但有些人确实擅长此类工作。我认为我们正在为这些人构建红队竞技场。我们希望他们感到兴奋和快乐,并构建他们喜欢的工具。就像Chatbot Arena一样,我们相信这最终将对世界有所帮助。而且,我不会说社区中的所有人都是善意的,对吧?他们这样做不是因为他们想看到世界毁灭。他们这样做是因为他们觉得这很有趣也很酷。也许他们想看到...

我不知道。大多数。

你们明白我的意思吗?

所以,你知道,试图最好地为他们服务,我认为,我不知道这适合哪里。我只是...我没有表达任何特定的价值判断,这是否是我们下一步应该采取的正确步骤。这只是我们思考问题的方式。

是的,我们也谈到了路由LLM。关于模型,也许它们随着时间的推移变得越来越糟糕,等等。路由模型在你们看来是否有用?Sean指出,MOE在技术上也是路由器。那么,你们是如何看待路由器是模型的一部分,还是路由不同的模型的?以及构建它的总体经验教训?

是的,Route LLM是我们几个月前发布的一个项目。我们的目标是基本上了解,我们是否可以使用我们收集到的偏好数据来根据问题路由模型,以问题为条件,因为我们会假设某些模型擅长数学,某些模型擅长编码,等等。我们发现它在某种程度上是有用的。当然,这仍然是一个持续的努力。我们这个项目的第一个阶段基本上是开源的,我们开发的框架。因此,任何对此问题感兴趣的人都可以使用该框架,然后训练他们自己的路由模型,并进行评估以进行基准测试。这就是我们发布该框架的目标。我认为,我们正在考虑一些未来的内容。一个是我们是否可以扩展它,收集更多数据,更多偏好数据,然后训练奖励模型,训练更好的路由模型。另一个是发布基准,因为现在似乎没有一个好的路由基准。因此,这将是我们认为对社区有用的另一个贡献。当然,我们仍然可以使用新的方法。

我认为我的基本哲学疑问是,路由模型是否必须至少与最聪明的模型一样聪明?路由模型所需的最低智能是多少,对吧?如果它太笨,它就不会正确路由。

我认为您可以构建一个非常简单的路由器,非常有效。让我举个例子。您可以使用一个参数构建一个很棒的路由器,该参数只是检查我的问题是否困难。如果是困难的问题,那么我会转向大型模型。如果是简单的问题,我会转向小型模型。有各种衡量困难的方法,这些方法相当简单,对吧?它是否有代码?它是否有数学问题?它是否很长?这已经是迈出的一大步,对吧?因为最终,您正在与一个弱基线竞争,即任何单个模型。您正在尝试问的问题是,我如何改进成本?这就像性能成本,这很棒。现在,您还可以扩展到,哪些模型擅长哪些特定类型的查询。

是的。

你们的做法与商业方法不同,商业方法使用来自Chat Arena的信息来改进模型,这很聪明,也是你们一切的基础。

在我们结束之前,我们可以谈谈LMSYS以及未来的发展方向。LMSYS正在成为一个独立的实体。我昨天看到你们宣布要毕业了。我认为这可能会让人感到困惑,因为你们是博士生,但这是一种不同的毕业方式。

LMSYS最初是一个学生俱乐部。

学生主导的。是的。

LMSYS最初是一个学生俱乐部,包含许多不同的研究项目。当然,Chatbot Arena已经成为一个独立的实体。Lianmin和Ying,他们创建了LMSYS,现在正在从事其他源自LMSYS的项目。因此,我们认为将两者分开是有意义的。这样,当有人提到LMSYS时,他们不会只想到Chatbot Arena。这并不公平,可以说。

我们想支持新的项目。

我们想支持新的项目,等等。当然,这些都是我们的朋友。

这就是我们称之为毕业的原因。我同意。

现在你们已经达到了逃逸速度,你们已经成为一个独立的实体。

那么,你们想看到更多什么?你们希望人们如何与你们联系?

哦,天哪,我们需要很多帮助。一件事情是,我们显然正在扩展到其他类型的竞技场,对吧?我们绝对需要红队测试方面的积极帮助。我们绝对需要不同模态方面的积极帮助,不同模态。

所以,是的,编码。

如果有人能帮助我们在Chatbot Arena中实现REPL,那将是一个巨大的进步。

这将是一个巨大的进步。

我知道外面有热心且有能力的人。只是我们的人手不足。我们只是一个学术研究实验室,对吧?我们没有能力支持这种类型的项目。所以,是的,我们需要帮助。我们还需要一般的后端开发人员。我们需要新的想法,新的概念性想法。老实说,我们的工作涵盖从基础统计学(例如新证明)到全栈开发的所有内容。任何想为该管道做出贡献的人都应该联系我们。

我们需要它。而且,这是一个开源项目,任何人都可以提交拉取请求。

我们很乐意,你知道,任何想做出贡献的人,我们都会给予他们认可,对吧?我们不想独占所有功劳。我们希望它成为一个社区项目。

这很棒。

谢谢你们抽出时间。我们会将所有链接放在节目说明中,以便人们可以找到你们并联系你们,如果他们需要的话。

很高兴与你交谈。感谢你们提出的精彩问题。

非常感谢。访问www.latent.space/subscribe即可获得对Latent Space的完整访问权限。

然后,这个想法在某些条件下是成立的,但并非总是可验证的,这个想法是,将这个额外的系数添加到这个向量中,会将长度的预测能力抽取出来,并将其放入到那个额外的第一个系数中,从而使其余部分去偏,这样长度的影响就不会被包含在内。这就是我们在风格控制中所做的事情。现在我们不仅仅是做一次额外的,

我们有五个、六个不同的风格组件,它们与 Markdown 标题和项目符号列表等有关,我们在这里添加了它们。现在,这将走向何方?你们明白这个想法。这是一种通用的方法。

如果你有一些类似于干扰参数的东西,它存在并提供预测价值,但你真的不想估计它,你想消除它的影响。在因果推断中,这些东西通常被称为混杂因素。

你可以做的是,你可以对影响进行建模。你可以将它们放入你的模型中并尝试进行调整。所以,另一个这样的东西可能是成本。你知道吗?

如果我想看看模型的成本调整后的性能,哪些模型的表现超过了它们的预期,参数数量,哪些模型在参数数量方面表现超过了预期,我们可以事后测量这些。我们可以做到这一点,而不会引入任何会损害我们收集的数据的真实性的东西。希望这回答了你的问题。

这个问题。

你可能比我更擅长这个。

我的意思是,我以前是定量交易员,所以控制股票价格上的多种影响实际上就是工作。所以这很有趣。显然,问题在于证明因果关系,这是很难的,但你不需要这样做。

是的,是的,没错。因果推断是一个难题,它超出了统计学的范畴,对吧?就像你必须构建正确的因果模型等等。但我们认为这是一个很好的第一步,我们很期待从更多人那里学习。伯克利有一些优秀的人从事因果推断工作,我们可以向他们学习,了解哪些是真正最现代的技术,以便如果可能的话,估计真正的因果效应。

也许我们可以从其他类别开始。所以风格控制是一个类别。它不是默认的。我曾经想过,当你写那篇博文时,实际上我认为它会成为新的默认值,因为它看起来是最明显的事情。但是你还有其他类别,比如编码和硬提示。

我们考虑到了这一点。一旦你迈出这一步,一旦你采取了这一步,你就会引入你的观点,而我并不是,你知道,为什么我们的观点应该是唯一一个?这有点像社区的选择,我们可以把它投票。

我不知道,没有意见就是意见。我的意思是,你应该在这里做出选择。是的,你还有其他这些,还有指令遵循等等。你最喜欢的类别是什么?也许你可以讲讲故事,讲讲你必须做出的艰难选择。

是的,是的,是的。我认为最初我们想要添加这些新类别的原因,基本上是为了回答社区的一些问题,那就是你不会为所有内容创建一个单一的排行榜。所以这些模型在不同领域的行为差异很大。

比如说,这个模型擅长编码,这个模型擅长更技术性的问题等等。另一方面,为了回答人们的问题,比如,如果所有这些低质量的,你知道,因为我们从互联网上收集数据,会有噪音。那么我们如何消除噪音,如何有效地过滤掉这些低质量数据?

所以,基本上我们花了几个月的时间,真正深入研究这些问题,了解我们如何有效地过滤所有这些数据,因为这些是数据点的中介。然后,如果你想重新标记自己,这是可能的,但我们需要以某种方式使这种数据分类管道自动化,以便我们有效地将它们分类到不同的类别中,比如编码、数学、结构以及更难的问题。

所以,希望当我们将数据切分成这些有意义的类别时,可以为人们提供更好的信号,更直接的信号,这也为了阐明我们实际衡量的是什么,因为我认为这是基准的核心部分。这就是最初的动机。这有意义吗?

是的,我只是想说,这确实回到了这个观点,即这种哲学是挖掘有机数据,然后事后挖掘它。

数据是无笼养的,还是仅仅是有机的?

它是有机无笼养的。

是的,这些努力都是开源的,我们开源了所有数据清理管道。

是的,我喜欢你们发布的笔记本。实际上,这对学习统计学非常有帮助。

是的,我同意。

最初的前提是,嘿,写电子邮件,写故事,没有事实依据。但我认为,当你进入编码和红队等领域时,有些领域存在技能水平。所以我很想知道你如何看待用户的技能分布。也许红队前 1% 的人根本没有参与到比赛中。所以你们是如何考虑调整它的?感觉就像这里平均值和顶尖之间存在很大的差异。

是的,当然,红队当然很具有挑战性。所以,好的,回到正题。肯定有一些任务不是那么主观的,比如成对的人类偏好反馈不是你想要衡量的唯一信号。

在某种程度上,这可能很有用,但可能更有用的是给你人们更好的工具。例如,如果我们可以在比赛中执行代码,那就太好了。

我们想做到这一点。还有构建用户排行榜的想法。这意味着有些用户比其他用户更好。我们如何衡量这一点?我们如何量化这一点?在聊天机器人比赛中很难,但在红队中更容易。

因为在红队中,有一个明确的游戏。你试图打破模型,你赢了或输了。所以你可以说,嘿,真正发生的事情是模型和人类正在进行一场比赛。然后你可以使用相同类型的 Bradley-Terry 方法,以及我们在最近一篇博文中提出的某些扩展,你可以将力量归因于个体玩家,并共同归因于参与这场破坏游戏的模型,以及目标任务,比如你想要哪种类型的破坏。是的,我认为这是一个非常重要且有趣的研究方向,我们希望继续研究下去。我们有一些初步的想法,但所有想法都欢迎。

是的,首先,关于代码执行,我相信 E2B 团队会很乐意帮助你。

帮助你设置。他们是大粉丝。我们是 Dreadnought 公司的投资者,我们在人工智能红队方面做了很多工作。我认为对我来说,最有趣的事情是,你如何确定?

就像模型破坏是一个方面,我们还在与 DeepMind 的 Nicola Scarlini 进行过对话,他谈到了例如上下文窃取和权重窃取。所以围绕它还有很多其他事情。我很想知道你如何看待模型,以及可能更广泛的系统,即使是红队比赛,你只是专注于模型的破坏,对吧?你没有对模型的系统层面的任何测试进行,比如你可能可以获得训练数据,你将渗透一些层和权重等等。

所以,现在,正如你所看到的,红队比赛还处于早期阶段,我们仍在探索可以引入平台的潜在新游戏。所以想法仍然相同,对吧?我们构建了一个由社区驱动的项目平台。

人们可以在这个网站上玩得开心,当然。这是其中一件事,然后帮助每个人测试这些模型。所以你提到的一个方面是窃取秘密,窃取训练集。这可能是其中之一,你知道,它可以被设计成一个游戏。比如说,你能使用他们的凭据吗?你知道,我们可能可以将凭据隐藏在系统提示中等等。所以我们想探索的一些潜在想法。你想补充什么吗?

我认为这很棒。这个想法很棒。红队领域有很多很棒的想法。你知道,我个人不是红队成员。我不喜欢四处红队模型,但有些人确实这样做,他们很棒,他们非常熟练。

当我想到红队比赛时,我认为我们正在为这些人构建它。我们想让他们兴奋和快乐,构建他们喜欢的工具。就像聊天机器人比赛一样,我们会相信这最终对世界有用。

这些人,我不会说这个社区的所有人都心地善良,对吧?他们这样做不是因为他们想看到世界毁灭。他们这样做是因为他们觉得这很有趣也很酷。

也许他们想看到。也许他们。

一些东西。所以,你知道,试图弄清楚如何最好地为他们服务,我认为我不知道这适合哪里。我只是,我没有表达。并给他们积分,对吧?

是的。所以,我在这里没有试图表达任何特定的价值判断,关于这是否是正确的下一步。这只是我思考的方式。

哦,好。

我们想涵盖一些主题,然后深入讨论你们团队正在做的其他事情。你知道,你不仅仅是在运行聊天机器人比赛。你也可以谈谈新网站以及你们的未来计划,但我只想简要地关注 O1。

它是目前最热门的最新模型。显然,你们已经将其列入排行榜。O1 对你们的评估有什么影响?

稍后采访。

是的,因为。

它需要 30 到 60 秒,有时甚至更多时间,延迟很高。所以这是其中之一。当然,我认为我们从这个模型中也观察到了一些非常有趣的事情。比如,我们在某些类别中观察到显著改进,比如更技术性或数学性。

我认为实际上,一个令人鼓舞的收获是,我认为在 O1 发布之前,很多人都在想,哦,这个基准已经饱和了。

他们为什么这么想?因为有很多模型处于同一水平。他们只是在不断竞争,所以一开始并不明显哪个更好。没有人,包括任何个人,很难判断。但 O1 做到的是,它在某些任务上明显是一个更好的模型。

我的意思是,我用它来证明一些定理,并且有一些定理只有我知道,因为我仍然做一些理论工作。对吧?所以就像我可以进去问,哦,你如何证明这个确切的东西?我可以告诉你,这从未公开过。它会做到的。这是什么?所以,这个模型,它打破了基准。

你知道,这就像一个巨大的差距。这告诉我们,它还没有饱和。它仍在衡量一些信号。这令人鼓舞。

是的,要点是基准是比较性的。没有绝对数字。没有最大 ELO。这就像如果你比其他人更好,那么你就赢了。我认为这实际上对我们很有帮助。

我认为人们正在批评,我看到一些学者批评它不是苹果对苹果。

因为这可能需要更多时间来推理。它基本上是在进行一些搜索,进行一些思维链,如果你让其他模型做同样的事情,它们可能会做得更好。

我认为目前排行榜上没有一个模型是苹果对苹果,因为你有一些像 Gemini Flash 这样的模型,你有一些像 Llama 8B 这样的微型模型,像 8B 和 405B 这样的模型不是苹果对苹果。

所以是不同的。

延迟。

所以延迟。

延迟控制,这是另一件事。我们可以进行风格控制,但可以进行延迟控制。你知道,如果想了解使用人工智能所涉及的权衡,这些事情很重要。

当它处于发展阶段时,这是一个发展中的故事。我们还没有看到完整的模型,但这绝对是一个非常令人兴奋的新范式。我认为一个社区争议,我只是想给你们一些空间来解决,就是你们与大型模型实验室之间的合作。人们一直对他们如何选择在你们身上进行 A/B 测试持怀疑态度,可以说。

我会陈述这个论点,然后让你们回应,基本上他们运行了五个匿名模型,基本上将它们的 ELO 值最大化到 LMSYS 或聊天机器人比赛中,然后发布最好的一个,对吧?你们在争议中的立场是什么?你们是如何决定未来政策的?

总的来说,我认为我们的目标是为每个人构建一个快速评估工具,让社区中的每个人都能看到排行榜,理解并比较模型。

更重要的是,我认为我们也希望为模型构建者构建最好的评估工具,比如所有这些前沿实验室正在构建的模型。他们也在内部面临一个挑战,那就是如何评估模型?这就是我们希望与所有前沿实验室人员合作,帮助他们进行测试的原因。这是其中之一……我们想解决这个问题,那就是评估。

是的,我的意思是,这有利于所有人。

模型和。

人们也对看到模型的前沿技术感兴趣。社区中的人似乎喜欢这一点。你知道,有一个新模型,你知道,这是草莓。人们很兴奋,他们很感兴趣。

然后,你提出的问题是,这是否真的会造成伤害,对吧?这是否会对我们允许进行私有测试的基准造成伤害?也许退一步想,你为什么会有这种直觉?

你和你社区中的其他人之所以会有这种直觉,是因为当你看到像 ImageNet 这样的基准,一个静态基准时,会发生这种情况。

而这正是因为评估中的统计波动导致了哪个模型被选为最佳模型。所以这种选择偏差可能是一个问题。现在,有一些因素使得这个基准略有不同。首先,仅测试五个模型时包含的选择偏差通常在经验上很小。

这就是为什么我们有这种类型的置信区间构建。

没错。我们的置信区间实际上并非多重调整。为了解决这个问题,我们可以立即采取一些措施,例如,如果一个模型提供商正在测试五个模型并希望发布一个,并且我们正在构建模型的置信水平为 1 减去阿尔法,我们可以构建置信区间,其置信水平为 1 减去阿尔法除以 5。这就是邦费罗尼校正。这将告诉您,模型的最终性能,构建的区间实际上是形式正确的。我们现在没有这样做,部分原因是我们通过模拟知道,使用这五个模型所产生的选择偏差量与从普通人类投票者那里获得的变异性相比并不大。所以这是其中一个因素。

但第二个因素是基准是实时的,对吧?所以最终会发生的是,即使在测试了这五个模型之后,您受到了赢家诅咒的影响,随着时间的推移,由于我们正在获得新数据,它会向下调整。因此,如果在该阶段引入了任何偏差,从长远来看,它实际上并不重要。因为渐进地,基本上从长远来看,新数据比用于比较这五个模型的数据要多得多。

宣布效应仅仅是第一个阶段,并且它有很长的尾部。

没错。并且它以某种方式自动纠正了这种选择调整。

我每月都会绘制一个图表,其中包含艾伦的 ELO 值与成本,仅用于跟踪每美元的价格,以及我必须为 ELO 的一个增量点支付多少钱。因此,我实际上观察到大多数 ELO 数值都具有有趣的稳定性,但其中一些数值除外。例如,GPT-4-O 八月版在过去几个月里从 12.90 降到了 12.60。这令人惊讶。

您是说像 GPT-4-O 的新版本与五月份的版本吗?

有五月份的版本。五月份是 12.85 美元。我可能犯了一些数据输入错误,但这很有趣,可以追踪这些数值随时间的变化。无论如何,我观察到数值会上升,数值也会下降。这非常稳定。

是的。有时 ELO 值也会上升。我看到核心值从 1200 上升到 1230。这是社区一直以来怀疑的事情之一,例如,嘿,在发布后,同一个端点是否变得更笨了?对吧?这真是一个笑话。

这很有趣。

但那些是不同的端点,对吧?

没错。那些是不同的 API 端点,我认为。对于 GPT-4-O,八月版和五月份的版本。但是,如果它们是已修复的端点版本,我们通常会观察到发布后的小幅波动。

我的意思是,您可以量化预期 ELO 中的波动,这是一个您可以计算的封闭形式数字。因此,如果波动比我们预期的更大,则表明我们应该

数据。

我知道我们只剩下几分钟就要结束了,但有两件事我绝对想谈谈。一是路由 LLM。所以,谈到模型,也许随着时间的推移变得更笨了,等等。路由器在您的经验中是否真的有用?嗯,肖恩指出,MOE 在技术上也是路由器。所以您如何看待路由器是模型的一部分,还是路由不同的模型?以及构建它的总体经验教训。

是的,路由 LLM 是我们几个月前发布的一个项目,我认为。我们的目标是基本上了解,我们是否可以使用我们收集到的偏好数据来根据问题路由模型,以问题为条件,因为我们可能会假设某些模型擅长数学,某些模型擅长编码,等等。所以我们发现它有点有用。当然,这仍然是一个持续的努力。我们在这个项目的第一阶段基本上是开源的,我们开发的框架。因此,任何对这个问题感兴趣的人都可以使用该框架,然后可以训练他们自己的路由模型,然后进行评估以进行基准测试。这就是我们的目标,我们发布此框架的原因。我认为,我们正在考虑的未来几个方面是,我们是否可以扩展它,收集更多数据,更多偏好数据,然后训练奖励模型,训练更好的路由模型。另一件事是发布基准,因为现在,目前,似乎在开发此项目时,我们有一个端点,即似乎没有用于路由器的良好基准。因此,这将是我们认为对社区有用的另一个贡献。并且仍然有

我认为我的基本哲学疑问是,路由器模型是否必须至少与最聪明的模型一样聪明?路由器模型的最低智能要求是多少?对吧?如果它太笨了,它就不会正确路由。

我认为您可以构建一个非常非常简单的路由器,它非常有效。让我给您举个例子。您可以使用一个参数构建一个很棒的路由器,该参数只是检查我的问题是否困难。如果它很困难,那么我将转到大型模型。如果它很容易,那么我将转到小型模型。您知道,有各种测量困难的方法,它们非常简单,对吧?它是否有代码?它是否有数学?它是否很长?这已经是迈出的一大步,对吧?因为最终,您正在与一个弱基线竞争,即任何单个模型。您正在尝试提出以下问题:我如何改进成本?这就像一个维度上的权衡。这就像性能成本,这很棒。现在,您还可以扩展到,哪些模型擅长哪些特定类型的查询。

然后,您知道,我认为您的担忧开始发挥作用,即我们是否真的能够做到这一点?我们是否能够以不向最终管道引入比仅使用最佳模型更多的可变性和变化和错误的方式来估计哪些模型擅长哪些部分的空间?这就是我所看到的。

您的方法确实很有趣,与商业方法相比,商业方法使用来自聊天竞技场的资讯来告知您的模型,我的意思是,这很聪明,并且是您所做的一切的基础。

在我们结束时,我们可以谈谈 LMSYS 以及它的未来发展方向。以及聊天竞技场,它正在成为一些东西。我昨天看到您宣布您要毕业了。我认为这可能有点令人困惑,因为您是博士生,但这是一种不同的毕业方式。

仅供参考,LMSYS 起初是一个学生俱乐部。

学生主导的。是的。学生主导的,例如研究项目,许多不同的研究项目都是 LMSYS 的一部分。当然,聊天竞技场已经成为它自己的东西。当然,梁敏和英,他们创建了 LMSYS,现在已经开始从事其他项目,这些项目源于 LMSYS。因此,我们认为将两者分开是有意义的。这样,当有人提到 LMSYS 时,他们不会只想到聊天竞技场。这并不公平,可以说。

我们想支持新项目。

我们想支持新项目,等等。但当然,这些都是我们的朋友。

这就是为什么我们称之为毕业。我同意。

这就像人们所做的事情。也许人们对 LMSYS 的开始和结束以及竞技场开始和结束的地方有点困惑。我认为您现在已经达到了逃逸速度,您已经成为自己。

所以,我有一个告别问题。您想要更多什么?您希望人们如何与您联系?哦,天哪,我们需要很多帮助。其中一件事是,我们显然正在扩展到其他类型的竞技场,对吧?我们绝对需要在红队方面获得积极的帮助。我们绝对需要在不同模态方面获得积极的帮助,不同的模态。

您知道,如果有人可以帮助我们实现这一点,例如,在聊天竞技场中实现 REPL,这将是一个巨大的变化。

我知道外面有热心且有能力做到这一点的人。只是我们没有足够的资源。我们只是一个学术研究实验室,对吧?我们没有能力支持这种类型的项目。所以,是的,我们需要帮助。我们还需要一些一般的后端开发人员和新的想法、新的概念想法。我的意思是,我们所做的工作涵盖从基础统计学,例如新的证明,到全栈开发的所有方面。任何想为该管道做出贡献的人都应该联系我们。

我们需要它。而且它本身就是一个开源项目。任何人都可以提交拉取请求。

我们很乐意,您知道,任何想做出贡献的人,我们都会给予他们认可,您知道?我们不想把所有的功劳都归于自己。我们希望它成为一个社区项目。

这很棒,并且与您一直以来所做的一切相符。所以,伙计们,非常感谢您抽出时间。我们会将所有链接放在节目说明中,以便人们可以找到您并联系您,如果他们需要的话。非常感谢。

很高兴能和您交谈。感谢您提出的精彩问题。非常感谢。