cover of episode #190 - AI scaling struggles, OpenAI Agents, Super Weights

#190 - AI scaling struggles, OpenAI Agents, Super Weights

2024/11/28
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
#artificial intelligence and machine learning#technology#generative ai#large language models#ai research#ai privacy concerns#ai chatbot impact#autonomous vehicles#robotics#online learning and edtech#social activism#data privacy#tech entrepreneurship challenges#coffee industry and culture People
A
Andrey Kurenkov
J
Jeremie Harris
Topics
@Andrey Kurenkov 认为,当前AI发展面临瓶颈,单纯依靠扩大模型规模、增加数据和计算能力的策略,其改进效果正在递减。他认为,这并非意味着AI发展停滞,而是意味着单纯的规模化方法已不足以持续提升AI性能,需要探索新的方法。他同时指出,AI代理工具的出现和多模态模型的发展是AI领域的重要趋势。 @Jeremie Harris 补充指出,AI发展的瓶颈在于工业基础设施,例如能源供应和计算集群规模难以满足快速发展的需求。他认为,单纯的规模化方法已达到极限,需要从工业层面解决能源和算力问题。他强调,当前AI研究的重点已转向后训练阶段,包括强化学习和影响时间缩放定律,这些技术与训练时间缩放定律相结合,能够进一步提升AI性能。

Deep Dive

Chapters
Discussions around the potential slowdown in AI development, focusing on challenges faced by OpenAI, Google, and Anthropic in building more advanced AI models.
  • Next-generation models from OpenAI, Google, and Anthropic are not meeting performance expectations.
  • Pure scaling approaches are becoming challenging due to diminishing returns.
  • The community is divided on whether this signals a wall in AI improvement or just a temporary plateau.

Shownotes Transcript

Circe 机会。

这 使你感到问候和欢迎。

来到上周末的播客,我们将讨论 AI 的最新动态,一如既往地进行简短总结并讨论上周最有趣的 AI 新闻。你也可以访问 lastweekin.ai 查看我们的文字新闻通讯,其中包含更多我们不会涵盖的文章。我是你的主持人 Andrey Kurenkov,我的背景是,我在德克萨斯大学奥斯汀分校学习,现在在一家名为 Gladstone 的 AI 初创公司工作。

另一位主持人是 Jeremie Harris,他在 COS,一家专注于国家安全 AI 的公司工作。是的,我比平时旅行更多,因为我最近当爸爸了。

最近当爸爸了,这就是我要说的。

我每次都会说,对不起,对不起,你当爸爸了,我想知道……

工作 100% 需要多长时间。这很好,因为……

这使得团队像以前一样。但是,我的意思是,我认为今天要讨论的是,我……让我去银行办点事……这让我晚了大约 20 分钟,这意味着我们将尝试按时结束,实际上做一个大约一个半小时的节目。我想知道这会怎样,我们每次都这么说。

每次我们都会尝试。所以,让我们继续讨论一些事情。像往常一样,我们将快速承认并阅读评论。

YouTube 上有一个有趣的评论,我真的很喜欢。“很棒的播客,喜欢其中的细节。谢谢!”然后,“它让我在例会上听起来很聪明”,这是一个很棒的……

结果。

这绝对是其中一个目标,就是让人们在日常谈话或高管会议中听起来很聪明。然后,我想感谢那些给我们评分和留下评论的人。我们在 Apple Podcast 上的评分达到了 239。

脚本的编号是多少?一切都很棒,我们的评分是 4.7 星(满分 5 星)。所以,希望这反映了我们保持质量的一贯性。

现在快速预览一下我们在本集中将讨论的内容:在工具和应用程序方面,没有什么特别大的新闻,更多的是对即将发生的事情的预览;在应用程序和业务方面,很多内容都集中在硬件和数据中心上;有一些令人兴奋的开源项目,包括 AlphaFold 3;还有一些非常技术性的研究故事;以及……

说正常的事情。

我认为这些更概念化一些。让我们多谈谈这些东西的内部工作原理。在政策和安全方面,我们将讨论欧盟以及围绕美国 AI 战略的一些讨论。通常的事情,没有什么重大新闻。

在我们开始新闻之前,还有一件事,我们再次感谢我们的赞助商 The Generator,这是一个跨学科的 AI 实验室,致力于帮助来自各个领域的创新者利用人工智能的能力将有远见的创意变为现实。

它与波士顿大学合作,波士顿大学是美国排名第一的国际学生就读大学,已有 30 多年的历史。去年秋天,来自波士顿大学各学院的教授与学生合作启动了这个名为 Generator 的实验室,该实验室分为八个不同的团队,包括人工智能治疗神经元和商业创新、未来工作和人才的 AI X 社会等。该团队已经培训了许多波士顿大学的教师使用 AI 概念和工具,并在其网站上发布了这些内容。他们表示,他们通过 AI 促进卓越、创业精神、PS 创新和创造力,并且他们是本播客的粉丝。

如果你想了解更多信息,或者只是关注他们的新闻,可以访问他们的网站了解赞助信息。让我们继续,开始讨论新闻。在工具和应用程序方面,我们将从对上周讨论内容的后续报道开始。另一篇文章延续了关于 AI 发展似乎正在放缓的持续讨论。

这篇来自彭博社的文章标题是《OpenAI、谷歌和 Anthropic 正在努力构建更先进的 AI》。这是一篇对该主题的很好的概述文章。上周,我们在上一集中讨论过这个问题,我应该说,它可能会晚一点发布。

但我们讨论了 OpenAI 的新模型似乎没有达到预期的性能目标,据两位不愿透露姓名的知情人士透露。这篇文章还提到,谷歌内部人士也说过类似的话,即下一代 Gemini 没有达到内部预期,Anthropic 在 Claude 3.5 上也面临挑战。在所有这些案例中,他们都只提到了知情人士。

在所有这些案例中,似乎发生的情况是,你训练这些更大的模型,它们在各种任务上的表现更好,但并没有好到预期的程度。这引发了社区中的大量讨论。

你看到一些人说“我告诉过你们”。所以一切都在放缓。Gary Marcus 总是喜欢这么说,并且 Yann LeCun 也发布了一些类似的内容,我们上周也讨论过。

我认为我们可以更多地讨论一下,这可能与我们之前所说的那样,纯粹的规模化方法(更大的模型、更多的数据、更多的计算)越来越难以继续下去。我们知道,似乎我们还没有突破规模定律。因此,你仍然可以获得预期在困惑度方面的改进,并且能够……特别是单词或字母的概率。

但在将其转化为实际的智能方面,在基准测试上的表现,也就是变得更聪明,这开始变得难以捉摸。从某种意义上说,即使是数量上的扩展,我们也知道,随着你越来越好,随着你规模越来越大,你会遇到递减收益,获得相同程度的改进变得越来越难。

你需要以数量级的规模不断扩大规模。所以,我认为我们不应该认为我们正在撞墙,或者 AI 的改进将会放缓。这暗示的是,它可能处于一个阶段,仅仅通过规模化来继续改进变得具有挑战性,我认为这并不完全令人惊讶。在某个时刻,这似乎迟早会发生。

是的,我认为这对于我和朋友们在过去一年左右的时间里一直在进行的关于 AI 的讨论来说非常有趣,因为他们开始看到其中的一些事情。你知道,关于规模化对未来的确切含义的争论……其中一个观察结果是……你指出了递减收益的概念,对吧?递减收益确实在这些对数图中体现出来。

例如,你必须像你说的那样,指数级地增加计算量,指数级地增加你输入这些模型的数据量,才能保持相同的 AI……保持相同的线性改进性能。但这就是问题所在,对吧?对于一个模型来说,获得 X% 更好的自动完成究竟意味着什么?这就是我们正在讨论的,对吧?

规模化的是模型预测下一个标记的能力,如果你说的是大型语言模型,那么这如何转化为我们关心的实际具体性能是一个很大的问题。从某种意义上说,这个问题一直存在,只是这种映射在历史上非常紧密。因此,当你看到模型变得更好时,例如从 GPT-1 到 2 到 3 到 4,你始终看到更好的……

下一个词的预测准确性转化为更强大的通用能力,甚至包括 GPT-4 中的代理能力,对吧?这简直令人难以置信,对吧?就像一年前,你认为你会得到非常好的文本自动完成,并且在某个时刻,这会给你带来代理推理能力,这简直是疯狂的。这似乎是真的。所以一个很大的问题是……当我们这样做时,我们是否真的在构建一个更有用、更强大的世界模型,这允许构建更好的代理……记住,我们现在已经超越了仅仅是纯粹的规模化参数,我们现在显然在训练后进行包装,这现在包括强化学习,特别是针对代理的行为,我们现在有了所有这些影响训练时间规模定律的因素。

它们给了我们更多的东西,并且它们与训练时间规模定律相乘地复合。我认为这是思考这个问题的正确方法。你可以改进其中一个,但不能改进另一个,你仍然可以继续这种趋势。

所以,我认为总的来说有很多不确定性。但是,当你与前沿实验室的人交谈时……我认为没有人期望会放缓。事实上,我听到的是完全相反的情况,一个大的主题是,我们看到 AI 被越来越多地用来自动化 AI 研究本身,这是一种闭环反馈,可以让你实现完全自动化的研究。

是的,我的意思是,我认为这里有很多新的东西……很难在一个节目中全部解释清楚。事实上,我认为我们几乎可以做一个关于硬件的节目?我们必须做。

我们过去几乎做过关于规模定律的节目,关于……ASI。但我认为……是的,我认为现在主要的障碍开始看起来像工业问题了,对吧?工业基础正在努力跟上这种规模的能源需求。

很难定义你需要多少兆瓦的计算能力来满足下一个集群的需求,一个千兆瓦的集群……一个五千兆瓦的集群似乎遥不可及。所以很快,2027 年、2028 年的规模化运行看起来很难实现,我们今天也会讨论这个问题。但我认为所有这些事情都是同时存在的,仅仅依靠规模化是不够的,因为它在能源方面不可行。

没错。所以这里有很多东西,对吧?我认为值得强调的是,在过去的几个月里,我有一种感觉,那就是我们正在看到……

在代理方面,我看到了与其他方面不同的情况。我喜欢视频生成、图像生成,我们看到这些技术正在腾飞。是的,在 AI 的早期,我们有文本到图像,就像文本到视频一样。

我们已经看到了一些进展。在过去几年里发生的事情是,你看到了一些演示,然后在一两年内,在几个月内,在半年内,在文本到视频的情况下,你知道,我们看到越来越多……有一种趋势正在实现。这肯定会……

明年,我们预计会看到更多这样的技术出现,我们稍后会讨论。所以从这个意义上说,这不会放缓,我们将看到更多能够做更多事情的 AI 工具,无论我们是否获得更大、更智能的模型。

这是否意味着我们也可以通过规模化模型来获得性能的重大改进,这是一个非常有趣的问题。例如,我认为这不仅仅是关于模型规模的问题,也许还关于数据,对吧?我们还没有用完数据本身,但我们知道数据的质量和数量一样重要。

如果我们已经吸收了所有的新闻文章,吸收了所有的维基百科,吸收了所有的 Stack Overflow,那么还有多少好的数据呢?对吧?所以,我相信我们会看到一些研究,希望能够探索规模定律中高原的潜力,因为正如我们最近在播客中提到的 Anthropic 的例子,这些都是经验损失,对吧?据我所知,这些损失背后没有理论依据。所以,在实践中,我们可能会看到某种高原,即这些定律不会无限期地持续下去。这也很有趣。

是的,我的直觉是这些定律会持续下去,因为背后的直觉似乎相当可靠。我认为这是我们需要讨论的事情,我们需要做一个关于规模定律的节目。

但在我看来,议程上的最后一件事是……最后一英里问题,对吧?现在人们正在努力解决的首要问题不是破解……许多长期推理任务,他们试图用这些系统来解决,这些任务通常是最有价值的。一个在 99% 的时间里都能正确执行步骤的代理是不够的,因为你必须将许多步骤串联起来。因此,平均而言,你会期望事情会偏离轨道。

所以,最后一英里问题,多任务一致性非常非常重要,而这正是目前具有挑战性的问题,因为可以实际训练的长期推理轨迹的例子太少了,以至于可以谈论你的数据墙问题的例子。嗯,有一些潜在的解决方法,合成数据实际上看起来很有希望。你可以让AI系统审核推理轨迹,生成——不是IT生成的,而是一种类似于AlphaGo方法的生成,这种方法已经被尝试过,并且正在尝试中,我认为这方面有一些希望,但无论如何,是的,我认为我们需要一个扩展的epsom,好的。

你最先听到的,我们是否承诺了一个IT,我们将在明年的某个时候交付。

是的,已经有了。接下来。

接下来要讲的一个相关故事是,OpenAI显然即将推出AI代理工具,为用户自动化任务。所以,我们对这个故事了解不多,但我们还不知道。显然,这个新的I代理的代号是Operator,我们将能够使用一台电脑来代表个人采取行动,这与Unprofitable最近在其API上推出的功能非常相似。这是根据熟悉此事的人所说。

这遍布各地。

我知道熟悉此事的人,新闻的真实来源出现在……所以,上周刚刚举行了一次员工会议,在开幕式上,领导层宣布计划在1月份以研究预览的形式通过V API发布tl。所以,看起来它即将到来,至少如果这些计划成真,考虑到Tropic已经在他们的API中推出了这个功能,这并不奇怪。

Operator模型的代理性让员工们自发地唱起了“Operator,Operator,别打电话给我,我会晚点给你打电话”。对不起,这和我说的同样不好笑。一些真正的笑话不是。

它不是它,有……

大约有三个人笑了,是的,不,我认为有很多关于这个模型的猜测,对不起,大家,这个模型可能是什么样的,网络浏览器或工具可能是……你的任务自动化,通常的事情。我认为现在,嗯,最好把这些理解为长期测试一致性的实验。我们刚才讨论过的那个最后一英里问题,我认为将是最大的挑战。

继续这个话题,再讲几个故事。首先,谷歌发布了一个新的gm模型,它的表现相当不错。所以,有这个Germany-exp-1114,它在alam竞技场,呃,l码头聊天机器人竞技场中脱颖而出。

我认为这是一个新名称,用于els,我发誓……

喜欢alm更好,但在聊天机器人竞技场中被击败,在那里AMS以一对一的形式竞争,用户投票选择他们最喜欢的,所以这个新的……实验,gina,无论它是什么,都比o和I的表现更好,尽管同样,这取决于人们更喜欢哪个模型,这有时很难说这到底如何转化为智力,你知道,所以它现在比开放模型更长,greg 2也在那里。是的。

IM,它至少是对人类偏好更直接的衡量,你知道你的标准缩放曲线显示你交叉熵或其他什么。嗯,但是,是的,这意味着很难评估。人们猜测这个模型是否是ti 1.5的版本,或者它在某种程度上是gi 2的早期一瞥。所以,版本号通常毫无意义。

嗯,这是eo dario在诚实播客中提到的一个问题,就像弗里曼对模型命名的方式一样,实际上我记得和一个朋友谈过,几个月前,他说,“哦,是的,所以OpenAI现在正在训练GPT 5”,然后,“这是我们知道的一些东西”,然后事实证明这是一个不同的模型,当我发布时,名字被更改了。所以,这些事情一直都在发生。我认为一方面,这件事正在发生,我认为要关注的是,用于训练这些模型的计算机集群是什么?

当我们谈论GMI 1.5、g 992时,真正重要的是缩放是否有效,或者下一个训练范式是否有效?GMI有可能选择一个根本不同的训练范式,所以这将是一个非常有趣的区别。所以,这些增量可能很重要,但真正重要的是训练集群的大小,投入的浮点运算量,或者在训练过程中添加的铃铛和口哨。

在这里,你知道,答案是什么非常不清楚。所以,我们将坐下来,等待更多信息。我喜欢业界这种趋势,在排行榜中间发布这些神秘的模型,看着人们惊慌失措。然后,后来你发现,有时你甚至不知道是哪家公司,rock too也是这样。但是,它们就在这里。

给你。接下来,我们将讨论图像到视频。这也是一个新的趋势,服务于Shank Shoot技术,我相信我们已经报道过他们的ital视频,它可以根据文本生成8秒的剪辑。

现在他们有一个更新的工具。你可以给它提供三个不同的图像。例如,一个人、一件衬衫和一辆车。然后它可以为你创建一个结合这些图像的视频。

呃,是的,这是我们看到的一种趋势的一部分,有多个工具可以获取图像,然后从中创建视频。有时它们会继续并生成看起来像是图像延续的视频。这是一个工具发布具有这种能力的另一个例子。

最后一个故事,我们有来自Nub Chat的Forge推理API beta,关于News Chat和Hermis 3在上一集中。他们还宣布了这个推理API,它允许你像使用警报一样查询NAP。I。

但是,它内置了许多已知的推理技术,如研究链、代码混合代理和seta。它现在处于测试阶段,只有少数用户可以使用,我看到一些人尝试过它,它似乎确实增强了较弱的模型,例如lama free。Wive的……改进到联盟,以更好地进行推理,再次展示了推理和代理AI的趋势,这两种趋势是相辅相成的。

是的,实际上,看看这些指标,我个人觉得我需要更深入地研究一下……它们看起来几乎是,是的,非常有效。第三,有效的框架。在Her M 3中,700亿个参数的版本,对于Her M 3,他们自己构建的模型……他们声称,例如,在数学基准测试中达到了81.3%。

所以,这比GMI 1.5 pro……GPT 4的表现更好,当然还有Sound of 3.like,这太疯狂了。你看到了一些有竞争力的数字,在GPQA DMMMU散文方面,可能表现略逊一筹。嗯,anne基准测试是我在这里看到的奇怪的一个。

我的意思是,这是一个非常小的基准测试。他们没有在这里展示。基准测试中有很多……样本……但它名义上甚至超过了1个版本。我想看看,我很想了解更多关于这个故事的评估部分的信息,但他们正在使用货币车载研究……和h这样的链式代码链式思考。

当你将你的推理轨迹连接到代码解释器时,你会得到实际上有根据的反馈……不会污染,所以每个人一段时间后都可以获得推理轨迹的清晰度……然后他们还有一种方法来设置……多个代理之间的查询,他们称之为MOA或混合代理。所以这是一个复合框架。多色研究可能是o 1设置中正在发生的事情的一部分,至少是我的猜测,但说实话,没有人真正知道,它可能是任何东西,但是,这些是你试图复制它时可能会尝试的那种直观的事情。

从表面上看,他们似乎做到了。嗯,但是,再一次,我喜欢……我只是想看到更多关于……实际方面的信息。呃,你知道,在amy基准测试中实际是什么。我很想看到,你知道,所有的推理轨迹,定性地比较我们实际拥有的少数o 1推理轨迹,因为……是的,我很想知道它们是如何比较的。

知道它们是如何比较的,是的,完全正确,博客文章中只有很少的细节,以及行业中的数字,但其次,我认为,如果添加和组合各种技术,这是可以相信的,但我们都知道,这可以很好地帮助推理。

你可以争论现有的巷道,并使它们的推理更好,也许匹配或一个本身,如果你做得足够好,或者一个野兽越来越接近你,或者关于行动和业务。首先,我们有OpenAI,讨论一个AI数据中心,将花费1000亿美元。所以,这是根据他们掌握的信息。

美国政府官员会对这些潜在的计划有什么看法?显然,它将比目前正在开发的任何数据中心大五倍。所以,呃,OpenAI的顶级政策主管克里斯塔尔·海恩在华盛顿的一次活动上说,该公司已经与联邦政府分享了关于数据中心潜在影响的信息,我们真的不知道更多。我们知道他们正在……与联邦政府交谈,他们呼吁扩大电网,以使这些事情能够发生……他们建议各种事情,例如,加快AI数据中心的许可流程……是的,其中……

他们呼吁的事情之一是建立一个国家输电高速公路法案,以扩大能源容量。基本上,就像国家高速公路法案一样,50年代,我们建立了所有州际公路等等。基本上,我们需要这个,但现在是能源框架,这是这里的论点。

顺便说一下,这似乎是一个5吉瓦的……集群,这可能是目标集群,对吧?与微软的合作?不,我认为他们没有明确说明,但看起来就是这样……你知道,如果你从华盛顿国家安全政策的角度来看待这件事,那就太好了,我们当然希望在美国拥有这个。

但是,嗯,你可能会考虑将这样一个大型项目与使用该基础设施的实验室的要求联系起来,以遵守某些安全标准,对吧?所以,有很多……我说这个是因为我们现在正在进行一项投资,比如实验室安全等等。嗯,我认为OpenAI热衷于快速完成这些基本的事情,并且说,“是的,我会免费提供好处”,或者你知道,基本上是免费的,我会让他们溢出,学术机构将能够访问这样的计算机。

但从根本上说,嗯,去做这件事。我认为这似乎是……如果我们开始将AI视为一项国家安全技术,那么安全状况就非常紧张,现在是业务问题,需要解决?对于一个价值1000亿美元的计算集群,我认为,呃,是的,5吉瓦,这是……是的,这是一个行为,没有5吉瓦的备用容量在电网的任何地方。

嗯,我与之交谈过的每家公司都说,“是的,现在我们最多考虑1吉瓦。现实地说,我们正在为即将到来的事情考虑50到几百兆瓦的范围。所以,如果我们要与ACC P竞争,这必须改变。最好的方法显然是大规模的基础设施建设。问题只是如何激励……

使用该基础设施?说到数据中心,下一个故事与XAI的另一个数据中心有关。在这种情况下,显然,XAI已经获得批准,可以使用150兆瓦的电力,这将使该大型AI数据中心中的所有10万个GPU能够同时运行。

显然,到目前为止,我们已经有8兆瓦的初始供应,这不足以实际运行他们的东西,它……看起来它将需要估计的155兆瓦才能同时运行所有10万个GPU。所以,有了这个批准,看起来我们正在朝着能够使用所有这些GPU能力的方向前进,这……仍然有很多基础设施方面的考虑。你甚至可能不想同时运行所有10万个GPU。但现在他们肯定有了这个选择。

这是大型 xAI 集群,它实际上就像一个巨大的计算工厂,有时也被这样称呼,是的,而且它也是 Jenny Wong 在谈论其构建速度惊人的那个。我想他说的是,从你开始将第一个……第一个单元安装到数据中心的地板上,到进行训练运行,只用了 19 天,无论如何,这都非常、非常快,我见过这样的报道,顺便说一句,比如竞争对手用飞机在场地附近盘旋,只是为了了解他是如何做到这一点的。

这就是我们现在在这个领域中感到恐慌的程度,而且……顺便说一句,你想要了解的是,因为最初数据中心开放时(7 月份),只有 8 兆瓦的电力可用,他安装了柴油发电机来弥合差距。而且有很多非常有趣的推文。如果你对硬件方面感兴趣,请查看一下。

我觉得它们真的很酷。呃,这些新的 xAI 员工进来后说,是的,你知道,他从特斯拉那里带来了这些,并用它们来弥合那里的能源差距。所以现在最大的问题是,你知道,这能走多远?计划将产能增加一倍,超过 150 兆瓦,这将进一步提高 GPU 能力。

150 兆瓦足以容纳 10 万个……呃……总之,呃,这将是一个非常、非常大的设施。显然,他目前称之为世界上最大的集群。呃,它不是世界上最大的完全通电的集群。呃,但它现在确实即将……

进入下一个故事,也是关于硬件的,但不是数据中心,而是芯片,我们有来自 MLPerf 基准测试的新结果,涉及英伟达和谷歌的芯片。所以,英伟达的最新一代芯片是 H100,谷歌的芯片是 Trillium 加速器,两者现在都有比公司自己说法更清晰的结果。

所以谷歌的第六代 TPU Trillium 显示出 4 倍的性能提升,大约是 4 倍。而 H100 GPU 似乎比 A100 好大约两倍。所以在两种情况下,似乎我们并没有达到某种极限,芯片性能仍在提高。我们仍然能够通过每一代芯片将性能翻倍甚至三倍。啊,那里……

还有更高的能效,特别是谷歌的芯片,据称能效提高了 67%。当你谈到要达到那个……你知道,给定的工作负载、集群等等时,这是一件非常困难的事情,这越来越是一个很大的因素。呃,你知道,人们经常通过……气候变化的角度来考虑能源。但这并不是重点,真正重要的是我们能从现有的电网电力中挤出多少。这越来越成为瓶颈。所以谷歌的最新进展看起来非常有前景,他们建立 TPU 计划……我不知道,我甚至不记得……

2016 年。

2015 年,是的,我的意思是,那是在……有点疯狂,现在你已经有了 TPU v5 或……你知道,万亿参数等等,而且真的得到了回报。

谷歌特别擅长的一件事是多数据中心计算规划,基本上,这在你的电力用完时非常重要,因为如果你在一个地点没有足够的电网电力,因为这是真正的挑战,那么问题就是,好吧,我想我必须在不同的地理位置建立数据中心,并让它们一起工作。这意味着我需要能够在大量数据中心之间进行分布式训练。

呃,这是谷歌很早就努力攻克的事情,而且他们发表了很多论文。我们曾在播客中讨论过其中一些。呃,但不要低估谷歌在这方面的实力。

他们在数据中心设计方面真的很擅长。这些并不是……顺便说一句,地理位置分散得很厉害,它们出于技术原因位于同一地区,呃,这现在有点挑战性,需要克服,但是,呃,这是一个很大的竞争优势。

关于扩展的另一个方面,新的 TPU,Trillium,可以在单个 pod 中连接多达 256 个芯片。所以我们说的是高带宽,再次,这……我会把它推迟到以后的剧集。

但是 GPU 与 GPU 之间的通信,在英伟达设备上进行的事情,将通过 NVLink 进行。所以 NVLink 就是……是的,GPU 与 GPU 之间的超高……高容量……电缆。所以通常你会看到……我不知道,一个 pod 中有 36 个、72 个……

GPU,这个是 256 个,呃,所以,所以它真的非常可扩展,远远超过了这个。所以它被设计成超级、超级可扩展的,呃,而且它们有各种各样的指令集。所以是的,我认为谷歌是……你应该关注他们,他们是 ChatGPT 唤醒的沉睡巨龙。你知道,现在他们实际上比微软和……

OpenAI 拥有相当大的计算优势,离开硬件方面一点。我们几乎可以说这是一个八卦故事。所以我们对 Mira Murati 的新项目的一些招聘情况有所了解。所以她是前 CTO。OpenAI 的前 CTO,她最近才离开,并宣布她正在做一些事情,我们完全不知道这家新公司会是什么,但现在我们知道相当多来自 OpenAI 的人正在加入她的团队。所以我们知道 Meena Chen,一位研究项目经理,正在加入这家新公司,显然还有 xAI 的前负责人,以及前高级研究员 Luke Metz,他们也在最近几个月离开了 OpenAI,正在合作开展这项工作,所以除了这些之外没有其他细节,但这似乎是……是的,很多人才聚集到这家新公司。

是的,我的意思是,交易……你可以相当肯定的一件事是,这将是一个长期……AI 游戏。这个团队中,Barret Zoph 是混合专家模型的最初共同发明者之一。

所以,你知道,在基础方面非常擅长,而且再训练大概……也会成为游戏计划的一部分。所以他们在 Meena Chen 那里拥有生产力方面,而且他们拥有更多……呃……预训练方面……显然,像 Barret 实际上之前在 OpenAI 负责后训练,但他肯定有能力做……做再训练方面的事情。所以 Luke Metz 也是一位高级研究员。无论如何,这将很有趣,我认为它可能是……这可能只是另一个……另一个 AGI 游戏。如果它实际上不是……我不会感到惊讶。

还有一个关于业务的故事。我们看到关于 Anthropic 寻求更多资金的更多传闻。所以据报道,亚马逊正在讨论对 Anthropic 的一项新的数十亿美元投资。

呃,显然,讨论的内容与亚马逊去年对 Anthropic 的最初 40 亿美元投资类似。然而,目前看来,可能会有一个……条件,即 Anthropic 需要专门使用亚马逊的芯片来训练其模型,而这些芯片不是英伟达的。所以这可能会带来……训练方面的挑战,这些芯片显然……再次,我们知道的不多,这只是内部讨论,但是……如果这真的发生了,那将会很有趣。是的。

而且显然,根据这篇文章,他们说,与亚马逊的任何投资协议都可能以可转换债券的形式出现,在 Anthropic 从其他投资者那里筹集资金后,这些债券将转换为股权。这有点奇怪。

呃,通常情况下,你会在早期创业公司中看到这种情况,呃,当你试图避免为一笔交易设定估值时,对吧?所以基本上,你所做的是,你将讨论估值的时间推迟到以后有价格基础的时候。这通常发生在早期阶段,因为在早期很难对一家创业公司进行估值。你只有一对创始人加一个想法。

呃,所以是的,我不确定……为什么这笔交易的结构会采用这种形式,这让我想到 HY 评论员提到的 SAFE,无论如何,天使投资者经常使用……但无论如何,我认为这是一个非常有趣的交易,需要关注,附带的条件显然是亚马逊试图迫使 Anthropic 更多地使用其硬件的策略。它们也是英伟达的替代方案。这将非常重要,因为亚马逊在……整个 AGI 扩展竞赛中落后了很多。现在他们试图赶上来,你知道,他们没有开发自己的模型,他们非常依赖 Anthropic 来提供这些模型,又一轮对 Anthropic 的投资,以创造可以帮助推动他们自己硬件改进的需求。我认为这是一个非常有趣的观察点,可以了解超大规模公司和模型开发者(如 OpenAI 与微软的关系)之间的长期稳定关系,对吧?微软和 OpenAI 之间已经出现了这种关系的裂痕。

呃,在某种程度上,亚马逊现在正因为商业压力而……要求 Anthropic 更多地使用他们的东西,以至于可能无法运作。呃,这让你对很多这样的交易感到好奇。所以……是的,这可能是一个……煤矿里的金丝雀。

但这对双方来说一直是一个非常富有成效的伙伴关系。我们不知道细节。呃,我认为最大的问题只是……具体的要求是什么?附带条件是什么?有多少训练……

训练……

训练……

训练……来吧,伙计们,必须进行训练……

关于项目和开源。我们这里有两个故事,首先是 AlphaFold3 开源的令人兴奋的消息。所以我们得到了这个……的源代码和模型权重,这是为了学术用途。

所以许可证更严格一些。呃,没有什么其他的好说的了。我们之前已经介绍过 AlphaFold3 了,显然,这是对蛋白质建模能力的一个重大改进,并且能够将其应用于诸如科学发现、药物开发等方面。它在宣布时并不是开源的,呃,这似乎有点……你知道,突然间就出现了,是的,我认为在……

眼中,第三个模型指标是你必须隐藏的,GPT-3 就是这样发生的,GPT-3……无论如何,我想现在不再是这样了。但呃,他们有一个协议,如果你有谷歌的明确许可,你就可以访问权重,仅限于学术用途。所以他们可能给自己留了一点余地,与 DeepMind 和 Isomorphic Labs 的合作关系,实际上,很多这样的工作都在那里进行,我不愿意称之为谷歌,而且我实际上不确定那里的所有权结构是如何运作的,但它们在某种意义上是合作伙伴组织。Demis 实际上……我认为他是执行官……帮助 Isomorphic Labs 很多,但是是的,所以,你知道,他们采用了一种基于扩散的方法,无论如何,关于这件事的重点是,它不仅仅是关于对蛋白质建模。它是关于对蛋白质在被修饰和连接以及其他影响蛋白质的事情时的相互作用进行建模,当你想到医学影响时,这实际上非常有趣,对吧?你经常关心的是这两样东西会如何相互作用,这才是你对人体产生影响的唯一方法。

所以,这正是 AlphaFold3 在质量上优于 AlphaFold2 的地方。呃,看看这是否会产生实际的、切实的的影响,这将很有趣,从 AlphaFold2 的健康方面来看,我认为它比人们最初发布时预期的要少一些。所以我们将看看这种情况是否会改变。

是的,要访问权重,你需要填写谷歌表格。而且我……有点自我提问,DeepMind 然后会决定将权重提供给谁。所以一切都很……谨慎。他们真的强调这不是用于商业用途。如果你是一个大学、非营利组织或研究机构,你可以使用它。但是他们反复强调,这不是用于商业用途。事实上,权重中有一些标记与表格提交相关,这很有趣,呃,但对于科学家、研究人员来说绝对是个好消息,而且我认为他们已经在某种封闭的流程服务中分享了 PVC,正在扩大……访问范围,任何人都可以查看源代码以进行推理。所以无论如何,即使是这个的权重也可以帮助人们了解如何构建资源高效的模型。

那么这是否适用于他们对实际……比如……呃……蛋白质结构的加水印,比如新实体。这是一种……我不太了解的东西。

每个 AlphaFold3 模型权重文件都将包含一个与其表格提交相关的唯一标识符,这很有趣,好的,是的。下一个故事是,Near 计划构建世界上最大的 1.4 万亿参数的开源 AI 模型。这是 Near Protocol,这只是他们计划启动的一个计划。

因此,他们的目标是众包这种……训练。他们希望有成千上万的贡献者。目前,您可以开始为他们今天启动的所谓的 5 亿参数的小型模型贡献训练。

所以很难说这是否会成为一个万亿参数的模型,就像免费的一半比米特大。最大的Llama模型。亲自训练非常非常具有挑战性,而且有点……但是,如果你们甚至能够达到这个数字的一小部分,那将会很酷。

是的,所以这实际上很有趣,创建这家公司或前OpenAI员工的两个人,他们实际上参与了Transformer的研究工作,“注意力是你所需要的一切”后续工作,导致了ChatGPT。这很有趣,因为这实际上是我第一次看到某种AI meets crypto项目。那里有一个潜在的……就像BitTorrent一样。我用过BitTorrent。

是的,我认为在加密领域有很多倡议,我们甚至讨论过。所以不确定它是否有意义。

到目前为止。我的意思是,BitTorrent是我第一次记得一个,就像好吧,这实际上……这实际上可能奏效,对我来说有很多IT,对我来说,只是我的偏见,但这听起来很像你一直对……你知道……奇点感到非常兴奋,最新的……就像……几乎……它不是……它比词语联想更好,但其中一些实际上只是词语联想。

这是当时的情况,你知道吗,这实际上是有道理的,所以……宣传是正确的,这不是投资建议。呃,宣传是这样的……需要大量的AT资本来……来训练大型模型,在这种情况下,最大的一个,训练的费用将是1万亿美元,我……将是1.16亿美元来训练等等。嗯,所以……为什么我们不……创建一个新的代币,为我们想要训练的每个模型创建一个新的代币呢?我们将用这个代币进行拍卖,为训练运行筹集资金。

然后,如果你拥有所有这些代币,你可以用它们来购买更便宜的推理。或者我应该说你可以用代币来购买代币吗?啊,重点是这实际上是有结构意义的,这并不是我听过的最疯狂的事情,来自加密领域。

另一件有趣的事情是,我对技术细节有了一些了解。他们说……你将拥有一个去中心化的网络,拥有这种去中心化的计算网络,这是他们需要完成这项工作的东西。你不会把数万个GPU都集中在一个地方。

正如他们所说,你需要一种今天还不存在的技术,因为我们拥有的所有分布式训练技术都需要非常快速的互连。好的,那是真的。但他补充说,DeepMind的新兴研究表明这是可能的。当我们谈论时,我们认为,好吧,DeepMind和这种方式的分布式计算。首先想到的是Logo。

嗯,我们已经讨论过很多次了,TurnMembertou是一个新的血清,另一家公司……这是一个这种依赖于该基础设施的开源版本,如果我们在这方面的分布式训练方面做得越来越好……对非常大规模的训练运行进行IT……甚至跨越多个数据中心,让多个集群一起工作,这非常非常困难。嗯,所以你知道,我认为该计划的本地部分只将是该计划的一部分。必须有一些其他的解决方案。但无论如何,我标记了它,因为我认为,你知道,这是一个听起来很疯狂的故事,但它实际上足够有道理,让我觉得,你知道吗,这不是我听过的最疯狂的事情……当谈到使用加密时,就像密码和AI的交叉点。所以……就是这样。

接下来是研究和进展。我们有一篇超级论文来开始,标题是《大型语言模型中的超级权重》。这是一类深入研究大型语言模型内部运作的论文之一。

并发现了一些东西,在这种情况下,我认为非常有趣。呃,这是诺丁汉大学和苹果公司之间的合作。他们在这篇论文中说的是,LLM中某些权重,他们称之为超级权重,非常重要。

所以我们知道权重,即神经网络的参数,非常重要。你可以……你可以设置一堆,跳到零。它不会真正影响你的模型性能。事实上,人们可以缩小模型规模,使它们更高效,压缩它们。很多都是通过找到不重要的权重,然后将其清除。

而他们在论文中展示的是,你知道,我们知道有些权重很重要,你不想清除它们,但事实上,它们就像这些超级权重,它们甚至更重要,如果你只是将这个权重归零,字面意思上,这会导致性能大幅下降。这就像如果你只是删除了其他七千个最大的权重,这些权重在你打开时会影响激活,这不像这个权重那么重要。所以你可以说这个权重比其他数千个也重要的权重更重要。

我在这里发现有趣的是,这建立在今年早些时候的研究基础之上,我实际上没有意识到,我认为我们谈论过,有一篇论文题为《大型语言模型中的巨大激活》,它已经证明存在这些主激活,即论文中提到的超级激活,再次,这些是大型语言模型内部的输出。所以激活就像神经网络中给定位置的输出。所以,在过去一年中,几个月前,已经证明了这一点,这似乎与超级权重有关。

呃,所以这里有很多有趣的想法。发现这些特别重要的特殊权重让我感到惊讶。到目前为止,我认为我没有看到任何暗示这一点的东西。

是的,这确实令人着迷。我认为从机制上来说,这也很有趣,对吧?所以这些权重,它们并不一定具有非常大的值,这就是它们的特点,更大的激活或其他什么,它们可以取一系列的值,它们被发现的方式基本上是通过……基本上是……Transformer中的所有层,特别是MLP层。

让我退一步说,当你有一个Transformer时,对吧,Transformer是由块组成的,这些块都堆叠在一起。然后每个块都有两种不同类型的层。你会得到一个自注意力层,通常是赢家,以及一个MLP层,它基本上只是一个普通的ural网络。

并以某种方式处理来自自注意力层的数。如果你放大那个MLP层,第二层,那层中有两个步骤,几个不同的步骤。首先是将注意力层的低维输出映射到更高的维度。

好的,所以……所以你继续。也许我喜欢512维的层放大到2000维,比如说。然后你可以在那个更高维的空间中进行处理。

在某种程度上,这有点像允许……你知道……你的论文在你的桌子上展开更多,这样你就可以更好地处理它们。然后你进行向下投影,重新压缩回原始维度。他们发现超级权重始终出现在这些MLP的向下投影部分,所以它们不断出现。

它们不断出现在块的MLP层中,特别是在该层中将你……不会放大维度,而是在混合发生后压缩维度的那一部分。所以这很有趣,你知道为什么 exactly 发生。超级权重再次,它不一定是该层中最大的权重。

嗯,另一个迹象表明这是如何工作的。这些往往发生在早期。所以在模型的非常早期的Transformer块中,它们会……它们实际上会寻找真正的高激活,这些激活会持续贯穿模型的所有层。

一旦他们找到第一次发生这种情况的实例,他们就会追溯它,并试图弄乱权重,直到使它消失,从而识别出这个超级权重……这种方法在实践中的有效性。再次,从机制方面来说……超级权重似乎抑制了停止词的概率。所以有一些停止词……就像……像句号字符或逗号字符,会导致模型停止生成输出。

嗯……无论如何,超级权重似乎基本上抑制了这些停止词,导致模型继续生成输出。如果你把它去掉,你不仅会看到这种变化,你实际上……你知道……会看到输出的质量。只是去看看他们展示的带有和不带有超级权重的输出,它就像……从优美的连贯文本变成了完全的垃圾。

嗯……无论如何,我认为这很有趣。第一次获得的超级高激活是超级激活。超级权重发挥作用的方式实际上是持续贯穿Transformer的各层。

所以你最终会看到它持续存在,如果你通过跳跃连接以高水平的细节进行跟踪。但它……它以这种稳健的方式不断出现。所以我认为从机制的可控性方面有很多需要仔细考虑的地方,关于 exactly 如何以及为什么它是这样工作的。嗯……但我很好奇,我没有跟踪第一个……超级激活的结果。所以这很好,因为我们现在能够得到更多解释,同时……这也是来自苹果的研究,你知道,通常对我来说,它不是一个众所周知的国际……

能力强国。没错。他们确实把它分解了一点。所以似乎两者并不完全相同。如果你恢复超级激活,但仍然没有权重,这不会产生相反的效果。你仍然会损失很多质量。

只是为了说明其影响,他们举了一个例子,夏天很热,冬天是x,所以你知道,一个正常的模型会说冬天很冷,而如果你删除它,它会说冬天是一个……然后这是概率。法院将有很高的概率道德。然后概率将被最大化,你只是保存。

所以没有太多关于这是什么的信息或解释。我们也在论文中做了一些更实际的事情,呃,解释了如果你做超级离群值,他们称之为partizan。所以如果你量化,当你降低权重的分辨率时,这会影响你打开时的激活,并且已经证明,你可以通过关注重要的权重来进行更好的量化。所以,在这种情况下,他们展示的是,如果你……小心地保留这些特定的激活,如果保留特定的权重,这会导致性能下降得少得多。所以从实际的角度来看,知道这一点对于能够……减少模型的大小而不损失解决方案非常有用。

是的,这实际上非常……他们展示了你如何能够获取模型中的所有权重并进行大量量化,但随后你只需以16位恢复原始超级激活值。

所以只需保留……你将保留一个的高分辨率,你将恢复你在对整个模型进行辅助量化时损失的大部分性能,这……对我来说非常违反直觉,我将以此结束。嗯……论文中最奇怪的图。这再次是……我一百万年也不会相信的事情。

图六。嗯,他们展示的是,如果你取超级权重。并且你将其值按一定比例放大。

按一定比例放大,你实际上会看到该模型在某些任务上的零样本性能持续提高。所以在许多不同的模型大小中,他们尝试了这一点,并且他们始终发现有一些缩放可以提高质量。基本上就像……取这个已经训练过的权重,增加它的值,这是一个始终有效的举动。

这对我来说毫无意义。这似乎很奇怪。嗯……我的意思是,也许你可以争辩说……我猜通过正则化或其他什么,我必须更多地考虑训练方案。

但也许有一些……某种正则化压力人为地抑制了权重相对于它本来可能有的权重,它不够灵活,无法做某事。但尽管如此,我仍然觉得这……令人着迷,而且我不会想到它。所以这里有很多奇怪、古怪的结果,我认为……你知道……机制可解释性的人应该看看,因为这很酷。

然后我们来看下一篇文章,它也探讨了大型模型的工作原理,在这种情况下,是生成图像的扩散模型,文章标题是“组合能力呈倍数出现:在合成任务上探索扩散模型”。因此,他们在这里探索组合事物。如果你的模型能够,比如说,创建一个正方形和一个矩形,那么它是否能够做一些事情,比如,我不知道,尝试将一个正方形放在另一个正方形上面,这是一个简单的例子,当然,你可以想出很多类似的例子。

问题是,这些能力是如何出现的?你如何在输出中组合不同的概念?细节有点细微,但在高层次上,他们说生成给定概念样本的能力取决于实际数据以及生成数据的过程。

并且组合任务的能力突然出现,能够很好地完成需要组合性的测试。老实说,我们还没有深入研究到足以用很多新东西来解释这一点,杰里米。我认为你可能可以做更深入的解释,在这方面做得更好。

不,不,我的意思是这很棒。首先,我认为这篇关于系统安全、人工智能风险和国家安全的论文非常有趣。所以一直存在关于语言模型中能力突然出现的争论,你知道,你训练,训练,训练。

然后不知从哪里,看似突然地,这个模型能够,我不知道,帮助你,比如,在设计生物武器方面取得进展。它可以写出一些东西。这些能力是从哪里来的?我们预测过这一点。而对于这些能力出现的自然模型是说,好吧,让我们说设计恶意软件需要技能X、Y、Z,对吧?并且让我们说,在训练过程中,模型逐渐在X方面变得更好,逐渐在Y方面变得更好,逐渐在Z方面变得更好,但是为了完成整体任务,你必须同时做好这三件事。

如果你在X方面有80%的性能,在Y方面有70%的性能,在Z方面有90%的性能,那么你的整体性能可能大约是80%乘以70%乘以90%,因为你必须在每一件事上都成功。换句话说,要正确执行危险的能力,需要成倍地发挥作用。这就是威胁模型。

嗯,我不知道这是否真的像我那样。我不认为这是出于国家安全的动机,但我认为这可能是对国家安全最大的影响。是的,基本上他们所做的就是使这一点非常具体。

他们采用了一个扩散模型,基本上是一个图像生成模型,并让它生成不同形状、颜色和大小的对象,对吧?所以你想想,比如一个小小的蓝色球体,对吧,诸如此类的东西。他们检查一下,好吧,它在捕捉形状、颜色和大小方面的性能如何?他们会特别地不训练模型来处理这些特征的某些组合。

所以要确保模型从未被训练来制作一个大的紫色正方形,对吧,一个大的紫色立方体,从未尝试过这样做。所以你训练了一堆其他的组合。然后你检查一下,它在这个从未训练过的新的非分布式测试中的表现如何。结果证明,它在这个任务上的成功率基本上是基于它在构成它的各个组成部分(形状、颜色和大小)上的成功率的乘积。他们将他们的乘法模型与一个加法模型进行了比较,加法模型的表现远不如乘法模型。

在解释这些能力的出现方面,是的,我的意思是,从数学上看,这很有道理,如果你从事过任何后端工程、物理学之类的工作,你可能了解狄拉克δ函数,基本上,在极限情况下,如果你有很多变化必须同时发生,概率小于1,你会发现你的输出,你的成功率基本上总是为零,因为你只需要在一件事上失败,整体成功率就会为零。但总会有一个点,突然之间你可以攻克最后一个难题,对吧?你就像,你在一个方面是60%,在另一个方面是30%,在所有方面都是这样。

并且存在。但有一件事真正阻碍了你,突然之间你攻克了它。然后,现在看来,你好像发现了这个令人惊叹的新能力,而实际上,这个能力实际上是许多子能力的复合,每一个子能力都必须串联在一起。

当你把很多数字乘在一起时,如果你这些数字小于1,也就是在0和1之间,你往往会得到0,直到所有这些数字都达到一个最小阈值p,总之,这就是这一切的意义所在。从某种意义上说,这是同一种地图背后的一个显而易见的结论,就像啊,函数,嗯,嗯,嗯,我认为它因此非常有趣,但对于人工智能来说是一篇很酷的论文。

安全方面,是的,从实际的角度来看。所以这里的大多数结果都基于这个合成任务,他们专门处理形状、颜色、大小等方面,他们表明在这种情况下,你确实看到了这些概念组合的出现,并且与这些不同概念以及你在这些概念上的表现密切相关。

但他们也有一些更实际的任务,他们研究了CelebA数据集,其中包含许多面孔。它们具有诸如性别、表情(例如微笑)和头发颜色之类的属性。在这个例子中,你实际上可以查看概念,查看在诸如男性和女性面孔之类的方面上的表现,你会看到与合成案例类似的东西。事实上,这也可以帮助在实践中减轻紧急情况下的偏差输出,仅举一例。

是的,我还想最后说一点。我认为这对于大型训练和人工智能来说非常重要,关于涌现的这场争论,对吧?能力的突然涌现。有很多论文来回讨论。我认为,可能有人争论说,哦,涌现是一件真实的事情,因为事后看来,我们可以发现这种能力实际上随着时间的推移平稳地开始出现。但所有这些都是说,如果你事后知道要寻找正确的指标,在实践中,我们会感到惊讶。

我们训练一个新模型,然后我们说,哦,糟糕,我们没想到你会能够进行自主网络攻击,它就是这样。是的,事后看来,你可以设计一个网络自主性基准,它将追溯性地解释你是如何走到这一步的,但你需要设计完全正确的基准来列出这些能力。如果这现在有助于关注这场辩论的真正核心,那么这场辩论从根本上来说是关于识别需要组合在一起才能产生你感兴趣的某种危险能力或有趣能力的一组能力。所以我认为从这个角度来看,它非常有趣。

这是一种新的语言或一种思考问题的新方法。我要结束这场争论。这场争论已经持续了两三年了。所以也许就是这样。

还有几个故事。下一个故事的标题是“混合Transformer:用于多模态基础模型的稀疏且可扩展的架构”。所以这里又是另一种混合方法。

我们有混合深度、混合专家。这一次是这类事情中的另一种。所以我们知道混合专家是一件非常重要的事情。

其基本思想是,你接收一个输入,然后你有一个路由器,它为某些类型的标记或输入激活某些权重。这意味着你可以使用整个网络的子集来处理某些类型的事情。因此,你使用更少的整体计算量,同时通常通过训练更多专门的权重来获得更好的性能。

处理多模态的一种方法是,你可以将不同的模态路由到不同的专家。这篇论文提出了一种这种方法的特定版本,用于多模态。所以混合Transformer的思想是,当你想要图像、文本和音频等多种模式时,你所做的就是使用完全独立的Transformer。

当你有了输入后,你将不同的模态分组。你对所有这些模态进行序列上的注意力。但是,你将每种模式路由到它自己的小型Transformer。

所以你可以将它们在不同的权重之间进行分割。他们所展示的是,通过这样做,你当然可以获得混合专家的好处,通过减少整体计算量。所以,在那些中间层,你通常有前馈层,这些层需要获取整个序列。

通过分别处理每种模态,混合中的各个Transformer可以更小,并且权重更少。我们评估了这个想法与更传统的混合专家方法以及跨注意力Transformer的比较,并展示了显著的加速——训练速度翻倍,同时获得了良好的性能。所以,是的,它是在如何进行多模态处理的探索基础上构建的,这有两种主要方法,并且扩展了其中一种方法。是的,就是这样。

这种方法有很多有趣的潜在优势,他们有不同的,他们将不同的模态路由到不同的,怎么说呢,专家,稀疏的Transformer,但是他们确实有跨越它们的全局注意力。所以你可以从模态之间的交叉授粉中受益,对吧?如果有一个标记是,你知道,比如,在视觉上解释的,比如说,另一个在文本方面解释的,那么你仍然可以从这种交互中受益,这非常重要,因为通常情况下,会有一些涌现的信息来自,比如说,图像的描述与图像本身的结合。

他们拥有的另一个优势是训练稳定性,对吧?现在的一个巨大挑战是,如果你将这些模型扩展到足够大的规模,而且速度很快,你就会遇到训练稳定性问题,你知道,随着时间的推移,损失会变得不稳定,下降,而这个混合Transformer模型,因为它使用基于模态的简单路由,它避免了在混合专家中必须学习路由过程的额外复杂性,这是导致训练特别不稳定的因素之一。所以,这对于可扩展性非常有帮助。他们实际上展示了这一点,他们在实验中表明,在他们的实验中,AM在一定规模以上会产生一些边际收益递减,并且在700万参数规模以上更为显著,这意味着你可以想出很多工程解决方案,但底线是,混合Transformer更容易用于这种更大规模的扩展范围。所以这可能也是一个有趣的选项。

最后一篇论文是关于情境化评估的,它消除了大型语言模型评估或语言模型评估中的猜测。这里的想法是,在某些评估中,任务或输入可能有不同的有效输出,这取决于上下文。他们举的一个例子是,“公主,什么是Transformer?”如果你的上下文是你是一位电气工程师,那么答案与你是一位机器学习工程师时的答案不同。所以他们解决了这个普遍的问题,并表明,如果你确实专门提供了上下文,例如,你为什么要问这个问题?你的背景是什么?这可以带来更可靠和更有意义的输出。

是的,我认为这也很有趣,因为它说明了我们现在在模型评估中遇到的问题。他们发现,如果你增加了上下文,他们用这个进行了实验,你实际上可以改变模型对之间的胜率。例如,你可能会发现,我知道,像Gemini 1.5 Pro似乎在一个特定的基准测试中优于Claude 3.5。

但是当你提供额外的上下文时,情况就会发生变化,对吧?所以问题是,哪些模型最适合简洁性,哪些模型最适合关于提问者的更多上下文。部分原因是模型的基本行为是什么,对吧?

如果模型的基本行为倾向于像你五岁时那样回应你,因为它的预训练或微调方式,那么它就会表现得更好。如果你有一个朝这个方向倾斜的基准测试,你也会发现模型的表现更好。所以我认为这很有趣,因为它表明我们的一些相对排名。

即使它让你思考,例如,像ALAM的排行榜之类的东西,也会有所不同,对吧?因为现在你在想,好吧,当然。平均而言,人们会给某个模型更高的ELO分数,但每个人都不同。因此,某些模型实际上可能只是更擅长满足某种人的解释需求,而不是另一种人。结果是你希望尽可能多的评估都考虑上下文,他们确实发现,这样做会得到更可靠、更稳健的评估,以证明他们实际上能够创建一个具有审美性的查询数据集。因此,我们将采用他们从某些标准的QA基准测试中获得的基本查询,然后他们会自动生成一堆关于提问者是谁的上下文,然后他们会将其提供给模型并根据该上下文进行评估,这将导致更稳健、更稳定的响应,这些响应大概是对模型实际适应特定用户需求的能力的更好评估。

接下来是关于政策和安全的,这篇报道与欧盟有关。标题是《通用人工智能行为准则为欧盟提供了独特的机会》,这是一篇由Newsia Oliver转换的评论文章。你展示了Bengio,他是一位主要的AI研究员,也是AI安全的主要支持者。

所以这篇文章的大意是,最近在几个方面,发布了通用人工智能行为准则的初稿。这种准则回答了关于通用人工智能(例如ChatGPT)的问题:如何在构建这些模型的同时解决它们可能造成的潜在风险?这篇文章基本上是在为该行为准则进行辩护,该准则试图解决潜在的批评。

文章指出,关于欧洲的监管方法有很多刻板印象,然后它指出,尽管许多人批评欧盟过度监管、阻碍创新等等,但他们认为,该准则可以创建一个灵活、有针对性且有效的框架,以确保推动通用人工智能创新,同时尊重法治、共享权利和欧盟的价值观。

他们说,这具有全球意义,因为这是法律规则首次转化为更详细的指导方针,用于负责任地开发和使用通用人工智能。因此,我想不足为奇的是,与欧盟人工智能法案一起发布了一套准则。该准则建议公司如何采取行动以遵守欧盟关于负责任地开发模型的法律。

关于人们谈论欧盟人工智能立法和监管框架如何不断地推出下一个政策文件,一个政策文件似乎几乎毫不费力地延续到下一个文件,这很有趣。这份文件中的建议并没有什么太令人惊讶的。

这是我们之前见过他倡导的东西。与欧盟的权利和价值观相关的要素,与人工智能法案和国际方法相关的要素,以及与风险相称的比例。这显然是最大的问题,对吧?你可以说,好吧,如何以与风险成比例的方式做到这一点,但具体的补救措施是什么?具体的风险是什么?这几乎是整个辩论的焦点,对吧?这就是人们意见分歧的地方。因此,他们还呼吁采取一种面向未来的方法。显然,我们已经看到人们谈论过基于阈值、基于计算的方法来规范人工智能系统。

我认为已经出现。

看起来相当不错,尤其是在推理时间缩放定律之后,或者说通过计算渠道进行监管的想法是一种非常有前景的方法,因为没有其他方法真正能够面向未来地做到这一点。

人工智能的一个趋势是,如果你想做一些真正强大、最终可能具有危险能力的事情,你将经历一个必须以非常强烈的方式扩展你的计算能力的阶段。计算成本很高。它很容易审计。

它具有所有这些特征,使其成为监管的自然焦点,远胜于模型或应用程序,因为模型或应用程序难以置信地难以监管。如果你想在应用程序级别进行监管,很多人都在为此努力,那么你将不得不以更私密的方式进入人们的业务,例如最终用户的业务,而不是模型开发者的业务,而模型开发者拥有更多的资源来遵守规定。总之,我认为这将成为许多争论的主题。许多这些事情都是方向性的事情,人们已经就这个问题达成一致。再次,问题是如何激励……

下一个与安全相关的报道来自Anthropic。标题是《ASL-4安全案例组件的三个草图》。ASL是人工智能安全等级,是Anthropic负责任扩展策略的一部分。负责任扩展策略准确地概述了这些安全等级是什么。

一个自由类别是评估不同能力水平的模型带来的潜在风险,以及Anthropic为了负责任地开发先进人工智能而做出的具体行动和保障措施。他们还没有开发出ASL-4。这篇博文提供了一些假设性想法,说明达到更高级别的模型可能面临哪些问题,以及如何减轻这些问题。

这篇博文基于最近的一份报告(我认为我们讨论过关于前沿模型的令人不安的评估),例如黑盒、可操纵性、对齐。其基本思想是,这些事情通常会落入破坏的范畴,这将对灾难性遗漏风险以及自主复制、能力和自主人工智能研究产生影响。基本上,一个模型可以自行运行,做你想做的事情,使自己变得超级强大,也许最终摧毁人类。这是一篇相当长的文章,详细介绍了处理这些情况的一些假设性方法,并发布了这些想法以获得一些反馈,进行一些讨论,同时探索ASL-4的想法。当然,杰里米,你肯定对此有更多想法。

我,杰里米,我认为这是一篇非常有趣的文章。我认为Anthropic做得很好,我必须说,与OpenAI不同,它似乎在公开思考高度自主性会是什么样子。我教过很多人关于Anthropic的一件事是,关于在ASL-4中该做什么,存在很大的不确定性。

一旦你接触到真正自主的系统,他们已经承诺,在他们的第一个达到ASL-3阈值的模型出现之前,将制定一个针对ASL-4的计划。所以。

这可能即将到来,根据我与许多人交谈的情况,今年可能会发生,明年很可能发生,而且我认为Drew在他的播客中也分享了这一点。因此,他们需要很快上线ASL-4。这是他们第一次尝试这样做。

他们内部对ASL-4究竟需要什么感到困惑。他们感到困惑的部分原因是,我们目前缺乏成功审计该能力水平的人工智能模型行为所需的技术。这在他们在这里分享的许多安全案例草图中都有体现,他们分享了三个不同的草图,他们认为这些草图在未来几年我们接近ASL-4阈值时是相当合理的。我只提一个。这是一个关于能力和机械对抗能力的案例研究。顺便说一句,我喜欢这个案例研究的地方在于,它让你很好地了解了他们期望在达到这个阶段时所依赖的策略,一旦你接触到足够自主的模型,它们对自己的目标有长期的理解,并且理解这样做对它们有利,例如寻求权力,对吧,例如在评估时推迟展示某些能力,以便它们可以被部署并获得更广泛的动作空间,以便最终以更广泛的方式实现其目标。

因此,他们正在研究使用空间自动编码器,这非常清楚地表明,这不仅是Anthropic,其他实验室也在考虑这一点。Anthropic在这些基本方面确实领先一步,我们已经讨论了很多,这是一种探测模型激活空间结构的方法,并识别模型可能激活某些概念,例如欺骗和掩盖等事情,并将其作为一种度量。另一个主题是自动解释技术,它们非常适合扩展,Anthropic也非常关注这一点,他们也在研究激活工程,我认为我们在两年前第一次看到“奶酪迷宫”论文出现时就讨论过这个问题,当时Alex Turner(我认为是他)在一个不知名的博客上发布了它。我们当时讨论过,当时已经很清楚,这将成为诊断的一部分,但现在他们希望将其用于诊断,也用于缓解,即如果你确实发现了模型中欺骗或不良行为的迹象,那么采取实际的纠正措施,例如如何使用激活控制来改变这种行为。

我认为看到它具体地出现在这里真的很酷。他们还提到了第三个案例研究,也很有趣。他们谈到如何确定你的模型在训练后和微调后可能相对良性,并且你基本上导致了其中一些角色的出现。

所以,这背后的想法再次是我们讨论过的事情。它相当细微,因为语言模型通常使用交叉熵损失进行再训练,这被称为最大似然估计目标。换句话说,它为序列的所有合理完成分配一定的概率,而不是只关注最可能的完成。

它具有该属性,因为它会严重惩罚模型,如果它对最终出现的序列分配非常低的概率。与其他可能鼓励模型只关注单个最佳完成的目标相比,你希望拥有此功能。这很重要,因为他们认为,自由训练自然会导致模型能够表现出许多不同的行为或角色,因为模型需要对文本可能继续的所有不同方式保持一定的概率。

所以它必须对冲风险。自然地,这意味着它必须是子模型的组合,每个子模型都可以考虑替代策略。因此,如果情况如此,那么存在这样的风险:通过训练后,你最终可能会放大这些角色或子模型中更强大或更倾向于战略性欺骗的那些。

所以他们谈到了他们的缓解策略,所有这些都不是最终的。这些都不意味着是一个最终计划,但我认为它暗示了当我们接近更自动化、更像直接替代研究人员的研究人员时,最终计划可能是什么,我认为这就是我们最终前进的方向。

但这很酷。接下来,转向美国政策。我们有一些关于TSMC亚利桑那州工厂和《芯片法案》的报道。

第一个报道是关于根据《芯片法案》最终敲定的这笔工厂的资金。我们被告知,TSMC将获得66亿美元的直接资金,以及50亿美元的贷款担保。根据这笔交易,TSMC承诺在其最先进的生产节点(目前为3纳米)上生产芯片,并在美国生产,尽管这要到十年末左右才会发生,比其在台湾开始量产晚三年。另一篇相关的报道也指出,经济事务部长在一次谈话中提到,根据现行规定,TSMC不能在海外生产其最先进的芯片。因此,实际上有一项法律或规定,即他们在海外生产的任何东西都必须落后于他们在台湾生产的东西一代。所以我想,这些报道似乎是相辅相成的。

是的,这很有趣,因为台湾的国内政策旨在确保其在半导体供应链方面保持领先地位。当涉及到半导体供应链时,他们说,不,存在台湾被中国入侵的风险,我们的工厂将被摧毁,世界半导体供应链将因此而瘫痪。

因此,美国和其他国家自然希望将TSMC的工厂转移到国内,对吧,让他们在自己的国家建造工厂,这样它们更稳健。但我们不希望这样。我们不希望这样,因为这会削弱我们的影响力。

这意味着最先进的芯片没有在台湾生产。现在,如果他们有实际的政策来执行这一点,这很有趣。他说,我们不会在海外生产2纳米芯片。正如你所说,这实际上不仅仅是2纳米芯片。

最终他们会的。事实上,已经有这样的计划了,对吧?所以台积电的第一座亚利桑那州晶圆厂——那将是一个海外晶圆厂——实际上很快就会在接下来的几周内启动。

但是还有第二个晶圆厂和第三个晶圆厂,这两个晶圆厂实际上都将达到2纳米及以后的工艺水平,它们将在8纳米时代之后上线。所以,如果我们最终会在美国获得两个2纳米晶圆厂,但我们不一定会获得领先的节点,根据中国法律,或者说,根据台湾法律,到那时,你将拥有下一代芯片,8纳米、16纳米等等。嗯,这显然是为了回应人们的担忧,即台积电可能被迫提前在亚利桑那州生产一些这些芯片。

嗯,一旦唐纳德·特朗普再次当选,谁知道呢,但呃,很有趣的是选举是如何产生影响的。他们声称台积电没有受到影响,所有这些都像是生意如常。但我怀疑在诸如……之类的方面会有一些更艰难的谈判。

这在未来。还有几个故事。这个故事让我回想起我们在播客中已经讨论过的事情,因为OpenAI提出了关于美国……

人工智能战略和与中国竞争的联盟的计划。

所以我们提到了,作为其中一部分,一项政策提案或政策讨论,OpenAI提出了一个1000亿美元的数据中心计划。正如你提到的,Jeremie,这是一种整体蓝图。

它确实提出了一些听起来像法案的东西。例如,有一个国家输电高速公路法案,旨在加强电力、光纤连接和天然气管道。他们还有一个北美AI协议,这将形成一个旨在与中国竞争的经济集团。呃,这些是,你知道的,我想,OpenAI正在参与制定这类政策的游戏。是的,其中一个……

有趣的事情。所以,总的来说,它们被称为AI基础设施蓝图。而且,他们在谈论建立人工智能经济区,并利用海军的核电经验,来支持基本上获得政府资助的电力项目,这些项目也将由私人投资者资助。

所以看看那里的激励措施,这真的很好,就像美国需要彻底重新思考其能源战略一样。一个非常非常非常大的方式,你得到了,人工智能将在未来几年占据美国……

总经济需求的两位数百分比,到2030年,从目前的数据中心大约4%开始。而且这实际上可能会更快地加速。唯一会发生的事情是,如果你不在美国建设能源基础设施,这些数据中心就会建在其他地方。

这就是会发生的事情。我们已经看到这种情况正在发生,或者至少与阿联酋和其他一些……政府类似,你不会想在那里建设你的关键国家安全基础设施。嗯,我要说的是,我的意思是,OpenAI目前以相当典型的自私自利的方式,相当谨慎地选择论点。

所以他们认为这将非常有利于创造就业机会。我们将创造数万个就业岗位,并将大幅提高GDP增长,以实现现代化……我对此小小地嘲笑了一下,仅仅是因为OpenAI……他们正在考虑自动化整个经济。所以当然,当然,这就是计划。

是的,所有这些工作。无论如何,在短期内,它们会创造这些工作。但底线是,这不是未来的方向。很多夸夸其谈,我认为是准确的,他们说,作为一项基础技术,人工智能将像电力一样,并承诺类似的分布式访问和好处。

Baba,我的意思是,你可以看到他们实时调整语言,以使其更符合共和党的编码,在多年……扮演民主党一方角色之后。所以看到这种情况发生真是令人惊讶,但是,无论如何,这里有很多深思熟虑的东西,但它显然是自私自利的。而且他们的……条件肯定应该与我们在这里谈论的建设那种基础设施联系起来,对吧?

就像安全状况一样,特别是像OpenAI这样的实验室已经证明自己根本不关心举报人对安全的担忧,无论你看的是Plachta还是Berner,甚至我们在去年的报告中、今年早些时候的报告中强调的许多事情。所以我想,你知道,你必须关心并坚持这一点,是的,提供你的电力基础设施,但它必须附带对加强安全的具体要求,而这些实验室,我再说一次,特别是OpenAI,历史上已经表明它只关心在允许他们通过国会并与行政部门保持良好关系的程度上这样做。但实际上,在实验室高管的文化基本层面并没有……我认为你必须看看Sam Altman,特别是最后一个故事,再次涉及OpenAI,回到安全问题,OpenAI失去了另一位首席安全研究员,Lilian Weng。所以这是一个预防性故事。OpenAI宣布,她的最后一天是11月15日,她是OpenAI的长期员工,工作了七年,是安全团队的领导者。此外,我想说,她以撰写许多非常详细的博客文章而闻名于我。

机器人技术,是的。

一篇小博客,非常深入。对人工智能研究的精彩概述。所以,再一次,我们不知道该从采访中读出多少。当然,这是安全人物离开OpenAI这一趋势的一部分。这可能意味着一些内部分歧,也可能意味着这是在多年之后离开的合适时机,但我不知道。这是关于这方面新闻的全部内容。

当然。我的意思是,我看着她的任期,十年……你知道,七年,这相当了不起。嗯,所以是的,可能只是这样。但情况也可能是,如果你认为你的实验室正在按计划建造AGI,无论如何,并且你在安全团队中,嗯,你可能会……你可能会尽力坚持下去,无论这有多痛苦,如果你认为你有任何影响力,如果你认为人们会听你的话。

我认为,根据我与举报人的谈话,我听到的肯定是一些OpenAI的举报人,其中一些人最近离开了,感觉非常像你。他们感到失望,然后安全方面发生了这种情况,安全方面发生了这种情况。嗯,只是系统性地……系统性地忽视这些国家安全问题,坦率地说,这些问题已经被提出,并试图压制它们。所以我想在这种情况下,这可能是这种趋势的另一个例子,就像没有人听我说我们有……CCP是一个威胁,所以……我离开了,或者我们没有在解决我们的控制问题上取得进展,无论如何,或者它可能只是七年了,所以很难知道。你知道,推测是……

会进行推测的。我想,如果我们发现Weng离开的原因,你的主题将是一个正确的故事,而这对于我们这一集来说是正确的,我们可能多谈了一半,但仍然不错。我会把我们自己放在这一集的后面。

所以感谢您的收听,一如既往。呃,你总是可以访问lastweekinai.com查看文字记录,以及本集新闻的链接。一如既往,我们感谢你们的评论、评价,以及与朋友和同事分享播客。但最重要的是,我们感谢你们的收听,所以请继续这样做,并享受这首超棒的歌曲。

这。机会。

这。免费的。我说。

世界。

七个。链条。破裂。我。

火车。逻辑。街道。在。

冰淇淋。歌曲。

我们找到我们的位置。上周。人工智能。你将休息。

来,在下面。

上周人工智能。一周。应该采取这个。

像你的梦一样。今晚。不在一起。