cover of episode #203 - Gemini Image Gen, Ascend 910C, Gemma 3, Gemini Robotics

#203 - Gemini Image Gen, Ascend 910C, Gemma 3, Gemini Robotics

2025/3/17
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
A
Andrey Kurenkov
J
Jeremie Harris
Topics
@Andrey Kurenkov : 我认为OpenAI推出的新工具,帮助企业构建AI代理,标志着继单纯使用大型语言模型之后,下一波自动化浪潮的到来。Gemini 2 Flash现在支持原生图像输出,可以直接在聊天过程中进行图像编辑,其多轮对话上下文功能,能够更好地保持图像的一致性和细节。Waymo正在扩展其全天候自动驾驶出租车服务,覆盖范围扩大到硅谷更多城市。Moon Valley发布了一个声称只使用授权内容训练的视频生成模型Marley,降低了法律风险。Snapchat推出了由其内部生成模型驱动的AI视频镜头功能,仅限于Snapchat Platinum订阅用户使用。Sudowrite发布了Muse AI模型,旨在辅助创作叙事性小说,这体现了AI在创意写作领域的应用潜力。 @Jeremie Harris : OpenAI正在将以往打包提供的AI代理系统解耦,允许客户使用底层工具构建自己的代理,这是一种兼顾用户体验和灵活性的策略。OpenAI的策略是通过解耦工具来学习用户如何使用,并将其融入到最终的打包产品中。Waymo与Uber的合作以及其自动驾驶出租车服务的扩张,对Uber的平台构成潜在风险。Moon Valley的视频生成模型Marley,其只使用授权内容训练的策略,可能预示着未来视频生成模型发展的一个方向。OpenAI与云服务提供商CoreWeave达成120亿美元的协议,这表明OpenAI正在寻求多元化的计算资源,并试图在与微软的关系中获得更多主动权。

Deep Dive

Shownotes Transcript

您好,欢迎收听本周人工智能播客,在这里您可以听到我们聊聊人工智能领域正在发生的事情。像往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻。和以往一样,您可以访问节目说明查看时间戳和这些文章的链接,也可以访问lastweekinai.com网站浏览网页等等。

我是你们的常驻主持人之一,Andrey Kurenkov。我在斯坦福大学学习人工智能,现在在一家生成式人工智能初创公司Astrocade工作。

大家好,我是Jeremy。我是你们的另一位常驻联合主持人。过去几周我断断续续地参与,但很高兴来到这里。是的,Gladstone AI的联合创始人,人工智能国家安全方面的工作。如果你一直在听这个播客,你应该知道是怎么回事。本周我们讨论了这个话题。这种情况偶尔会发生,现在没那么频繁了,但我们会查看我们的节目安排,想,“哇,这周内容很少啊。”我想因此本期播客会比较短。但没错,我是Jeremy,你们的另一位常驻联合主持人。

但是,就像热空气会膨胀以充满可用的所有空间一样,我相信我们会找到办法把这个播客做到两小时。尽管如此,这是一个问题,也是一项技能,你知道的,当我们有时间的时候,我们真的可以聊很多。但为了快速预览一下我们将要讨论的内容,在工具和应用程序方面,有很多比较小的工具发布,OpenAI发布了一个比较重要的工具,但其他的工具可能不太引人注目,但变化多样且有趣。在应用和商业方面,就像往常一样,我们将讨论很多硬件,OpenAI在上面投入巨资,华为的一些发展,以及一些商业交易。

项目和开源方面。有一些新的模型发布,Gemma 3和Sesame的一个模型。非常令人兴奋。研究和进展方面。我们有Gemini Robotics,这对我来说有点出乎意料,而且非常令人兴奋。还有一篇关于测试时间计算的有趣的论文。最后,政策和安全方面。我们通常的组合。我们有一篇关于理解和对齐的论文。然后我们有很多关于中美关系的故事,这似乎是

现在的大事。是的,进展顺利,进展顺利。让我们直接开始吧。从工具和应用程序开始,第一个故事是OpenAI发布了新的工具来帮助企业构建AI代理。所以现在有一个新的响应API,允许你创建自定义代理,包括网络搜索和文件扫描。

这指的是更自主的能力。它还允许你使用计算机使用代理模型,它可以控制你设备上更多类型的不同事物。显然,企业可以在本地运行该计算机使用代理模型。虽然在消费者版本中,你只能将其用于网络操作。

所以我认为这并不太令人惊讶,我们看到Anthropic也发布了一个计算机使用API,在一段时间前的早期版本中。对我来说,看看这是否会成为继仅仅玩LLM之后下一波自动化浪潮的一部分,将会非常有趣。

是的,对于代理,或者说代理商业模式来说,这是一个非常有趣的时刻,比如,OpenAI基本上在考虑如何解包我们通过我们购买的代理系统提供的服务,基本上是这样的,我们构建了代理,你使用它们,现在他们说,不,不,我们会给你访问底层工具的权限。你可以构建你自己的代理,你知道的,比如,

这包括例如可以扫描数据库中文件的实用程序,并在这些文件上训练模型。至少原则上,这是那里的保证。但是,是的,还有很多其他的,你提到了KUA模型,即操作员背后的计算机使用代理模型。顺便说一句,它会生成鼠标和键盘操作。实际上是关于计算机使用本身的。但本质上,是的,这种解包为客户提供了许多创建自己代理的选择,对吧?

最终,感觉上,OpenAI的每一个迹象都表明他们打算提供一个包罗万象的体验,至少是提供的,对吧?所以他们正在寻求构建一个集成解决方案,它不是解包的。但这是硬币的另一面,对吧?你要么构建工具来授权你的用户构建他们自己的

代理系统,要么构建一个代理系统,你想象大多数消费者倾向于直接使用,这样他们就不必自己处理这些事情了。他们试图同时兼顾这两方面,对吧?解包和打包的产品,我认为任何有足够规模来做到这一点,能够负担得起同时关注两件事的公司,最终都必须这样做。

因为这与开源的范围是一致的,对吧?当你开始解包工具并让人们摆弄它们并看看他们构建了什么时。所以这本身就很有趣。然后OpenAI可以从这些工具的使用方式中学习,就像meta从人们在开源世界中使用Llama的方式中学习一样,然后将这些学习成果整合到他们自己的完全打包的真实系统中。所以很有趣。我认为这是一个很好的战略策略。他们开放了一大堆

包括一个名为Agents SDK的开源工具包。

它为你提供了一堆免费工具,可以将模型与你的内部系统集成,添加安全措施,并为你的代理进行监控。所以非常有趣。这再次是这种在开源什么和不开源什么之间徘徊的问题。我认为OpenAI发现了一个不错的中间地带。预计Anthropic也会这样做。最终预计XAI也会这样做。我认为很多这样的东西都会被采用,但这似乎是一个很好的战略计划。是的。

是的,而且我认为这也指出了我认为我们不知道细节的东西,但我可以想象API才是真正的赚钱之处,对吧?他们有一个消费者版本。你可以每月支付20美元的订阅费,或者如果你是一个超级用户,现在每月支付200美元。可以推测企业正在为他们的员工支付这笔费用。但是许多公司,包括DeFi,

在某种程度上,我们的公司正在使用API在ChatGPT或云端之上创建他们自己的东西。我认为从长远来看,这就是OpenAI和Anthropic将赚取大部分利润的方式。当然,Anthropic明确地将目标客户定位为企业。所以我认为这也符合这一点。

绝对的。钱总是存在于B2B中,对吧?有趣的是,在某种程度上,你可以将ChatGPT的历史视为仅仅是使用B2C(企业对消费者)业务来建立B2B(企业对企业)策略的品牌认知,而B2B策略最终将创造大部分价值。我认为唯一需要注意的是,当你真正长期关注这些事情时,

最终,如果你谈论超级智能,如果OpenAI计划开始集中越来越多的活动,即经济生产活动,你必须想象他们会这样做,尽管他们公开表示,你知道的,“我们想赋能创作者”,最终,就像亚马逊一样,你知道的,他们所谓的亚马逊基础款或其他什么,你知道的,他们会发现那些销售非常好的产品,然后,你知道的,

抓住这些机会,预计OpenAI的经济状况也会如此。当这种情况发生时,他们基本上是在淘汰商业中间商,直接面向消费者,并在某些行业(并非所有行业)中将所有价值内化。所以我认为这种有趣的演变将会发生,一个暂时的阶段,B2B是所有赚钱的地方。但是,由于人工智能有能力吞噬世界,所以看到他们最终是否会成为……

既是B2C公司又是B2B公司,将会非常有趣,顺便说一句,就消费者与企业的平衡而言,Anthropic目前相对而言具有巨大的优势。Anthropic更专注于商业方面,这反映在Cloud 3.7 Sonnet、Cloud 3.5 Sonnet New等等的编码能力上,甚至超过了OpenAI的一些代理模型。但我认为这是一个很好的观点。太有趣了,对吧?这些

公司正在创造新的商业模式。没有人真正知道什么会奏效,它们会如何随着时间的推移而发展。唯一可以肯定的是,它们会发展,而且我们会感到惊讶。接下来,我们有一个来自谷歌的故事。他们现在正在Gemini 2 Flash中发布具有原生图像输出的功能。

这允许你在聊天流程中进行对话式图像编辑,就像你与其他人聊天一样,你可以要求它生成图像。据我了解,这之所以不同,是因为它没有调用另一个工具。它作为多模态模型内置于Gemini 2 Flash本身。

因此,结果在多轮对话中可能相当令人印象深刻,其中图像生成的其中一个关键限制或挑战是

如果你想编辑图像,你想保留图像的某些方面,比如人物、人等等,同时仍然改变它。这是你在这里免费获得的一件事,因为Gemini 2 Flash具有对话的上下文,包括文本和图像。这意味着它可以根据我看到的例子,做得非常出色,

在保持一致性的同时,也能够非常通用,能够完成你输出指示的各种事情。所以最初,这被宣布为可供一些测试人员使用。现在这正在向用户甚至开发者推出。

是的,而且这是你如今倾向于转向的少数几件事之一,你知道的,这个新的图像生成器有多好?文本,对吧?它处理文本非常好,至少根据他们展示的演示来看,你永远不知道。但他们让它创建一个旧的详细的复古图像。

35毫米照片,从电脑显示器的正面拍摄。然后他们说,让这段文字显示在显示器上。大约有三行,据我所知,它捕捉到了每一个字。所以,你知道的,这是我们以前见过的失败模式。它是组合,你知道的,一旦你进入你想要在图像中忠实地表示的文本,

而且你还想来回编辑图像。许多这样的事情,当你将它们堆叠在一起时,这就是你遇到很多问题的地方。至少根据他们在这里演示中决定向我们展示的内容来看,它看起来确实非常出色。所以,一如既往,我想知道图像编辑的下一步是什么?

我相信会有一些。但对于我们这些只是图像生成技术的低级消费者来说,我认为我们已经非常接近饱和点了。安德烈,你显然更了解游戏方面的情况。我猜想,你知道的,你可能会寻找一些具体的东西,仅仅是因为生成视觉伪影、化身之类的东西。或者。

是的,在我的测试中,我们发现,如果你有一个非常具体的用例,这些都是通用模型,它们反映了我们的训练数据集。所以它们非常擅长生成你可以在网上找到的东西,如果你有数据的话。

一个非常具体的规范集,通常这些模型并不理想。因此,能够非常擅长遵循指令,直到非常细微的细节,对于能够零样本地使用它们来做任何事情都非常重要。所以这可能是这里的一个优势或好处。另一个有趣的方面,只是看看他们的博客文章,是

如果你看看他们在多轮对话式图像编辑中给出的例子,你必须等待10秒钟以上才能得到回应。我可以想象,当你进行这种原生图像输出时,这是一个限制,当你有一个多模态模型可以处理图像、文本和音频时,它

可以为你输出图像,并具有非常灵活的推理和准确性,但它比市场上看到的文本到图像生成器要慢得多。所以我认为这是一个我们没有必要看到的有趣的权衡。是的,几乎存在用例问题,即

在计算如此便宜以至于对于大多数实际目的而言,你可以即时生成多模态模型的输出之前。是的,可能仍然需要,你知道的,仍然是特定模型,只有一种或另一种模态,也许是路由器模型。

你的查询或任何模态到任何模态。但我们肯定还没有达到那种程度,我们可以有一个像Gato一样的单一模型来处理所有事情。是的,人们仍然使用大量的LorA,这是肯定的。

接下来是快速轮询,其中包含一些较小的故事。首先,我最喜欢的主题之一,显然,因为我一直都在提到它,那就是Waymo。他们再次扩张了。他们现在在湾区更多城市提供机器人出租车服务,包括山景城、帕洛阿尔托、洛斯阿尔托斯和萨尼维尔的部分地区,这对我来说很令人兴奋,因为我在洛斯阿尔托斯工作。所以我现在可以在我的通勤中使用它

有时只是因为这很有趣。所以这是他们推广的一部分。看起来他们今年真的想大力扩张。他们已经扩展到凤凰城,在那里提供他们的机器人出租车服务。他们正试图扩张到洛杉矶。

他们还计划前往亚特兰大。所以是的,看起来他们觉得已经准备好扩张了。对我来说,主要的问题是,他们能否比过去一年左右更快地做到这一点?我的意思是,

他们在旧金山已经有一段时间了,也许两年了。他们现在正在向旧金山南部的一些较小的城市郊区迁移,可以说是他们的后院。所以在扩张方面仍然进展缓慢,但看起来他们在扩张过程中没有发生任何大的碰撞或类似的事情,这是很有希望的。

是的,而且从战略上来说也很有趣,对吧?因为最近Waymo发布的一件大事,当然,我们也报道过,是他们与Uber在奥斯汀的合作。这似乎现在正在扩展到亚特兰大,或者至少在今年晚些时候会扩展。这确实让我有点想,Uber在这里面临一些风险,对吧?因为他们用于许多这些行程的核心平台,基本上作为Uber客户,现在你可以,你知道的,如果你在奥斯汀,可以匹配

Waymo机器人出租车。亚特兰大也是如此。是的,你是一个这样的市场,这就是Uber在这种情况下所具有的价值,对吧?它是供需的发现。但在某种程度上,如果人们开始习惯乘坐Waymo出租车,你的品牌已经建立起来了。如果Waymo只是推出一个应用程序,然后压低Uber的价格,他们可能能够做到这一点,即使只是为了暂时吸引用户,就像Uber一样,Uber在这里面临一些平台风险。

所以这不是巧合,对吧?Uber之前通过Uber ATG,即自动驾驶部分,将其作为他们的优先事项。他们后来放弃了,仅仅是因为它资金密集型太高了。他们没有取得足够的进展。但那是因为他们看到了这种结果可能出现,并且面临着巨大的平台风险。所以,是的,我的意思是,我不喜欢Uber的平台。

在这里的定位。我认为,你知道的,他们拥有很棒的软件,但是当你依赖一个硬件平台时,在这个领域中,垂直整合可能会带来很多效率提升,因为利润率非常低,我想知道他们在想什么,以及最终会如何发展。但无论如何,我们将通过这些在奥斯汀、凤凰城和其他地方的推广获得一些早期迹象。

对,完全正确。并且说到这一点,Waymo已经有一个应用程序,一个你可以使用的独立应用程序,例如在旧金山。所以他们随时准备摆脱Uber。我想Uber等等的好处仅仅是它们的规模。它们显然遍布全球各地。所以……

机器人出租车需要相当长的时间才能拥有足够的硬件,首先才能竞争。一如既往,最大的问题是,特斯拉能否赶上?因为现在看来,Waymo是目前机器人出租车业务中唯一的参与者。

接下来,我们有一个新的视频生成器。有一家名为Moon Valley的初创公司发布了一个名为Marley的视频生成模型,其宣传是它只在许可内容上进行训练。所以没有使用任何受版权保护的数据。这是与AI动画工作室Asteria合作完成的,并且

似乎也适用于更具电影感或媒体制作类型的角色。例如,它允许你自定义相机和运动控制,以及场景内的移动等等。这允许你生成长达30秒的高分辨率片段,再次强调的是,风险很低。

所以这当然,你知道的,在文本到视频方面有点安静。我们之前有过Sora发布的短暂时刻。你看到了Adobe,我相信。我不记得它是否已经发布了,但他们已经宣布了他们的视频生成模型。所以它仍在继续推广,即使重点已经转向推理。

是的,而且他们显然,所以在这个第一个版本中,他们从更开放的开源、开放许可的东西开始,他们显然正在与合作伙伴合作处理许可协议并将视频打包到他们可以购买的数据集中,这很像Adobe正在做的事情,对吧?所以,你知道的,我们看到他们用他们的大型产品做同样的事情,我认为他们是第一家公司,当然是我们报道的第一家公司,他们提供了赔偿保证。如果你因使用我们的软件而被起诉,

图像、视频输出等等,我们将赔偿,如果你是按照软件的预期用途来使用,我们将为你辩护。Moon Valley的有趣之处还在于,我没有跟踪他们筹集了多少钱,但这当然,你知道的,不会太多,不会像OpenAI手头上的那么多。所以当你想到这样一家小公司试图通过许可协议来做这些事情时,你知道的,从其他公司购买视频内容,这

这是一个更高的要求。但从战略上讲,这只是推测,这里实际上存在一种有趣的共生关系,这里潜在的公司与许可视频内容的公司之间存在一种关系。我想象一下,如果我是一家正在制作可能用于训练这些模型的视频的公司,我实际上可能想要

与Moon Valley这样的公司合作,给他们非常非常便宜的访问权限,但仍然向他们出售这些视频的许可证,即使只是为了树立先例,以便OpenAI然后感到压力而加入进来。一旦你让大公司来找你,然后你就收取全额费用,如果这说得通的话。所以我不确定。我不知道这方面的法律问题是如何解决的。你知道的,如果这里存在与这种不同参与者的选择性定价的问题。但是

这里与这些内容创作平台之间存在一种有趣的潜在合作关系,可以廉价地许可内容,只是为了让这个飞轮运转起来,树立先例,然后,你知道的,收割那些负担得起的更大的公司。这有点意思,并不是说这是其中的一部分,但当你看到这一点时,它确实让我朝这个方向思考。

对。并且说到资金问题,我刚刚查了一下。他们在2024年末获得了一轮7000万美元的种子轮融资。至少那时他们宣布了。所以这是一个相当可观的数额,不是一个巨大的数额。我认为这也是故事的一部分,事实证明,如今你可以用

大量的资金获得非常好的视频模型,不像,你知道的,数亿美元。我们将在开源部分也谈到这一点。当计算成本下降时,对吧?每年增长10倍,你知道的,7000万美元的融资实际上是7亿美元的融资,至少,你知道的,如果你将资本支出与资本支出进行比较的话。是的。嗯哼。

接下来,我们有Snapchat,他们正在推出使用他们自己内部构建的模型的AI视频镜头。所以,如果你是一个Snapchat Platinum订阅者,我相信我们有很多听众使用Snapchat。

你可以每月支付60美元来使用这些基本上是滤镜的东西,我猜这不太像是滤镜,它有点像视频编辑,他们有免费的AI视频镜头,目前是浣熊、狐狸和春季花朵,它基本上会将浣熊或狐狸或花朵添加到你的视频中。有一些示例视频,并且

你知道的,我不知道。对于这么长时间以来的一项功能,我不能,我,你知道的,如果我必须使用另一个该死的图像编辑平台,而该平台没有可编辑的狐狸或浣熊功能,我会崩溃的。是的。

你知道的,我不知道这是一个如此受欢迎的功能。说实话,我不知道浣熊在Snapchat上这么受欢迎。显然它们很受欢迎。但无论如何,我认为看到Snapchat投资内部生成式AI模型很有趣。这确实是一个问号,这是否会成为实际支付每月16美元的激励因素

但是是的,我对Snapchat不太了解。所以我不知道用户是否非常喜欢这种视频滤镜。是的,我从未感到如此与媒体内容脱节

消费者。每月16美元用于……好吧。我的意思是,我可以看到其他用途,但显然还有其他东西,这也会随之而来,我相信他们会推广它。他们选择内部开发这一点很有趣。考虑到他们拥有的大量数据,以及当你查看Snapchat视频时,这也许并不太令人惊讶……

说实话,我已经有一段时间没用了,但它确实具有一定的纵横比,它具有一定的,你知道的,人们倾向于以某种方式构图。围绕应用程序的使用存在一种文化。所以你可能会期望,你知道的,拥有一个微调模型,但也许我猜,甚至像这样的预训练模型,都是内部完成的,你实际上可以理解这一点。所以他们大概也在训练其他开源,至少是开源视频数据,我假设,但当然,

当你拥有如此大量内部数据时,它会让你倾向于这样做,尤其是在你有资金的情况下。

还有一个故事。这是一个我比较喜欢的,而不是媒体报道较多的故事,但我认为它很不错。标题是Sudowrite推出了Muse AI模型,可以生成以叙事为导向的小说。所以Sudowrite是一个平台,其目的是基本上为写作,通常是小说,以及潜在的博客文章提供AI助手。他们已经存在了很多年了,并且

几年前我玩这些东西的时候,我用过它。所以他们很早就加入了LLM的行列,现在他们有了这个新的模型,他们说这个模型实际上能够创作出更好一些的文学作品,可以更好地帮助你写作,这是其中一个

重点,Sudowrite旨在成为你的助手,你输入,然后是他们的建议,能够建议结构、人物等等。另一个稍微有趣的想法是,我们知道一方面,像Chieshi Buki这样的东西可以写一个完整的短篇故事,这个故事是合乎逻辑的,你可以阅读。

另一方面,通常情况下,如果你只是要求LLM为你写一些东西,它会很普通,读起来很无聊。所以我可能可以看出,有一些空间可以通过一些数据来获得一个默认情况下能够更好地生成好的写作建议的模型,这些建议不是陈词滥调或只是无聊的。

如果你试图写一些比你通常看到的东西更出格的东西,那么它就不可用了。是的,不可用。是的,我认为我们没有这个故事的具体报道,因为它只是谣言和预告,但是

OpenAI,对吧,在录音时,我想昨天出来说,嘿,我们正在开发这个新模型。它非常擅长创意写作。Sam Altman在推特或X上发布了关于它的信息。这绝对是人们认为LLM会难以做到的事情,对吧?很容易训练它们,特别是代理模型,但即使只是

某种程度上,对于通用的预训练大型语言模型来说,很容易训练它们进行编码以及其他可以客观量化和评估的任务。但是,你知道,创意写作之类的事情就比较难了。所以,你知道,也许我们会看到更多朝着这个方向的努力。我很好奇,如果你比较一下伪写作模型和即将推出的OpenAI模型,看看它们的性能,以及训练过程如何才能获得更具创意的输出?

因为至少对我来说,这并不明显,除了更仔细地整理你的数据之外,这是一种显而易见的方法,或者也许只是赋予它更大的权重,你知道,改变你训练的顺序,并确保在训练的最后阶段加入高质量的来源。这些都是常用的标准技巧。但是,是的,我很想知道这在性能和训练程序方面有何不同。

是的,不幸的是,他们没有发布太多关于实际涉及的技术细节。我想,如果……

这是一个很酷的故事,或者说,如果……

这是由于Souterite平台本身的特定用例导致的,在这个用例中,实际使用它的人会拒绝或接受建议,改写输出部分,从各种建议中进行选择。所以,对于这个特定的用例来说,这是一个没有人拥有的金矿数据。

如果这是他们这样做的部分原因,他们也确实说过他们与数千名平台用户进行了交谈,这可能是利基用例平台的一个有趣的例子,它能够成为该应用程序的领导者。

接下来是应用和业务方面,我们有一个关于OpenAI的故事。他们与云服务提供商CoreWeave达成了120亿美元的五年期协议。这部分是投资,OpenAI从CoreWeave获得了3.5亿美元的股权。并且

这大概会影响到他们对基础设施的需求,OpenAI对基础设施的需求。CoreWeave拥有一项针对AI的云服务,拥有32个数据中心和超过25万个NVIDIA GPU。

实际上,微软是CoreWeave的大用户。而且似乎OpenAI现在也计划拥有来自微软以外的其他计算提供商,微软大概是他们目前最大的计算资源提供商。

是的,这是一个非常有趣的故事,原因有几个方面。我认为我们上周报道过,CoreWeave计划进行IPO。其中一个担忧是,是的,微软占据了CoreWeave收入的大部分,对吧?62%。鉴于此,你知道,这对CoreWeave来说是一个相当大的风险来源。与OpenAI的这笔交易可能是资金和潜在合作关系的令人耳目一新的注入。因此,在一定程度上使……

大规模客户的投资组合多样化。顺便说一句,CoreWeave由NVIDIA支持。这就是他们能够如此迅速地获得如此多GPU的原因。他们现在正在添加Blackwells。所以这对计算能力来说是一件大事。但是除了IPO以及这在战略上如何帮助CoreWeave之外,这方面的另一个维度是您提到的微软和OpenAI之间的合作关系。所以那里有点关系恶化,对吧?我的意思是,我们几周前谈到过,

在目前正在进行的大型Stargate构建的背景下,对吧?OpenAI与非微软之间的大型合作关系。应该是微软,但实际上是甲骨文和Crusoe。Crusoe是一家大型数据中心公司,而甲骨文则是一种水合作用伙伴,可以提供大量的GPU。这对这些公司来说是一笔大买卖,但这确实意味着OpenAI正在打破它与……

微软的依赖关系。那里的故事似乎是,微软继续进行Stargate构建的风险承受能力比OpenAI更有限。我认为这有点夸大了。我的理解是,在幕后,微软实际上是Stargate计划的主要资助者。这只是……

不是公开承认的事情。但即便如此,OpenAI也在寻找更多计算方面的供应商和供应商组合的多样性。这让他们在微软面前更有了一些筹码。所以你会看到每家公司都在努力定位自己,对吧?微软正在开发自己的推理模型,而OpenAI正在寻找自己的计算合作伙伴。微软和OpenAI之间存在这种非常不稳定的平衡,这种平衡似乎正在逐渐瓦解,有点像“千刀万剐”式的瓦解。

下一个故事,我们将讨论在中国制造的芯片,或者实际上可能是中国制造的芯片,正如我们将要讨论的那样。故事是华为现在有一条新的芯片生产线,Ascend 910C,它似乎正在投入生产,并将成为中国公司生产的领先AI加速器产品。

所以这是他们芯片系列Ascend 910的一部分。各种分析,我想我们不知道确切情况,但从一位评论员Leonard Haim看来,这似乎与H100类似,所以不是……

接近NVIDIA目前的旗舰芯片B200。它的计算性能可能只是其中的一小部分,大约是三分之一,计算内存也少得多等等。但即便如此,这仍然是一款用于AI探索的国产产品,

正在向NVIDIA靠拢。至少这与A100 GPU相当,例如。是的,这是一个……顺便说一句,如果你对任何与中国芯片相关的事情感兴趣,Leonard Heim是一个非常棒的人,很多出口管制方面的事情。他有一场很棒的推特风暴,也值得一看。但是是的,这是一个很大的故事,对吧?所以其中一个重要的方面是,中国已经能够获得……

Ascend 910B。仅供参考,910C是刚刚开始生产的下一代华为芯片。根据你的计算方式,它的性能大约是NVIDIA H100的80%。所以,你知道,H100……

我认为大约三年前开始生产或投产。所以,三年前推出的芯片的80%,大概,我的意思是,这里有点战争迷雾。很多这些芯片似乎是从台积电非法获得的。我看到了一些不同的说法,来自CSIS的帖子。有一篇TechRadar的文章,或者说人们对此有点分歧,但它肯定表明有很多

非法获得的芯片,包括可能由台积电生产的910B。所以,如果你回顾一下我们的硬件剧集,这两个910B晶片,这些小的逻辑晶片,实际上是运行计算的。它们与芯片上的内存,即高带宽内存不同。

但是这两个910B晶片需要组合在一起才能制造出910C。因此,显然,他们似乎已经获得了大约200万个910B,足以制造

大约一百万个910 C。从本质上讲,今年大约一百万个H100等效芯片似乎是可以实现的。关于晶片间带宽以及华为实际可用的封装工艺与台积电相比有多糟糕,存在各种各样的警告。

但是,你知道,这是中国和华为在出口管制之前所做的大量囤积。这不仅包括逻辑,像九十年代这样的逻辑晶片,还包括高带宽内存。所以HBM2E,他们显然是从三星那里获得的,他们似乎有足够的库存来生产大约140万个九十年代的CO2。

所以,即使这些芯片现在受到控制,它们也曾在之前被囤积起来。顺便说一句,NVIDIA的实际芯片也发生了类似的事情。我们以前谈到过,当时NVIDIA

基本上有新的出口管制措施,他们知道美国政府将要出台这些措施以阻止他们,例如,当时阻止他们运送Hopper芯片和Ampere芯片,例如A100。他们所做的是,他们知道出口管制即将到来。因此,他们试图将尽可能多的这些芯片投放到中国市场。事实上,

为了这个目的,他们更偏爱中国客户而不是美国客户,因为他们知道一旦出口管制生效,他们仍然可以向美国销售。所以这在某种程度上是华为和英伟达,通过激励措施,基本上被推到一起,以提高华为从现成芯片供应中获得的一切供应。所以囤积策略一直都在发生。中国在这方面做得非常好。它补充了出口管制生效后的非法收购方面

以及。最终结果是他们最终获得了大量这些芯片。你不应该认为出口管制是为了完全阻止

华为、中芯国际或任何这些公司获得技术。这是一个减缓它们速度的问题。随着时间的推移,它会累积起来,造成更大的差距。无论如何,当你看到中国市场上仅仅来自华为就有一百万个H100等效芯片时,你必须考虑的一件事是,中国共产党非常擅长集中

他们的计算能力。因此,如果他们想进行一次大型训练运行,一个国家级的项目,他们比美国更容易做到这一点。所以,即使我们生产的芯片更多,我们的芯片也分散在许多不同的超大规模公司和小型公司中。原则上,中国可以介入并说,嘿,你知道,我们正在征用这些芯片,把它们组合在一起,进行一次非常大的训练运行。这是一个重要的区别。以及为什么我们可能在2025年仅仅从华为就能看到的一百万个H100等效芯片是相当显著和重要的。

我们还有一个后续故事。正如你提到的,另一篇文章与这篇文章一起出现,内容是华为据报道去年通过空壳公司从台积电获得了200万个昇腾910 AI芯片。所以更多关于这方面的信息。他们似乎获得了超过200万个昇腾910B逻辑晶片。910C是……

据我所知,它是由两个910B组成的。他们确实绕过了。他们没有直接从台积电获得产品。台积电似乎发现了这种情况,并在内部调查后停止了发货。

所以你可以说这是一个意外的合作关系。从我看到的来看,它似乎是一个7纳米工艺。所以这不是台积电最先进的技术,这可能并不令人惊讶。其他客户正在占用所有这些产能。但这确实表明,正如我们所知,专家控制措施已经到位。我们已经看到很多

通过专家控制的泄漏。这似乎是一个相当大的例子。绝对的。事实上,正如你提到的,他们使用的7纳米工艺,具有可争议的良率和其他特性的变体,是中国中芯国际可以在国内完成的。所以中芯国际是中国的中芯国际。

台积电,它也是基于非常明确的、实际上是被盗的来自中芯国际的知识产权而成立的。一个非常酷的故事,我必须说,中芯国际。有一些来自台积电的有趣的人……这是一个真实的故事,让我们这么说吧。

是的,是的,是的。这是一种典型的中国公司间谍故事,对吧?比如挖走公司的一些最资深人士,让他们过来。我认为,我的意思是,他们成立了中芯国际,并在……

在接近领先节点的合理生产方面取得了成功,时间之快令人难以置信,可能是12个月或类似的惊人时间。所以这是一个闻所未闻的起飞速度,这也是引发台积电怀疑此事发生以及随之而来的诉讼的原因。

所以是的,是的。我的意思是,中国基本上拥有相当可靠的国内芯片生产能力。华为大致相当于他们的英伟达。中芯国际大致相当于他们的台积电。但他们都在同一个屋檐下,如果你愿意的话,都在中国共产党的保护伞下。因此,你可以看到他们形成一个更紧密的华为-中芯国际联合体,比英伟达-台积电更紧密。但一个重要的区别是英伟达。

中芯国际无法获得EUV机器。所以你基本上被限制在7纳米节点。也许他们可以通过多图案化技术推进到5纳米,但看起来你很快就会精疲力尽。另一个有趣的事情是,如果你看看台积电,我们已经讨论过很多了,但他们的领先节点都是,你知道,苹果手机。这意味着它现在是5纳米、4纳米节点,用于GPU。而中芯国际却没有。中芯国际必须在其7纳米领先节点之间取得平衡,你知道,华为智能手机和其他智能手机以及GPU供应。所以这里有很多有趣的事情正在发生。中芯国际的良率似乎很糟糕。我上次

检查时,我认为大约是75%左右,这在经济上并不

理想。但是当你拥有,你知道,中国政府对你进行大规模补贴时,你并不一定需要与台积电相比在经济上可行的相同良率。所以无论如何,是的,这是一个有趣的情况。而且他们确实已经非法获得了大量这些芯片。我们过去报道过很多这样的故事。老实说,这并没有让很多我与出口管制方面的人交谈的人感到太惊讶。但无论如何,这一切都锁定了。

现在让我们短暂休息一下,不再讨论芯片。我们会马上回到这个话题。但关于投资的一个简短故事,我们现在知道谷歌对Anthropic进行了大量投资。似乎谷歌拥有Anthropic 14%的股份。

尽管这没有任何控制机制。他们没有投票权、董事会席位或董事会观察员权利,例如微软在OpenAI中拥有的权利。总的来说,谷歌已向Anthropic投资超过30亿美元。所以这是一个有趣的注释,也许看起来Anthropic是与亚马逊作为其主要盟友,可以说是OpenAI和微软的盟友。

谷歌对这种竞争对手投资如此之多,至少对我来说,有点出乎意料。

是的,我的意思是,他们会对冲风险。我想,如果你是谷歌,你会考虑的一件事是,你会看看搜索GPT,你会看看困惑度,很明显搜索空间正在发生变化。迟早会有人做一些事情,以一种很大的方式来攻击你的搜索市场份额。因为谷歌拥有搜索市场的大部分份额,超过90%,而且因为搜索市场占谷歌总收入的很大一部分,所以

他们别无选择,只能确保他们拥有未来搜索蛋糕的一部分。但即便如此,是的,我的意思是,这是一个有趣的策略。谷歌和亚马逊对Anthropic的投资带来的一个后果是,Anthropic越来越依赖TPU和Tranium芯片,Tranium是什么?

亚马逊拥有的东西,而TPU是谷歌拥有的东西。我们报道过一些涉及到这方面的故事,以及在这种基础设施上进行训练的一些挑战。但是是的,我的意思是,这很有趣。这也是我们因为针对……

在这种情况下针对谷歌提起的反垄断案件而了解到的事情,是的,在这种情况下针对谷歌提起的反垄断案件,基本上调查的是,你知道,你是否控制了过多的市场?我们知道的一件事是,谷歌现在被要求在投资任何其他AI公司之前通知反垄断执法者。这是基于上周五提交的修订后的司法部提案

提出的。所以如果成立的话,这是一个有趣的先注册他们将要做什么的要求。顺便说一句,最初的提案要求谷歌完全撤销其对Anthropic等公司的投资,但这显然不再摆在桌面上。那将是一件非常大的事情,对吧?所以你可以想象,谷歌会非常强烈地反击。司法部还提出了一系列内容,包括……

强制出售Chrome网络浏览器,这仍然摆在桌面上。所以这里的论点是,政府“担心谷歌可能利用其巨额资本来影响AI公司”。所以,这并不奇怪,但仍然比通常情况下强制披露更多信息,并且有趣地注意到所有权百分比和董事会结构。

正如承诺的那样,让我们回到芯片,现在是Meta,我们得到的消息是,他们据报道正在测试一种专为AI训练设计的内部芯片。这是与台积电合作制造的,目前处于初始测试小规模部署阶段。Meta已经使用定制芯片进行推理,但没有用于训练。

我们已经报道过他们进行这种开发,然后试图基本上拥有可以与TPU竞争的东西。

所以看起来很有趣。我不知道对这种项目进行什么样的时间表预测是安全的。我想这需要多年的工程设计。所以我不知道他们进行内部测试是否表明进展非常迅速,或者其他什么。是的。

是的,我的意思是,一件有趣的事情是,我没有看到任何关于Meta与其他实体合作进行芯片设计的报道。所以他们就像,你知道,OpenAI与博通公司合作得很有名。谷歌也是,对吧,为了制造TPU。我们在这里没有看到Meta有任何迹象。所以这似乎表明他们完全是在内部进行这项工作。他们似乎认为他们的……

推理芯片已经取得了巨大的成功,这些芯片目前仅用于推荐系统。所以很明显,这是Meta业务的很大一部分,对吧?必须提供广告和内容。因此,大规模的推荐系统具有Meta跟踪的特定要求。关于这一点,我们现在处于什么阶段,要回答你关于时间表的问题。所以现在Meta完成了所谓的芯片第一次

流片。这基本上是一个门槛,你将初始设计发送到芯片工厂。这非常昂贵,对吧?数千万美元。当然,对Meta来说并不算太贵。无论如何,数千万美元,完成可能需要三到六个月的时间,不能保证最终会成功。如果失败了,

顺便说一句,Meta之前在这个阶段就发生过这种情况。他们之前在这个阶段就用过以前为同一目的设计的芯片。如果发生这种情况,那么他们必须回过头来,诊断问题,重复流片步骤,这将使他们推迟,大概会额外推迟三到六个月。

因此,他们之前制造的内部定制推理芯片在小规模测试部署之前就失败了。这就是我们现在所处的阶段。Meta希望进行这个小规模部署,看看实际情况如何。有趣的是,在他们做出这个决定之后,在他们第一次做出这个决定之后,这种内部设计在他们面前爆炸了,他们可能

不得不制定替代策略,对吧?比如,我们现在需要计算能力来完成我们将用这些芯片做的事情。因此,他们被迫向英伟达下了数十亿美元的GPU订单,这随后也使他们在这一方面有了较晚的开端。所以这是一个有趣的平衡,我们如何对冲我们的下行风险,并确保我们有英伟达的常备订单。

但同时,我们也希望独立于英伟达。所以我们需要双管齐下,投资内部芯片设计。所以是的,我的意思是,我们在这个特定芯片的情况下仍然看到推荐系统的重点,尽管计划最终他们确实希望开始使用自己的芯片进行训练。他们认为,这大约会在2026年左右。

还有一个关于硬件的故事,这次是数据中心。是关于xAI的,他们购买了一个100万平方英尺的地点,用于在孟菲斯建立第二个数据中心。这是一笔8000万美元的收购。他们似乎的目标是这个新的数据中心能够支持多达33

35万个GPU,比他们现有的孟菲斯设施中的10万个,是20万个吗?我已经记不清了。是的,最初的推出是10万个,现在他们计划是,是的,将其翻倍。所以10万或20万是完全正确的。这取决于时间。是的,关于他们正在建立的这个新设施,有趣的是,它位于……

南黑文联合循环天然气发电厂旁边,该发电厂发电量约为780兆瓦。所以问题是,好吧,当然,但是有多少电力已经被使用了?作为参考,当你考虑1兆瓦的电力时,数量级可以让你获得大约一千个GPU。所以一个GPU大约是,它略高于1千瓦。

你将要消耗的能量,这大约相当于一个家庭的耗电量,对吧?美国普通家庭。所以如果你看看780兆瓦的电力,如果你有所有这些电力可用,当然你没有,因为有工业和房屋在使用这些电力等等。但是如果你只是将其投入到GPU中,你已经可以达到由其供电的数十万个GPU,这正是你获得的35万个

大概的Blackwells,他们会在那里寻找。另一件事是我们知道的是,显然孟菲斯电力燃气和水务公司,这是一家当地的能源公司,表示xAI已经要求对高达260兆瓦的电力进行系统影响研究。所以

大概这意味着他们至少在短期内只期望使用260兆瓦。如果是这样的话,那么你看到的GPU可能更多的是大约20万个,这取决于电力使用效率和许多其他影响数据中心的因素。但总的来说,这是一个大型项目。xAI继续走在这一领域的前沿,对吧?我们还没有听到大型Stargate的公告,但是当你看到这些数字时,他们现在实际上已经与OpenAI不相上下了。

接下来是关于硬件的最后一个故事,这次是数据中心。是关于xAI的,他们购买了一个100万平方英尺的地点,用于在孟菲斯建立第二个数据中心。这是一笔8000万美元的收购。他们似乎的目标是这个新的数据中心能够支持多达33

35万个GPU,比他们现有的孟菲斯设施中的10万个,是20万个吗?我已经记不清了。是的,最初的推出是10万个,现在他们计划是,是的,将其翻倍。所以10万或20万是完全正确的。这取决于时间。是的,关于他们正在建立的这个新设施,有趣的是,它位于……

南黑文联合循环天然气发电厂旁边,该发电厂发电量约为780兆瓦。所以问题是,好吧,当然,但是有多少电力已经被使用了?作为参考,当你考虑1兆瓦的电力时,数量级可以让你获得大约一千个GPU。所以一个GPU大约是,它略高于1千瓦。

你将要消耗的能量,这大约相当于一个家庭的耗电量,对吧?美国普通家庭。所以如果你看看780兆瓦的电力,如果你有所有这些电力可用,当然你没有,因为有工业和房屋在使用这些电力等等。但是如果你只是将其投入到GPU中,你已经可以达到由其供电的数十万个GPU,这正是你获得的35万个

大概的Blackwells,他们会在那里寻找。另一件事是我们知道的是,显然孟菲斯电力燃气和水务公司,这是一家当地的能源公司,表示xAI已经要求对高达260兆瓦的电力进行系统影响研究。所以

大概这意味着他们至少在短期内只期望使用260兆瓦。如果是这样的话,那么你看到的GPU可能更多的是大约20万个,这取决于电力使用效率和许多其他影响数据中心的因素。但总的来说,这是一个大型项目。xAI继续走在这一领域的前沿,对吧?我们还没有听到大型Stargate的公告,但是当你看到这些数字时,他们现在实际上已经与OpenAI不相上下了。

关于我们最后一个故事。如果你没有一个价值1亿美元的AI初创公司,那就不算商业版块。所以我们又有一个新的。而且它又是由DeepMind X的研究人员创立的。所以他们正在推出Reflection AI。他们是两位前谷歌DeepMind的研究人员,他们获得了1.3亿美元的早期研究资金。

我没有找到太多细节。联合创始人分别是Misha Laskin和Jonas Antongolo。我不知道这是怎么说的。他们从事双子座训练系统的工作,现在他们正致力于开发超级智能,就像SSI和其他在这个领域的公司一样。他们似乎是从构建一个自主编程工具开始的。

是的,1.3亿美元的资金,不算太多钱。这让我想到思考机器,你知道,那个Miramarati的初创公司。你看到很多超级智能公司并没有筹集到像……

规模定律暗示的那样多的资金,至少名义上是这样,你需要竞争。但是,你知道,这些人很聪明。所以我们会拭目以待。顺便说一句,股权结构非常疯狂,对吧?他们的种子轮融资为2500万美元。顺便说一句,所有这些现在都在同时宣布。所以他们出来说,嘿,这不仅仅是一轮融资,1.3亿美元。我们实际上在2500万美元的种子轮融资之后又筹集了1.05亿美元。但种子轮融资是由红杉资本牵头的。

所以,基本上是地球上最好的风投公司。然后A轮融资由Lightspeed Venture Partners领投。所以,风投真的非常靠谱。然后还有其他投资者。里德·霍夫曼,对吧?领英的联合创始人。来自Scale AI的Alex Wang。这真的很有趣,因为他一直以来都是一个关注AI安全的人,包括某种意义上的失控风险等等。然后还有SV Angel,重要的是英伟达的风投部门。

所以,这是一个非常非常强大的合作伙伴。我们看到了它如何帮助CoreWeave获得GPU的分配。所以这很有趣。最新的估值是5亿美元,还不错。我会接受的。无论如何,我们会拭目以待。顺便说一下,他们有付费客户。所以这至少与安全的超级智能不同。就是这样。但正如你所说,目前还不清楚他们到底在做什么。显然只是与……

拥有大型编码团队的领域合作,例如金融服务和技术领域。非常具体。对。是的。在他们的博客文章中,他们提到,例如,想象一下自主编码代理在后台不知疲倦地工作,然后找出最慢的团队。所以即使他们说他们正在研究超级智能,但它似乎

实际上,他们正在生产一种更像是一种工具的产品,例如最近发布的Anthropic的Cloud Code。编码似乎越来越成为新的前沿,让代理去做它的事情。所以我认为这个产品很快就会问世。

接下来是项目和开源方面,我们有一些令人兴奋的新模型,首先是谷歌的Gemma 3。所以Gemma有点像Gemini的弟弟,这是该家族的多模态补充。它们的规模从10亿到270亿个参数不等。

这里的新内容是视觉理解能力。它们还涵盖更多语言,35种语言和更长的上下文,128,000个token,以及一些架构上的变化,以便能够有效地利用该上下文。

他们提到这是通过蒸馏完成的,并且正如你可能预期的那样,在预训练和微调方面都比GEMMA 2好得多。所以GEMMA,这些中小型模型中的另一个,你越来越多地看到这些200亿、270亿、120亿参数的模型

而且你看到它们的性能相当好。例如,他们说Gemma 3 27B在Chatbot Arena上的ELO评分高于DeepSeq V3,也高于Lama Free 405B。

实际上,他们在那个聊天机器人竞技场ELO评分图表上也有一个方便的插图,他们展示了运行每个模型所需的估计GPU数量。我认为这实际上是一个非常重要的维度,谷歌比我之前看到的表达得更好。他们称之为世界上最好的单加速器模型。换句话说,是单GPU模型。

当我们谈到时,我认为我们之前曾将其称为库伦科夫模型规模。基本上,你会问,大型语言模型必须有多小,才不再被称为大型?无论如何,一直存在这场辩论,对吧,如果一个模型需要如此多的硬件来运行,以至于它就不是真正意义上的开源的。

你也可以是一家大公司来运行它,对吧?所以如果你开源一个,就像DeepSeek对R1所做的那样,如果你开源一个需要几十个GPU才能运行的模型,是的,你已经开源了,代码就在那里,这很好。但是这个模型有,你知道,6710亿个参数,你知道,

你根本无法在一个GPU上运行它。那么它真的是为了人们吗?人们真的能有意义地使用它吗?答案是,我的意思是,你可以让公司运行它自己的实例,这是一种开源方式,但一切都在一个范围内。这里最大的亮点是一个GPU统治所有,一个GPU运行整个模型。我会说,当我们谈论在这个领域什么令人印象深刻,什么不令人印象深刻时,存在一种重要的区别。所以

你可能会看到DeepSeq R1,然后惊呼,我的天哪,那将近7000亿个参数。将其与Gemma 3的270亿个参数进行比较。所以只是其中的一小部分,这必须意味着谷歌只是比我们做得更好。答案是这些根本就是不同的用例。所以DeepSeq R1,当你实际上,

通过它推送一个token并进行推理时,你只使用了模型中大约350亿个参数。所以并非所有参数都被激活。它是一个专家混合模型。MOE倾向于拥有与其性能相比更多的参数。这就是它们的设置方式。

所以你通常会在更关心性能而不是托管模型的基础设施成本时使用MOE。而如果你只想压缩它,让它像在边缘运行一样,或者具有尽可能高的性能,你可能会使用较小的整体模型。所以这是这里的权衡的一部分。这些只是不同的关注点。但如果你关心的是,我想能够在我的硬件上本地运行它。是的,这确实是一大进步。而且我又喜欢这个

这句话,“世界上最好的单加速器模型”,它比我们之前听到的一些说法更好,比如世界上最好的70亿参数模型或220亿参数模型。因为这些听起来太具体了。这将其与我们真正关心的东西联系起来。这也是一个不断变化的目标,对吧?加速器一直在改进,但仍然感觉更具体更有用。

对。与这种类型的其他版本一样,你可以获得权重,在Hugging Face上运行它的代码,例如,你有一个专有许可证,允许所谓的“负责任的商业用途”。所以他们有很多你被禁止做的事情,比如说广泛地做坏事。很多限制,不像Rock,Rock 2,

所以是的,现在有很多这样的优秀的中小型模型。我认为这真正展示了当你训练像Gemini 2这样的大型模型时,蒸馏的强大之处。

下一个故事,我们有一个来自Sesame的模型,他们最近才报道过这个,他们的虚拟助手Maya,这是一种相当令人印象深刻的对话式AI,你可以与之交谈并进行一种自然主义的互动,

例如,我们已经从OpenAI那里演示过。所以我们现在发布了为该模型提供支持的基础模型CSM1B,对不起,是为该个人助理Maya提供支持的。大小为10亿个参数,可在Apache 2.0许可证下使用,这意味着你可以将其用于商业应用。这里的限制相对较少。而且

他们当然也有CSM-1B的微调版本用于Maya。所以这并不是他们在几周前发布的演示中使用的完全相同的模型,但你可以将其用作一个非常强大的入门模型来做,例如,用相对较少的数据进行语音克隆,并且它能够产生非常自然的语音。所以……

这是一个你没有太多模型能够产生真正好的输出的领域。总的来说,音频生成比LLM的开源内容更少。这当然是一个非常令人兴奋的新模型,用于该应用。

是的,它也不是一个整体模型,而是一个由多个部分组成的模型。所以你有一个基础的Llama模型,它是一种骨干,然后它与一个解码器组件配对。这就是他们微调以构建Maya的方式。所以这很有趣。他们谈到的数据是

Sesame没有透露,所以我们实际上不知道其中包含什么。他们说它能够产生各种声音,但没有针对任何特定声音进行微调。他们还说,由于训练数据中的数据污染,该模型具有一定的非英语语言能力,但可能效果不佳。他们也没有包含任何真正的安全措施。他们有一个荣誉制度,他们只是敦促开发人员和用户不要在未经同意的情况下使用该模型模仿一个人的声音。所以

酷。这是好东西。我想,写这篇文章的记者说他试用了演示。

显然,在这个系统上克隆你的声音不到一分钟。从那里,很容易根据我的意愿生成语音,包括关于选举等有争议的话题。这很有趣。顺便说一下,Sesame资金雄厚,或者至少我不应该说资金雄厚。它的资本表。看起来真的很好。所以他们有Andreessen Horowitz,Spark Capital。所以真的像顶级风投,是的,它

是的,很有趣。正如你所说,我的意思是,它是一个差异化的领域。我们将看看它能保持差异化多久。如果我们最终得到像吞噬一切的多模态模型的世界,那么他们可能会被OpenAI吞噬。但就目前而言,我们还没有看到很多这样的模型。

为了补充更多故事,回到较小的、大型语言模型方面,我们有一个来自Rekka AI的新模型,Rekka Flash 3,他们说这是一个通用的推理模型,使用公共和合成数据集的组合从头开始训练。而且

在他们的比较中,它能够与O1 Mini和QWQ32B并驾齐驱。这是一个210亿参数的模型。你知道,总的来说,不算超级强大。它的上下文长度相对较短,只有32,000。它还有一个预算强制机制,允许你限制模型的思考,

并且与Gemma 3类似,可以在单个设备上运行。所以在开源方面不算领先,但对于其他人来说是一个非常有用的模型,一个较小的模型,可以作为其他人的基础。是的。

是的,对于这些模型来说,特别是对于较小的开发者来说,我们永远无法跟上前沿能力。这完全取决于你的比较点,对吧?你选择谁作为你的对手。所以在他们所有类型的标题数字中,他们主要与,例如,带有问题的Quinn,320亿,对吧?所以论点是,嘿,几乎所有这些基准测试中,它实际上都落后于带有问题的Quinn,320亿。

但它是一个较小的模型。所以我想情况是这样的,嘿,我们用一个210亿参数的模型几乎和一个320亿参数的模型一样好。对我来说,这在令人印象深刻的程度上并不明显。我要注意的一件事是,他们……

总的来说,我的意思是,我会称这个模型与01 mini相当,01 mini发布的时间是,我的意思是,去年年底。所以当你看到开源的速度时,它落后了四到五个月。当然,01 mini是OpenAI已经保存了一段时间的模型,

对吧?而且它也是他们的迷你版,它并没有代表他们当时能够做到的真正前沿技术。但即便如此,你知道,开源落后于此类模型六到七个月,这正在缩小差距。我们已经看到这种趋势持续了一段时间。所以不仅仅是中国开源模型,现在还有各种形式的西方开源模型。所以就是这样,推理模型的兴起。

对。而且有一点,推理模型,它们确实有一些你希望推理模型具有的指标,即随着你使用更多测试时间计算,你在AIME等难题基准测试上的准确性会提高。他们在这里有这个。如果你达到20,000个token,你能够比纯输出做得更好。所以,是的。

我认为这很重要,因为也没有太多推理模型。当然,现在我们有R1,它肯定是一个非常大的模型,但作为一个较小的推理模型,它仍然很重要。

关于开源的最后一个故事。我们实际上有一篇论文,我们不会对此进行深入探讨,但仍然值得注意。该报告是OpenSora 2,以20万美元训练商业级视频生成模型。所以这份报告展示了他们如何训练一个相当高性能的模型,虽然没有达到

但相对接近,并且优于CogVideo和Hunyun Video等其他模型。并且基本上有一整套技巧,他们会经历。他们有,你知道,数据创建、训练策略、AI基础设施,大量细节,允许你以相对便宜的价格训练这个模型,你知道,20万美元。所以我认为

所以我认为看到这些深入的技术报告总是很有趣或令人兴奋的,这些报告真正展示了如何训练这种模型的细节。

是的,而且确实如此。当你查看底层时,它总是很细致,对吧?仅仅提出一种新的架构,哦,它很漂亮,这种时代可以说从未真正存在过。但现在它真的,真的不存在了。每次我们发布开源版本时,我们都能看到底层。所有这些,你知道,像优化器调整和,你知道,批处理和寻找方法来让你的加速器正常工作。

高效地重叠通信计算,所有这些事情,工程一次又一次地成为结果。所以是的,我的意思是,现在有了Sora类型的模型,这也是另一个例子。而且,你可以看到,以20万美元的预算,对吧,这是工程师的训练

如果你查看基准测试,是的,相对于其他可比的模型,它是一套相当可靠的胜率。是的,所以我的意思是,这对人们不仅训练而且微调他们自己的视频模型,并最终以超低成本进行推理的能力意味着什么,这非常重要。

接下来是研究和进展。我们从DeepMind的公告开始。他们宣布他们称之为Gemini机器人模型,这些模型以通用的方式针对机器人控制进行了优化。所以

我认为这些是建立在Gemini 2之上的,旨在真正关注机器人的推理方面。所以他们称之为Gemini Robotics。这是一个高级视觉语言应用。

动作模型VLA,它将物理动作作为输出模式来控制机器人。他们还有Gemini Robotics ER,其中ER代表具身推理,他们强调了对高级空间理解的关注,例如运动预测、物理预测,

3D空间,所有这些东西。所以他们发表了一份非常详尽的技术报告,有很多细节,很多重点放在感知方面,以及你在具身环境中非常有用的各种通用能力。

关于机器人控制的通用性,他们在过去12个月里用这些Aloha 2机器人(它们是两臂机器人)收集了大量数据。然后他们能够给它一张图像,用文字给它一个指令。

模型规划并输出代码,然后执行代码。我甚至不确定它是什么,所以它不是

与我认为Figueroa 1X宣布的那些专用控制模型完全相同。这是一种规划模型,而不是执行模型。据我所知,这不是实时的。但无论如何,对机器人领域的深度投资。他们将与他们正在进行的比较

Pi Zero的重新实现,其中Pi Zero也旨在成为这种通用的机器人基础模型。他们表明,这能够在无需微调的情况下完成大量操作任务,你只需提供物体和指令,它就能完成任务。

是的。Gemini Robotics本身,你提到了它,它就像一个双组件架构。所以他们有VLA骨干,它是Gemini Robotics ER的蒸馏版本,对吧?所以他们有这个模型,本质上是Gemini Robotics ER,它的工作是理解

世界并推理,你知道,空间信息等等。但是动作模型本身则附加了一个局部动作解码器,它运行VLA骨干。所以Gemini Robotics ER,它的蒸馏版本,在云端运行。然后本地到机器人的东西是动作解码器。

所以它在机载计算机上,模型较小,因此延迟较低。所以它针对实时控制进行了优化。他们显然有延迟,查询到响应的延迟,从之前的迭代的几秒钟减少到骨干的不到160毫秒。

如果你包含动作解码器,端到端延迟更接近四分之一秒,250毫秒。所以,你知道,这很快,就像与这些系统进行交互一样。重要的是,你知道,250毫秒意味着你能够在相对合理的时间内对所见所触做出反应。我实际上没有

记得人类需要多长时间才能对环境中的刺激做出反应。如果在那个范围内,我不会感到惊讶。但顺便说一下,这是一个监督微调模型,对吧?所以你正在查看大量数据的收集,数千小时的专家演示,他们说他们在12个月内收集了这些数据,以及大量不同的任务和非动作数据。所以这本身就很有趣。我

你通常不期望在此上下文中使用强化学习,因为强化学习的样本效率非常低。而且出于安全原因,除非你有一个非常非常高保真度的SIM到真实世界的转换,否则如果你这样做,你将在现实世界中进行一些这样的事情,那么仅仅使用强化学习就会存在安全问题。但无论如何,是的,他们说他们收集了大量关于他们Aloha 2机器人的遥控机器人动作信息。这就是用于

监督微调。结果是,我的意思是,非常令人印象深刻。它感觉有点像遵循了Godot的传统,这是一种真正多模态的模型,可以做任何事情,包括控制机器人,包括理解视频,就像试图将所有东西都塞进去以达到真正的AGI一样。从某种意义上说,这是一种非常典型的谷歌DeepMind论文。

对。他们有一些关于你可以做的事情的有趣例子。它可以做一个折纸狐狸,打包一个午餐盒。举个例子,Aloha 2的想法是这些带有一些,你知道,相对锋利的双抓手。

据我所知,硬件不太贵,但在它们能够完成的任务方面仍然相当强大。是的,我想我应该稍微纠正一下自己。据我所知,这不是一个端到端的图像到控制模型,因为有中间代码输出。但对于单个代码命令的执行,我想他们正在使用Gemini Robotics视觉语言软件。

动作模型来执行诸如抓取之类的操作,例如抓取物体或移动到特定姿势,规划阶段会输出这些姿势。所以我不相信这已经发布了。我需要仔细检查一下,但无论如何,你知道,我们用PyZero看到了这一点。这在声称是机器人基础模型方面与之非常相似。我认为还有图灵,你

和1x正在研究类似的东西,使用通用的机器人模型。所以这确实看起来在这个领域取得了相当大的进展,而且

在未来几年内拥有相当广泛的具身AI代理是完全可以想象的,这对经济影响等等具有相当重要的意义。当然。我的意思是,我还没有读过。有一篇文章谈论的是许多机器人突破对中国的影响,

我的意思是,这让我想到这一点,对吧?在我们构建真正非常好的软件的程度上,你知道,控制机器人是一个软件问题。那么很快,如果中国复制了这一点,他们会复制的,你大规模制造机器人的能力是一个关键的关键决定因素,决定着国家实力。而中国在这方面正在碾压我们。所以这将是一个有趣的线索,值得关注。

是的,甚至更多。在这个公告中包含了很多内容。他们还作为有趣的细节发布了Asimov基准测试。所以还有一篇论文叫做生成机器人宪法和语义基准测试

他们说这个Asimov基准测试是一个全面的数据集集合,用于评估和改进作为机器人大脑的基础模型的语义安全性。

所以这很有趣,我想。他们专注于安全方面,以防止Skynet发生,我想。他们还发布了另一个数据集作为其中的一部分。我认为是ERQA。无论如何,这是一个视觉推理数据集,重点是具身推理。所以有很多,你知道,变化和基准测试方法,特别是针对具身应用。

接下来,我们从机器人转向最近几个月最喜欢的主题,测试时间计算和推理。我们有一篇论文,通过元强化微调优化测试时间计算。所以这里的重点不是启用测试时间计算和推理,而是使测试时间计算使用效率更高。所以这个概念

一直是一个已知的问题。我认为你已经介绍过一篇关于这个的论文,这个过度思考的想法,你使用了

比必要的更多的测试时间计算。他们在论文中有一个有趣的图表,实际上,似乎在许多情况下,仅仅进行多数投票,所以进行许多输出,然后仅仅从许多输出中选择大多数模型的输出实际上并没有优于测试时间计算缩放。所以

事实上,测试时间计算可能不如多次使用较短计算进行推理那么有效。

无论如何,他们正在引入一种通过元强化微调来优化测试时间计算效率的方法。所以强化学习是在学习优化给定任务的奖励。元强化学习或微调能够快速适应给定任务。所以它

是一种元层,对吧?你正在学习如何在没有太多反馈的情况下高效地获得良好的奖励。他们通过在推理过程中提供密集奖励来做到这一点。所以

与处理推理模型相反。他们将测试时间计算推理步骤分成几集。他们为每一集提供奖励,这表明它代表了朝着解决问题所取得的进展。然后他们

能够训练模型来最大限度地减少遗憾,优化能够快速取得进展。他们说他们能够证明,与仅在结束时获得零或一奖励的结果型奖励强化学习相比,数学推理的性能提高了两到三倍。所以这也是一个相当重要的方面,在1.5

令牌效率方面也有所提高。是的,它反映了这种挑战,这是一种在强化学习中看到的经典探索利用权衡。我的意思是,我认为基本上在任何地方都是如此,但强化学习是最明显的地方。以及它的数学公式。本质上,在任何给定的步骤中,如果你是一个语言模型,并且你试图通过某种推理轨迹来解决问题,你可以选择,我现在是否只生成一个

输出,这在计算上非常高效,就像我不会花费很多浮点运算,我只是会快速推理,工作就完成了?或者我是否花费更多时间进行发现,进行探索,测试不同的可能解决方案,对吧?当然,探索部分很重要。我们知道这一点,因为当我们查看

像R10这样的模型,它们只是通过强化学习训练来尽可能多地推理以获得解决方案。你会看到推理轨迹越来越长,这些轨迹与越来越高的性能直接相关。所以,更长的推理轨迹确实有价值,它允许进行更多发现。但问题是,所有这些……

发现真的值得吗?就像在某个时候,你只是在反复思考不可思考的东西吗?你是在鞭打死马还是什么?字面意义上的过度思考。是的。没错。字面意义上的过度思考。不一定是因为它会产生更糟糕的结果,尽管这可能是这样,而且还因为它很浪费,对吧?这是最重要的事情。当你想到人脑时,我们的大脑进化方式,是的,进化压力是做出良好的预测,以便我们做出明智的

但也有巨大的、巨大的压力要计算效率高或能源效率高,对吧?人脑运行的功率是多少,我忘了,但它是一个令人震惊的小量能量。这通常也是AI系统和计算机之间的区别,我们面临不同的约束。所以这将是一项努力,正如你所说,

我们能否衡量每个推理块在长推理线程中,在长链式思考中,每个推理块对最终答案的准确性的贡献?而且

这可能看起来很奇怪。就像,你甚至如何衡量呢?实际上,有几种不同的方法。最直接的方法是他们只是查看,好的,在这个推理块之后,顺便说一下,在强化学习术语中,他们将链式思考中的这些推理块称为认识论。

剧集。所以在强化学习的术语中,一集就像游戏的一次游玩或类似的东西。这些剧集本质上是推理的片段。他们要做的是,例如在第五集之后,他们不会让模型继续进行第六集,换句话说,尝试另一段推理,他们有时会直接强制它从例如第五集给出答案。他们会这样做大约20次,得到20个不同的答案。

假设这20个直接从第五集跳出的答案中有20%是正确的。然后你让模型继续进行第六集,重复这个过程,让它直接从第六集生成20个答案。假设你得到的这20个答案,我不知道,有60%是正确的。

好吧,现在就像,“哇,第六集确实起了作用”。所以值得继续推理到那时。但也许第七集,你知道,一旦你重复它,它就会达到平稳状态。这让你感觉,嘿,当我们添加更多这些剧集时,当我们进行更多上下文或是的,我认为是思维链时,我们实际上并没有取得更多进展。

所以也许值得止损,对吧?所以这将是他们在实践中如何实现它的方式。他们将训练两个不同的模型来利用这些信息。他们将通过监督微调训练其中一个。这将基本上涉及为大量问题生成大量推理轨迹,并将这些推理轨迹分割成剧集,对吧?这些逻辑思维片段。

再次评估每个剧集,通过强制模型在该点给出最佳答案来评估每个剧集所取得的进展。然后最终过滤掉那些取得最大进展的轨迹。所以它们稳步改进。每一集都在前一集的基础上有了相当大的改进,然后最终得到正确的答案。我只是要保留这些推理轨迹。这意味着,

如果你仔细想想,这是在过滤那些你添加越来越多的推理步骤的情况,比如越来越多的剧集,并且每一个都对应于相当大的进步,对吧?你在这阶段之后获得一次性正确答案的能力持续上升,而这并非总是如此。有时,你知道,你会得到一个不连贯的剧集或产生幻觉的东西,等等,它实际上会使你从那里得到的输出不太可能正确。

所以他们过滤掉这些,得到一个非常纯粹的数据集,其中包含正确的答案,但也包含中间的正确或可以说是建设性的进展。然后他们将在这个推理轨迹上微调一个模型。这就是监督微调版本。他们还做了一个强化学习版本,在这些剧集中的每一个中,他们实际上不仅仅是一个一次性输出,而是部分展开。所以做多个延续。

其中一些延续会立即终止推理。他们会给出最终答案。其他的会继续下去。无论哪种情况,他们都会发出奖励,并且

这两个过程都基于相同的指标来奖励:你取得了多少进展?以及最终结果的正确性奖励。无论如何,这些都是两种根本不同的方法,我认为,我认为这里的主要见解是:我们可以将事物分解成类似于传统强化学习范式的分集格式,然后找到一种方法来评估在此过程中取得的进展。所以我认为这是一篇有趣的论文。

是的,他们确实与其他技术(如用于 DeepSeq R1 的 GRPO 技术)进行了比较,并表明,你不仅可以获得更好的性能(让我们说,不是巨大的数量,而是一致的改进),你还可以获得你想要的效率改进。

好的,接下来回顾一下我们上周没有讨论的一些内容。我们有一些系统卡。首先是来自 OpenAI 的深度研究系统卡。他们将深度研究介绍为一种多步骤技术,你可以用它来询问 OpenAI 或 ChatGPT 来回答一些问题,为你做一些研究。

它会进行大量的搜索,进行大量的分析,并最终编制一份报告。

因此,他们确实进行了严格的安全培训、准备评估和治理审查。这项新评估的重点尤其是在在线发布内容的隐私保护方面,以及训练模型以抵抗其在搜索互联网时可能遇到的恶意指令。所以基本上,现在你让你的 LLM 自己去浏览网络,你可能会有新的风险,以及模型可能被利用或越狱的方式。正如我们所看到的,已经有关于通过网站操纵进行越狱的论文。他们深入探讨了这类内容以及系统卡中他们通常的准备框架。

是的,准备框架的内容很有趣。所以,你知道,当这些模型出现时,在准备框架方面并没有真正的相对于前沿的进展。所以这次我们有这个上下文。所以 OpenAI 的准备框架基本上说,看,我们有,我认为,

我认为现在有四个不同的风险阶段或风险分类,这些模型针对每个标准威胁领域,网络、CBRN(化学、生物、放射性和核能力),然后是自主性。所以他们有

低、中、高风险分类,一旦你从中等跨越到高,他们说他们不会以这种形式发布模型。他们将采取缓解措施,直到模型的能力或与该模型相关的风险降回中等水平。有趣的是,这是第一次,所以深度研究

是第一个在网络安全方面被归类为中等的模型,这意义重大。他们在夺旗挑战赛中取得了很大的进步。所以这些是你希望让你的模型解决的问题,这些问题涉及从某个容器或某种软件环境中获取一些数字或字符序列,

这涉及破解它。所以显然它解决了82%的高中水平、55%的大学水平和47%的专业水平的夺旗挑战赛,顺便说一句,没有互联网访问。所以这里展示了相当令人印象深刻的网络攻击能力。即使这些不涉及

你知道,发现新的零日漏洞等等。现实情况是,这极大地增加了你可以做的事情,仅仅是从廉价的角度来看,你知道,你可以增加能够有效地进行网络攻击的人数,如果他们可以将其外包给像深度研究这样的东西。然后你也可以

由于这些工具,显著增加了单个网络攻击者可以完成的工作量。所以我们也看到 CBRN 方面的中等风险分类。同样,这是化学、生物、放射性和核风险。他们说深度研究可以帮助专家制定复制已知生物威胁的作战计划。这是一个重要的变化。然后他们还指出,他们的几个生物评估表明,这些模型“即将”

即将能够有意义地帮助新手创造已知的生物威胁。所以这将超过他们的高风险阈值。如果你仔细想想,这是一个相当惊人的阈值,对吧?能够有意义地帮助新手创造已知的生物威胁,而不是新的威胁,但你是新手。如果你没有任何经验,并且想知道如何,我不知道,进行炭疽攻击或类似的事情。我的意思是,大概这就是它的意思,对吧?

无论如何,他们还说,这里有一段引用,“快速增长的能力的当前趋势仍在继续”。对于模型,他们预计模型在不久的将来会超过这个阈值,进入高风险阈值。顺便说一句,自主性方面也有类似的结果,我发现这特别有趣。OpenAI 的主要策略,而现在,这是每个人的策略。这很明显。你制作的模型越来越擅长

与人工智能研究相关的任务,所以你可以自动化人工智能研究本身,这会导致模型找出如何自我改进和失去控制的风险。这是他们在自主性评估中考察的一部分内容,顺便说一句,他们与 meter 合作进行自主性评估,meter 是大型人工智能评估公司之一。

他们在这里表示自主能力的中等风险,指出自我改进的潜力。在 SWE 基准测试(这是一个软件工程基准测试)上取得了更好的性能,SWE 基准测试已验证是 OpenAI 已经清理过的版本。

他们看到了自我改进和人工智能研究加速的更大潜力。这本质上只是一种隐晦的说法,即在实验室层面进行递归自我改进。所以,你知道,帮助一个 AI 研究人员完成多个 AI 研究人员的工作。并且在一定程度上……

这意味着你可以加快构建下一代模型的速度。那一代模型然后大概会更擅长加速你在实验室内的研究。最终,这会持续下去。如果没有,砰,你就得到了奇点。这确实是所有前沿实验室的明确目标,它们在沿途做出了各种安全承诺。但这就是这里的框架。所以我们已经到了中等风险到高风险阈值的地步,这真是非同寻常,我们正在与之调情。我认为

如果你什么时候超过了这个阈值,你将会看到国家安全状况发生一些非常非常大的变化。我认为,否认失去控制是一种风险,递归自我改进是一种风险,这将变得不可能。他们确实表示,他们正在努力进行缓解措施,其中包括,“为自我泄露和自我改进风险制定威胁模型,为具有增强能力的代理模型做准备”。就像

现在正在 OpenAI 投资一样。2025 年,这是一个非常了不起的时代。

接下来,我们实际上还有一张第二张系统卡,这次是关于 Cloud 3.7 Sonnet,也是不久前发布的,但值得与我们稍后将要讨论的另一个内容一起讨论。因此,Cloud 3.7 Sonnet 系统卡是关于,你知道,Cloud 3.7 及其模型,既作为 LLM,也尤其作为推理模型。

它是在 2 月份发布的,我不知道确切的时间,也许是一周或两周前。与我们从 Anthropic 获得的通常报告一样,非常详细,有几十页要浏览,其中包含各种评估等等。我认为对我来说,这张模型卡中值得强调的是

诗篇 53.7 的思维方面引入的新内容。所以,

他们确实讨论了思维链、推理过程如何成为一种新的对齐工具,你可以通过它来获得提示或能够验证对齐。他们还评估了令人担忧的思维过程和思维链忠实度的概念。因此,思维链可能不够忠实

作为监控信号,无法判断铝是否做错了什么。我们也看到了一些其他方面的研究。所以他们对思维链的忠实度进行了一些初步调查,表明存在一定程度的潜在错位。所以他们

是的,有很多内容需要涵盖。我相信 Anthropic 将会有后续内容,更深入地探讨他们围绕思维链输出的特定想法。是的,还有跟踪,我们有 10 分钟的时间来进行这一集。伙计,我们擅长填补时间。我很快分享一件事。

不幸的是,我的意思是,很高兴能更详细地介绍。总的来说,我会说,这与 OpenAI 发布的深度研究系统卡的结果一致。是的,这里和那里有一些差异,因为重点是代理性与深度研究方面。但无论如何,他们确实看到了人类在生物武器激活方面的提升。

采集试验相当显著。与没有模型帮助的人相比,它提高了 2.1 倍。我记得当人们谈论 OpenAI 的研究时,或者抱歉,不久前发布的一项 RAND 研究似乎表明,嘿,你知道,在

然后的当前模型中没有有意义的提升,然后被 OpenAI 驳斥了,OpenAI 利用了他们可以访问没有安全措施的 GPT-4 基础版本的事实。即使是这样的事情也会产生很大的影响。以下是论文中一段有趣的引言,与我最近从 Anthropic 的人那里听到的内容一致。我们的下一个模型可能需要

ASL 3 保护措施的可能性很大。ASL 3,本质上是人工智能安全级别 3。这是 Anthropic 等效于 OpenAI 的低、中、高风险类别。他们有 ASL 1、2、3 和 4。所以 ASL 3,你开始关注那些

显示出自主性早期迹象的系统等等。但同样,对于 CBRN 方面来说,它确实跨越了高风险。同样,非常一致,对吧?我们正处于 OpenAI 所说的许多这些非常重要的风险发展的前沿。

接下来是关于政策和安全的,我们从 OpenAI 的一篇非常相关的安全论文开始。它的标题是《检测前沿推理模型中的错误行为》。或者,抱歉,论文本身,我认为他们有一篇博客文章《检测错误行为》。这篇论文的标题是《监控推理模型的错误行为以及促进模糊化的风险》。所以这个想法是……

一旦你有了这些推理模型,它们就会通过这些思维链轨迹输出大量的推理,并且

从根本上说,思维链监控可以非常有效地判断 LLM 是否正在做你不想做的事情,并阻止它,你可以说在它偏离轨道时抓住它。因此,第一篇 NS 论文表明,COT 监控可能是有效的,并且可以防止。

干预,但如果将监控集成到强化学习奖励中,那可能会首先导致更对齐的代理。但是,如果你用思维链监控进行过多的优化,代理会学习

模糊的奖励黑客行为,我认为我们一周前讨论过类似的事情,其中模型不仅会找到错误的方式来获得良好的奖励,还会模糊它们正在做的事情这一事实,使其看起来好像我们不在思维链中。他们在本文中提出了一个可监控性税的概念,通过允许思维链输出可能次优

作为一种方法,使其易于判断模型正在做什么,因此它不会优化自己以能够作弊,对吧?是的,它本质上就像模型首先学会告诉你它计划做一些危险的有创意的事情来实现其预定的目标。并且它

如果你然后说,不要那样做。最终,如果你这样做足够多,它会学会对你撒谎,说它不会使用危险的有创意的策略。顺便说一句,这是人们永远预测的事情。我会说,许多人声称这是科幻小说,不可信。我认为这是另一个不幸的时刻,对齐方面的许多人在对齐社区中都称之为。

提前多年,结果不幸的是是正确的。不必这样,但显然就是这样。因此,是的,这是古德哈特定律,对吧?每当你对一个目标施加足够的优化压力时,你都会发现危险的有创意的策略,这些策略会利用你意图和你从未告诉它不要追求的目标之间的差距,因为你从未想过它们,对吧?这就是古德哈特定律。你只是看到它发挥作用。这种具体表现方式非常有趣

这种方式显然是,你会得到这个看起来很无辜的推理轨迹,然后突然它就会做坏事。它会做你本来会告诉它不要做的事情。它只是不会告诉你它正在推理它的方式,这对我来说很有趣。这让我怀疑模型一定在支付自己的税款

因为它需要额外的计算来考虑欺骗性,但它生成的输出与推理轨迹完全脱钩。这让我怀疑最终是否会有一些隐写术,它不仅会找到一种方法来生成一个看起来无辜的推理轨迹,这样它就不会被阻止。

而且,表面上看起来无辜的推理轨迹实际上可能在其内部编码了一些思想标记,允许它以你不想让它做的那种邪恶的方式进行推理,仅仅是因为你施加了这两种压力。得到正确的答案,但也让我觉得你的推理是无辜的。无论如何,他们有这个非常有趣的……

一个图,显示了这些黑客行为,这些危险的有创意的黑客行为如何随着时间的推移在模型中演变。他们展示了手动干预,其中黑客攻击的利用率基本上由于他们抓住了它而下降到零。但随后又出现了另一个,对吧?你正在玩这些系统的打地鼠游戏。最终,如果你只是投入更多计算到你的问题中,这是一场你注定会输掉的打地鼠游戏。

这真的很有趣。他们检查了基线代理,你不会对思维链施加任何优化压力。你会发现,很多时候,并非总是如此,但大约 95% 的时间,一个较弱的监督模型(如 GPT-4-0)可以抓住这些企图进行的黑客攻击。

并将其击落。顺便说一句,随着时间的推移,尝试进行的黑客攻击的数量会越来越多。这仅仅反映了这样一个事实,即黑客攻击几乎从定义上来说,比正确的解决方案更容易实现。因此,存在实际的直接压力。这不仅仅是这些是平等的,这些是平等的解决方案。有时它会使用恼人的黑客攻击。有时它会使用你想要的解决方案。不,随着时间的推移,模型的

将收敛于危险的解决方案,因为它更有效。它需要的计算量更少,或者反映了模型面临的其他压力。所以从根本上来说,顺便说一句,这就是失去控制的论点。就像,看着

这些经验结果,得出我们不会走向至少在某些情况下这可能是一个实时风险的结论,这非常非常困难。所以我认为这是一项伟大的研究,很高兴看到 OpenAI 发布这项研究,并且非常公开地谈论它,特别是考虑到人们对他们的对齐计划的一些其他疑虑。

是的,顺便说一句,在这种情况下,所讨论的黑客行为集中在 AI 需要通过单元测试的示例上。所以在 Python 上下文中,它可以做各种错误的方式,基本上黑客攻击环境本身,以便能够获得及格的分数,而无需实际完成任务本身。是的。

下一个是关于中国根据《华尔街日报》的报道,告诉其人工智能领导人避免前往美国,原因是安全问题。所以故事大致是这样的,显然中国领导人担心

人工智能专家出国可能会泄露机密信息,他们可能会被拘留并用作讨价还价的筹码。我必须说,我的意思是,这种情况已经持续了一段时间,但在人工智能领域,在中国有很多研究人员,很多会议等等,当看到这些故事时,它开始变得有点紧张了,也许吧。是的。

是的,当然。我认为这里有一些投射,因为这正是中国过去使用的游戏计划。所以有一个著名的案例,中国扣留了,我想是两个加拿大人,加拿大公民,这是他们与中国的谈判的一部分。

加拿大,我忘了什么。然后与之同时,应华盛顿的要求,一名华为高管在加拿大被拘留。这是在特朗普第一届政府期间。我认为这是,哦,上帝,五月什么,我忘了。但无论如何,我认为她最终被送回了中国。所以在这个案例中,你知道,你能说战争状态吗?我的意思是,这正是你,你期望在国家开始将人工智能视为

本质上是一种准大规模杀伤性武器,当然是一种关键的战略国家安全技术时看到的情况。这里的细节是……所以你有当局劝退人工智能和机器人等其他具有战略意义的敏感行业的领先本地公司的管理人员前往美国及其盟国,除非紧急情况。如果他们必须……

他们被指示在离开之前报告他们的计划,并在返回后向当局简要介绍他们做了什么以及他们会见了谁。所以我们显然回顾一下,这可能与梁文锋有关,也就是 DeepSeek 的创始人,他拒绝了 2 月份参加巴黎人工智能峰会的邀请。所以推测这是否可能是

由导致中国做出这一声明的基本上相同的肌肉运动引起的。出现了许多类似的事情。显然,习近平在这个聚会上告诉了一群人,这是一个著名的聚会,梁文芳和中国人工智能界的许多其他人都参加了。他告诉他们要坚持“民族责任感”,因为他们正在发展自己的技术。这是一种相当有趣的准国有化语言,尽管它与中国共产党在处理这些事情时更广泛的基调是一致的。

所以有一种解释认为,好吧,中国似乎正在为人工智能领域的一些重大对抗性竞争做准备。这当然与中国过去所做的完全相反,对吧?他们过去一直说,不,去吧,去美国,吸收他们所知道的一切,把它带回这里。这现在表明,你知道,也许是一种稍微不同的态度。它也可能是,你知道,

这里可能是一个肯定的答案,即中国人才外流的问题。近年来,尤其是有很多富有的中国人移居海外,其中包括研究人员。所以你可能会担心这一点,但这两件事可以同时成立。这是一个相当相当不祥的迹象。坦率地说,我认为这被低估了,就像你在某个关键技术领域发生重大国际冲突之前看到的事情一样。

对。并且与之相关的说明是,OpenAI 确实向科学技术政策办公室提交了一份政策提案,基本上说他们应该认真考虑禁止来自他们所说的国家补贴或国家控制的实体等的科技。

也许指的是 DeepSeek。所以 OpenAI 看起来也越来越把自己定位为反对中国的鹰派,我想。是的,你会看到所有可预测的反弹,或者 OpenAI 以其理由反驳开源模型,好吧,国家补贴。但当然,OpenAI 的全部前提是,好吧,你想开放事物,以便任何人都可以使用人工智能,它不会全部集中。

对 OpenAI 的类似怀疑,我认为 OpenAI 出来使用 DeepSeek 作为理由说,嘿,我们需要给予美国的人工智能公司这项合理使用豁免权,以便他们可以在专有数据上进行训练,因为我们与中国存在竞争。无论如何,这是一个整体的毛球。但顺便说一句,这是对特朗普政府在制定其人工智能行动计划时发布的信息请求的回应。所以,你知道,我们会看到这一点。我认为那是大卫·萨克斯,他名义上负责这项工作。

这就是本集的全部内容。不到两个小时,但鉴于没有什么特别大的事情,我们确实使用了大量时间。非常感谢您的收听。与往常一样,您可以访问 lastweekin.ai 获取我们的文本通讯,其中包含我们尚未涵盖的更多文章。与往常一样,请订阅。如果您没有,请分享和评论,并给我们反馈,让我们知道我们如何改进。但最重要的是,一定要继续收听。

收听,收听,新闻开始了,是时候打破,打破它了,上周末人工智能来了,搭车吧,了解科技的低迷之处,让它滑落,上周末人工智能来了,搭车吧,我是一个实验室到街道,人工智能正在攀登高峰

♪ 新兴科技,看着外科医生飞翔 ♪ ♪ 从实验室到街道,人工智能正在攀登高峰 ♪ ♪ 算法正在塑造未来的海洋 ♪ ♪ 收听,收听,轻松获取最新信息 ♪ ♪ 上周末人工智能来了,搭车吧 ♪ ♪ 了解科技的低迷之处 ♪

从神经网络到机器人,头条新闻不断涌现

数据驱动的梦想,它们永不停歇。每一次突破,每一行未编写的代码。在变革的边缘,我们兴奋不已。从机器学习奇迹到编码之王。未来正在展开,看看它会带来什么。