您好,欢迎收听本周人工智能播客。我们将一起聊聊人工智能领域的最新动态。和往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻。您可以访问节目说明或lastweekinai.com 获取所有新闻报道和时间戳的链接。
我是你们的其中一位主持人,Andrey Krenkov。我在研究生院学习人工智能,现在在一家名为Astrocade的生成式人工智能初创公司工作,Discord上有人提到了这家公司。我实际上从未说过我的名字。哦,是的,这是真的。我们对外公开的信息不多,这就是我不说名字的原因,但很快就会有消息了。很快我们就会有一些自己的新闻可以分享,这将非常令人兴奋。太棒了。好的。
很高兴知道。是的,我是Jeremy Harris,另一位联合主持人,Gladstone AI(一家专注于人工智能国家安全领域的公司)的联合创始人。我已经离开多久了,三个星期?几个星期,几周。是的,这段时间很疯狂。我们将在……实际上是4月20日左右推出一些东西。现在我们只是将其推迟了
原因。您有望了解更多关于我为什么这段时间一直不在的原因,希望它是值得的。让我们拭目以待。无论如何,是的,我很高兴能重回正轨。这周很有趣,对吧?我的意思是,不像上周那样有很多,我的意思是,上周对于新模型的发布来说是重要的一周。本周,我认为有一些非常有趣和有影响力的事情,但数量不多。
是的,快速预览一下本期节目内容,我们将介绍阿里巴巴的一个令人兴奋的新模型,我认为这将结束一系列新的推理模型、新的大型模型、新的尖端模型等的发布。
除此之外,我们将回到通常的新闻报道中,包括一些面向消费者的新品,例如Alexa Plus,一些商业交易,相当多的开源版本,重点是基准测试,以及来自DeepSeek的一些非常酷、不同寻常的软件。然后在编码领域。
在研究方面,我们将再次讨论推理,这已经成为研究的主要焦点有一段时间了,但也会讨论诚实和准确性,这将很有趣。政策和安全主要将涉及一些新模型的细节。当然,还有一些关于出口管制的内容。
但在我们开始之前,我们一直在考虑,Jeremy,你错过了我们讨论GPT-4.5、Cloud 3和Grok的那一期节目,如果我们可以快速回顾一下这些版本,可能GPT-4.5是最有趣的一个,因为有一种说法认为它有点令人失望,而且似乎表明……
纯粹的无监督扩展的局限性,你知道,推理现在是让我们在性能上取得真正巨大飞跃的东西。目前尚不清楚无监督推理本身是否真的值得投资。
是的,这非常有趣,因为这种情况在每一次迭代中都会出现。我认为这里缺少一些细微之处。首先,我们必须谈谈“模型气味”的概念,对不起,不是代码气味,对不起,“模型气味”。是的,过去是代码气味。我年纪够大,还记得20分钟前,我们关注的是代码气味。但是,是的,所以基本上,我们生活在一个
随着预训练计算的每一次迭代,所以随着预训练中投入到系统中的浮点运算次数每增加10倍,也就是数量级的增加,你就会得到一个更好的模型。过去,你会得到一个明显更好的模型,对吧?GPT-2几乎无法连贯地组合三个句子。然后是GPT-3,我认为这大约是计算量的100倍,但仍然如此,我明白了。
突然之间,就像,你知道,完整的段落和文章。然后GPT-4让你可以创作页面长度的内容甚至更长。你可以清楚地分辨出什么是GPT-2,什么是GPT-3,什么是GPT-4。问题是我们已经在图像生成系统的背景下讨论过这个问题了,对吧?到了某个点,很难分辨出哪个更好,对吧?比如,给我看看Midjourney的最新更新。
给我看看任何图像生成系统的最新版本,它们基本上都是逼真的,你必须非常专业才能捕捉到这些模型的“气味”,如果你愿意的话,这些模型的“气味”,这种非常深奥、抽象的概念,我无法完全理解。但是如果我足够多地使用这个模型,我可以感觉到引擎盖下有更多的智能或能力,对吧?
是的,完全正确。我们正在谈论,有气味,也有氛围,这通常……当你发布模型时,你会查看基准测试,通常你会得到一些数字,但很难判断这些基准测试的含义。因此,你通常只想看看尝试后的氛围。例如,Andrej Karpathy发布了对Grok 3和GPT 4.5的评估,以及……
给出了他的看法。这是一个类似的方面,你需要一个非常非常专业的基准测试来展示差异。你需要亲身体验和报告,才能比较不同模型之间的差异。这也很有意义,对吧?因为从根本上说,预训练是关于什么的?它是关于能够以非常高的精度预测下一个标记,对吧?这意味着一旦你在这方面做得非常非常好了,你一定对这个世界学到了很多东西。至少,这是这个理论。
所以挑战在于,你的提升从哪里来?你的性能提升在这个指标上的提升从哪里来?一旦你达到GPT-4,一旦你达到GPT-4。哦,好吧,它必须来自越来越多的利基事物,对吧?它必须来自,我不知道,像生物学之类的,或者像历史上的某个利基领域之类的东西,对吧?所以
这是其中一个方面。另一个方面可能是你对逻辑和归纳等方面有所改进。所以有趣的是,我们正到达这样一个点,几乎很难通过阅读这些模型的输出进行定性评估。我会说定量地。当你查看Chatbot Arena时,GPT 4.5就在榜首,与GROK 3一起。所以当人们实际上大规模地被要求评估这些系统的性能时,
在许多情况下,他们可以分辨出其中的区别。你会看到Karpathy和其他一些人发布的报告,他们也暗示了类似的事情。
但我认为预训练的主要价值现在不仅仅是你得到的模型。顺便说一下,这就是我们在播客中谈论DeepSeek v3时如此轻松地做出判断的原因,我们说,DeepSeek即将取得重大的推理突破。这太容易了。当时没有人关注它,但你可以根据基础模型的强度判断推理模型的优劣。
基础模型并没有好多少,就像相对于其他基础模型的百分比一样,因为它越来越难了,对吧?当你越来越接近这些基准测试的100%时,是的,你就像在攀登下一个百分点,这意味着要更多地了解这个世界。无论如何,这都是其中的一部分。它会产生一种错觉,即你有一个系统正在饱和,并且没有给你带来任何投资回报。但是当你应用适当数量的推理时间计算时,你突然解锁了巨大的进步。
最后我想在这里强调的是这种直觉。这是一个有点玩具化的图片,并不完美,但如果我给你,你知道,一百个小时来做测试,你可以选择,你知道,你是否花费99.5个小时学习,然后半小时做测试,或者你花费80个小时学习,然后20个小时做测试?模型,像V3、像GPD 4.5这样的基础模型,基本上只是花费99
就像,你知道,除了最后一分钟,除了最后一秒之外都在学习考试。然后他们花一秒钟在测试时间里实际进行测试,对吧?这就是基础模型的真正含义。毫不奇怪,你会在某个点达到饱和,你只能从预训练中获得更多杠杆作用。但是当你打开时,当你允许模型在测试时进行推理时,就像,哇,太棒了。在过去几个月,可以说是几年中的一项重大发现是
一直以来,扩展并不仅仅意味着提高你的预训练计算量。这意味着要同时提高你的推理时间计算预算,并将它们一起提高。当你这样做时,你基本上是在跳跃曲线。这就是无限持续下去的原因。因此,这可能会导致,或者我应该说,这很可能会导致很多人做出我认为非常错误的判断,哦,我们正在饱和
一般意义上的扩展,而实际上发生的事情是,是的,如果你不做任何推理时间计算,是的,你在预训练。你基本上就像你已经尽你所能为考试学习了。现在是时候花更多时间实际做考试了。
所以我想这就是这里的大事。OpenAI如此自信地说GPT 4.5将是我们的最后一个,基本上是我们的最后一个自动回归式直接的,你知道,文本自动完成模型,这并非巧合。从现在开始,它将是推理模型。为什么?因为经济学不支持在预训练上花费更多时间,而不是在推理上。扩展曲线是推理和
训练时间的结合。所以我想这就是我对这些事情的总体看法。我认为我们将继续看到改进。我确实会警告不要仅仅根据GPT 4.5来押注扩展趋势。好吧,我认为有一些细微之处,我们将继续讨论,但我只想补充几点。这是一个有趣的话题。我想一个重要的问题是,
在扩展模型规模方面,我们是否已经达到上限了,对吧?这实际上是未知的。我会说,像GB 4.5就是一个指标,表明我们没有模型大小。人们猜测可能再增加10倍,也就是10万亿个权重。我不知道。但根据成本,根据它的速度,它似乎是一个更大、权重更多的模型。而且
这样做导致了与GPT-4.4相比相对渐进的变化,正如你所说,
这确实是有道理的,因为一旦你变得聪明,一般来说,在回答方面就会有一定的难度。你知道,我之前强调了这种情绪智力方面,这可能意味着,你知道,它在如何以语气、回应的深度和细节来回答特定问题方面,在细致的推理方面要好得多。但这些是你无法衡量的。
所以这是一点。然后另一件事是,正如你所说,我们发现,对于基础模型来说,只需要一点点训练,不需要太多训练,就有一种潜在的推理能力,可以有效地进行推理时间扩展。因为一般来说,据我所知,你可以用基础模型进行推理时间扩展,但它远不如对它们进行额外训练以使其能够进行强大的推理那样强大。我们看到的是
只需要进行一点点额外的训练,你就可以从基础模型中获得20%、30%的改进。所以看看你是否可以用GPT 4.5之类的东西获得相同水平的改进,这将非常有趣。然后当然还有蒸馏问题,你再次看到,对于基础模型来说,你可以采用一个非常智能的模型,并将这种智能提炼成更小的东西。我也认为这可能是继续训练更大模型的原因。而且
这将发生变化。所以,你知道,例如Cloud 3 Opus,没有人真正使用它,因为它太大了。查询它非常笨重且昂贵,对吧?这是这些超大规模基础模型的问题。当我说超大规模时,我的意思是参数数量很大,正如你所说,实际上,实验室所做的是,是的,他们将这些模型蒸馏成更小、更小的规模,这样在推理时间上的成本更低。这在世界上是有道理的。
你基本上说,看,我不感兴趣制作一个,你知道,像一个计算最优的模型。我不感兴趣制作一个对于给定计算预算来说足够大的模型。就像你增加计算预算一样,理论上你应该增加模型中的参数数量。这两件事应该同时扩展。这就是缩放定律所说的。但是增加模型中的参数数量意味着增加了推理该模型的成本。
所以你经常会看到人们实际上会说,不,我会人为地使我的模型比它应该的小。我会故意牺牲性能,因为如果它每天被查询数十亿次,那么后端的成本会更低。
所以,这实际上在你进行推理时将是另一个计算,因为用这些模型进行推理意味着要多次查询它们。所以你更多地是在推理时间运行它们。所以经济学,基本上你所做的是,你实际上是在用训练时间换取推理时间计算,对吧?或者你是在权衡这两个不同状态下的性能。所以,
是的,总之,有很多话要说。但总的来说,我的意思是,是的,我认为现在押注扩展是,我不会这么做。但我认为我不会押注扩展。但是,关于在预训练中增加模型权重计数的传统扩展,这是一个有趣的情况。我想当我提到扩展时,我通常指的是计算。我认为大多数人都是这样想的。但你是对的。肯定有这两件事。是的。
好吧,有很多话要说,但我们必须继续讨论实际的新闻。本周的新内容,从工具和应用程序开始,非常相关。我们的第一个故事是关于Qwen-32B的。这是阿里巴巴的。这是他们的新模型,与DeepSeek R1一样好,而且很棒。
似乎优于OpenAI的O1 Mini。所以这在某种程度上与R1非常相似。他们使用了他们的基础模型,我猜是Qwen-Max,大约一个月前发布的。他们进行了一些额外的训练,使其成为一个使用强化学习的推理模型。然后他们发现它能够在所有这些基准测试中达到DeepSeek R1的水平,有时略好,有时略差,几乎相当。而且
我们知道的不多。他们没有发表论文,但在他们的简短博客文章中,他们确实表示,这在方法上似乎非常相似。他们从他们的模型开始,在编码任务和数学任务上对其进行训练,在这些任务中,你可以使用硬编码规则自动验证答案,而无需任何训练的奖励模型。你只需要,你知道,专门在编码和数学上进行训练,因为很容易用一些硬编码规则来评估你的最终答案。
你也会进行一些额外的训练,我认为这很有趣。R1有这个两阶段的过程。这个也有这个两阶段的过程,你从纯粹的编码和数学开始,然后在一般问题上使用强化学习进行一些更广泛的训练。他们使用了一个训练的奖励模型。所以,我们对这个模型的了解也就这么多,但是是的。
我认为这再次表明,如果你有一个好的基础模型,那么获得一个好的推理模型似乎并不难。当然,这也是阿里巴巴的一个重大公告。他们已经将其添加到他们目前的聊天平台上。他们还发布了权重,他们的股票上涨了,我忘了,5%、10%,基于这些新闻上涨了一定数量。
是的,它似乎是一个高性能的模型。现在是……我们是什么时候?大约是1月20日。所以大约在DeepSeek之后两个月,你知道,各种其他事情也会延迟这些模型的发布。所以很难确切知道训练运行何时停止,但它们似乎紧随其后。是的,几点说明。我的意思是,他们非常重视
这个模型相对于DeepSeek和DeepSeek R1的参数数量。所以这实际上与我们刚才的谈话有关。这是一个320亿参数的单体Transformer,而DeepSeek是一个,我不知道,6000多亿参数。他们有大约370亿个激活参数。所以DeepSeek R1是专家混合模型。基本上,你知道,查询进入,或者提示进入,它会被馈送,或者逐个标记,也就是说,它会被馈送到
几个专门的专家模型。然后还有,无论如何,总有一个专家会被查询。这是一个整体。去看看我们关于这个主题的节目。但底线是,每次你推理DeepSeek R1时,模型中绝大多数参数实际上并没有参与生成最终输出。
因此,每次前向传递只有370亿个激活参数。这与320亿形成对比,对于这个模型来说是一个较小的数字。但是在这个模型中,每次都会激活每一个参数。所以很难进行苹果与苹果的比较。另一件事是。
拥有一个较小的模型要方便得多。320亿个参数意味着你需要更少的RAM来保存模型。是的,要求更低。所以这是一个应用程序级别的因素,对吧?如果你是一个想要使用这个模型并做一些事情的人,工程师,那么肯定,你知道,Qwen-32B可能会比DeepSeek R1更有趣,因为它只是更小,你知道,你需要更少的RAM,更少的基础设施。但从科学的角度来看,当我们问自己……
阿里巴巴相对于DeepSeek落后或领先多少?在我们知道为此投入的计算预算之前,我们实际上无法完全知道。看,它可能是一个较小的模型,但它可能比DeepSeek R1过度训练得多。在不知道这一点的情况下,很难知道。阿里巴巴肯定有更大的计算集群来处理这类事情。你知道,DeepSeek至少对于R1来说,你知道,你说的几千个GPU。所以,
总而言之,如果你对阿里巴巴与DeepSeek的竞争格局感兴趣,不知道关注哪个。在我们知道这些计算数字之前,这里没有什么可以深入研究的,这些数字可能会也可能不会公布。我们知道的一件事是,所以他们说我们已经将代理相关的功能集成到推理模型中,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整其推理。所以大概有一些
监督微调在这里最合适,用于工具使用。一些SFT阶段,它不仅仅是预训练然后直接到RL,DeepSeek R1.0就是这样,但DeepSeek R1不是。DeepSeek R1确实进行了一些监督微调,你明确地训练模型使用某些工具或以某种方式行事。在R1的情况下,我认为更多的是以特定方式或可理解的方式进行推理。所以无论如何,这是一个有趣的模型。基准测试确实表明,至少是他们发布的那些,
它们是可信的基准测试,是的,这与R1相当,有时略好,有时略差,具体取决于情况。但阿里巴巴肯定至少吸收了DeepSeek的许多经验教训。如果DeepSeek无法获得像阿里巴巴那样多的计算资源,我不会惊讶地看到他们接过接力棒并大步前进。这将成为一个非常有趣的竞争优势。
为了补充一下概述,更准确地说。所以时间线是他们在1月下旬发布了Qwen-2.5 Max。这是他们的前沿模型。他们当时还发布了Qwen-2.5-1M。这是长推理。然后
就在几周前,他们发布了Qwen-Max,Qwen-Questions。这也是一个推理模型。当时,他们将其发布到QwenChat并进行了推理。这里与Qwen-32B的区别在于,A,正如你所说,它更小。Qwen-Max也是一个基于Qwen-2.5 Max构建的MWE模型。这个更小。
似乎更小,在博客文章中,他们确实强调了这个模型是用强化学习训练的,大概Qwen-Max是用监督学习在其他模型的推理轨迹上训练的,而这个模型是从基础模型通过RL训练的,并使其与其他推理器的性能相匹配。
接下来是下一个故事,我们有一个实际的产品发布公告,而不仅仅是一个模型。它是Alexa Plus。所以亚马逊做了一个演示。这还没有发布,但他们确实概述了下一代Alexa,它将集成聊天、GPT、聊天机器人类型的智能。
所以他们将有很多新功能。显然,你可能可以与它聊天,但它可以执行各种复杂的任务。比如,我不知道为什么人们喜欢用它来预订餐厅和管理旅行。比如,你为什么想要一个聊天机器人来帮你预订航班?但无论如何,他们确实举了这些例子。它可以记住你告诉它记住的事情,然后它可以做一些聪明的事情
基于此的事情。他们还发布了一个改进的Alexa应用程序和一个Alexa.com网站,这些将捆绑在一起,并包含多模式功能。所以,如果你有一个集成的亚马逊摄像头,Alexa似乎能够查看视频馈送并回答有关该数据馈送的问题。
所以集成了一堆新功能,它似乎将以每月20美元的订阅价格来使用智能Alexa。是的,亚马逊现在越来越像苹果了。
在某种程度上,关于这种扩展宇宙,你知道,他们没有发布他们自己的模型,他们更专注于利用第三方构建的模型,然后将它们集成到他们的硬件中。这实际上听起来非常非常像苹果的做法。不同之处在于,亚马逊在硬件方面,凭借其Trainium芯片,比苹果在其某种奇怪的产品组合方面更有优势。
某种更面向CPU的数据中心基础设施,这是我们应该在某个时候讨论的事情。但是是的,所以这基本上是亚马逊在说,看,我们更像是一个平台,用于这些模型。在某个时候,他们将拥有自己的模型。他们有一个内部的AGI团队,我们之前讨论过,但看到他们寻求第三方模型很有趣。这是有道理的。你越把自己定义为一个平台,你服务的硬件就越多,而不是软件,你想要使补充产品商品化,对吧?这是一个经典的例子
微软的做法,PC非常便宜,但你知道什么很贵吗?软件,对吧?所以如果你从事软件开发业务,你希望使PC非常非常便宜,并使人们很容易达到他们为你支付好东西的地步。在这里,好硬件的补充,这有点相反。如果你是一家硬件公司,你希望使LLM商品化,让OpenAI与Anthropic竞争,与谷歌竞争,与谷歌竞争。
然后你就可以让这种竞争在你的平台上展开,降低语言模型的价格,提高价值,然后你的硬件突然变得更有价值。所以我认为这就是这里的策略。我也很好奇,从模型的角度来看,你知道,如果他们能够解锁这一点,那么对亚马逊来说,有什么优势呢?只是更多的数据流过,他们能否利用这一点在模型方面具有竞争力?但就目前而言,这很有趣。亚马逊在Alexa方面确实遇到了困难。比如,
我们听过所有的笑话。这绝对是一个需要改进的产品。所以也许这会做到。没错。他们确实提到这是基于Amazon Nova模型构建的,但他们也可以利用Anthropic的模型。
我认为他们还提到了Alexa.com作为一个新的网站,这似乎基本上就像一个ChatGPT,就像一个聊天机器人界面。你可以上传文档。你可以访问聊天机器人。
还有一点要提到的是,除非你是亚马逊Prime会员,否则你需要支付月费。所以在某种程度上,它与X很相似,如果你已经身处亚马逊生态系统中,这可能是你选择的LLM。你只需使用Alexa.com,因为这是你订阅中已经包含的内容。
我认为,从这个角度来看,亚马逊或许有机会真正参与纯粹的聊天机器人领域,除了它的智能硬件之外,还有更多理由使其变得更有用。
接下来,我们还有另一个即将推出的东西的演示。文章标题是“另一个DeepSeek时刻?通用AI代理Manus展示了处理复杂任务的能力”。这是一个网络演示。他们在X上发布了视频,现在……
提供仅限邀请的网络预览。这似乎是对代理领域的又一次重大投资。类似于Cloud Code,你可以赋予它一个非常大的任务,比如开发一个网站,开发一个
应用程序,它会持续一段时间,可能会持续几分钟,甚至可能几十分钟,它可能会产生10美元的推理成本。但最终,它实际上可以输出一个完全可用的网站。这与我们展示的内容并不太独特,但它也表明,
整个代理方向,也就是2024年的大部分焦点,终于开始融合在一起了。是的。另一个中国公司也朝着这个方向发展。所以,是的,这将很有趣。目前,代理的警戒线肯定正在上升。我认为最大的问题将是,
他们能否调动足够的计算能力,使其与西方代理商竞争,西方代理商基本上拥有无限的英伟达GPU,但更接近无限,
因为在某种程度上,问题是,好吧,你已经证明你可以获得推理时间计算的起飞。但现在你必须想象,在我们说话的时候,西方的每一台GPU集群都围绕着推理时间计算是一个重要问题的论点而重新调整。因此,与其向他们投入O3 mini或O3级别的推理时间预算,不如让我们看看,当我们在工业规模上尝试时,情况会是什么样子,
尝试像我们对预训练所做的那样提升它。我认为在几个月后我们才能看到这一代代理,然后我们将能够更好地了解美国和中国在这方面的长期或中期均衡是什么样的?但显然,Manus声称根据一些专注于通用AI辅助的基准测试,其性能甚至超过了OpenAI的深度研究。所以这是一个有趣的突破。
是的,这也是一个有趣的发布。他们基于X上的这篇文章获得了大量的关注或宣传。这是一家小公司,Butterfly Effect只有几十名员工。因此,这里也有一些怀疑论者质疑这个公告的真实性。但无论如何,它也表明了我们目前更广泛的状况。
接下来是微软的消息。它是Dragon Copilot,这是一个用于医疗保健的AI助手。这里的主要重点是收听临床访谈并创建笔记。本质上,它就像一个可以用于语音听写和对话收听的AI,是一个环境监听器。
微软实际上收购了一家名为Nuance的公司,该公司专门从事环境监听和语音听写。
然后它可以为医生创建笔记。我们已经看到这个想法有一段时间了。我认为我们已经报道过很多关于AI作为医生记笔记的潜在用途的案例。另一个例子是,现在微软提供了它,它可能是一个相当成熟的产品。
是的,一如既往的挑战在于医学领域,医生们通常不愿使用新技术。尤其是,我会这样说,我的很多朋友都是医生,我和他们进行过这样的对话。自尊心在医学领域扮演着非常重要的角色,尤其是在医生中。因此,你会看到AI模型的推出,这些模型可以说会产生最终诊断,但是
最近有一项研究,我不知道它是否可能在我离开的那一周进行的,但这很有趣。我和我的一些在医学领域的朋友进行了一些有趣的对话。事实证明,如果你让一位医生与(我忘了他们测试的是哪个模型,我认为可能是4.0),如果你让医生单独使用微调的4.0或微调的近似前沿模型,呃,
会比模型本身表现更差,也比医生加模型的表现更差。这实际上非常有趣。也就是说,使用模型的医生比单独使用模型表现更差,
从字面上看,这是医生基本上平均采用模型给出的正确答案,然后说:“不,不,那不可能是对的。”诸如此类,我在这里显然为了幽默而略微夸张了一些,但在很多情况下,幕后都会发生类似的事情。这是该领域心理学的一部分。所以,非常具有挑战性。这就是为什么你会看到像这样的应用程序,它们是,你知道的,不武断的。我只是做笔记。我只是一个在后台默默工作的机器人,不会告诉你如何工作。
出于文化原因,我认为这可能是目前一个相当不错的用例。是的,我认为是这样。我们看到一些研究表明,这种技术有助于减少临床倦怠,并帮助患者获得更好的体验,而且幅度相当大。这已经被证明了。
在九家医院和其他一些与Wellspend Health合作的临床场所进行了测试。因此,看来他们已经在测试这个,并且它将在5月份在美国和加拿大普遍发布。所以这将很有趣,看看现在我们将开始去看医生,如果他们会开着录音机。我不知道。
接下来是Mistral的新产品,它是他们的OCR API。OCR是光学字符识别。它基本上是查看照片或PDF,并将照片或页面扫描件等中的实际文本转换成文本。并且它
近年来,我们在骨关节病学方面取得了长足的进步。Mistral提供的这个产品基本上是
你可以通过API使用的一个版本。他们说这可以帮助LLM使用和讨论PDF和扫描件,而这些东西对于纯粹的多模态推理来说,LLM可能并不擅长。
接下来是应用和业务。我们还没有谈到Anthropic,所以我猜现在轮到他们了。我们也有一段时间没有谈到有人获得数十亿美元了。所以现在也发生了这种情况。我们已经报道过的Anthropic公司在过去几个月一直在进行融资,现在已经完成了这一轮融资,估值达到615亿美元。
这比一年前的160亿美元有所上升。他们在这一轮融资中获得了35亿美元。由Lightspeed Venture Partners领投,并且
这使得Anthropic现在已经筹集了超过148亿美元。就我记得的而言,远不及OpenAI,我记不清他们获得了多少数十亿美元并用掉了多少。但这又是一个指标,我认为Anthropic仍然是该领域OpenAI的主要竞争对手。
是的,当然。我认为最新的消息是OpenAI正在洽谈以3000亿美元的估值进行融资,当然,这是否会实现还有待观察,但这也很一致。你知道,在过去的一段时间里,他们的估值一直比Anthropic高出四到五倍。所以这种情况
表明两家公司的增长曲线都比较稳定。也许并不太令人惊讶。许多新投资者加入了这一轮融资。这是他们的E轮融资。General Catalyst、Jane Street、Fidelity、Okkin、Menlo都是他们之前的投资者,还有Bessemer。所以,我的意思是,这些都是非常高质量的风投公司。这也不足为奇。他们声称他们最初计划筹集20亿美元,但最终
获得了超额认购。这可能是真的。这也是你经常会看到的一个技巧,人们会说,嘿,我们正在筹集这么多钱,你给的钱比你实际想要筹集的钱要少,这样就能制造出害怕错过(FOMO)的现象,从而吸引更多投资者。但是
无论如何,这都是一笔非常大的融资。他们现在是美国最大的私营公司之一。想想OpenAI和SpaceX的3000亿美元估值。在这个范围内,包括600亿美元的门槛,这样的公司并不多。所以非常有趣。是的,我们会看到,显然,每次你看到这种情况时,他们都会利用这笔资金来开发下一代AI系统并扩大其计算能力。所以,就是这样,更多的GPU。
接下来,我们有一个IPO故事。英伟达支持的CoreWeave已经提交了IPO申请,并报告了2024年19亿美元的收入。CoreWeave是一家由英伟达支持的云计算提供商,他们计划通过IPO筹集40亿美元,目标估值为350亿美元。
所以这是云领域的一个参与者,他们自2017年以来就从事加密货币挖矿业务。我想现在他们打算成为AI基础设施建设的一部分。是的,进行IPO的一个优点是,你最终会公布你所有自我评估的弱点和差异化因素等等。所以我们对他们的情况有了更多了解。
事实证明,2024年约77%的收入来自其前两大客户,其中一个是微软。顺便说一句,微软显然占总销售额的三分之二。这是一个相当不平衡的情况,这是一种结构性风险。我们也看到其他类似的云公司也出现了类似的情况。这就是游戏规则的本质。
是的,我的意思是,在此之前,他们已经获得了230亿美元的估值。所以这大约是你期望他们在这个规模之后进行IPO以筹集更多资金的地方。所以是的,提醒一下,CoreWeave是一家非常有趣的公司。我们已经报道过很多关于他们的消息。他们与英伟达有合作关系。英伟达是他们最重要的投资者之一。
你可以想象这将帮助他们更快地获得GPU,这是一个很大的差异化因素。然后,他们还以其非常灵活的定价模式而闻名,他们为你提供更多粒度和成本效益更高的GPU资源定价。例如,你可以租用单个GPU,而不是整个集群。所以它更平衡,理论上也更容易让小型玩家使用。所以这是一种很有趣的体验。
肯定会在未来听到更多关于CoreWeave的消息。顺便说一句,预计它将在纳斯达克交易。这将是他们选择的交易所。接下来,我们有Waymo的消息,以及他们与Uber的合作关系已经正式开始。通过Uber在奥斯汀使用Waymo车辆的服务已经启动。所以现在当你叫Uber时,
人们现在还说出租车吗?我不知道。通过UberX、Uber Green或任何这些服务叫Uber车辆,你可能会得到一辆Waymo,这很有趣。你不需要任何特殊的请求,你只需要匹配到一辆就可以了。你可以调整你的乘客偏好,以增加获得Waymo的机会。显然,价格是一样的,只是没有小费。这将覆盖……
奥斯汀37平方英里。
接下来,下一个故事是关于微软和OpenAI的。我们很久以前就报道过,英国竞争与市场管理局(CMA)对微软和OpenAI之间的合作关系展开了调查,原因是一些反垄断问题,这是去年相当流行的一种趋势。好吧,这项调查已经结束,他们认为这种合作关系
基本上没问题。微软对OpenAI有影响力,但没有控制权。因此,它不符合他们的并购审查标准。
是的,这里的触发事件只是看到了微软能够多么有效地向OpenAI董事会施压,要求重新聘用SAM。所以,每当你看到这种情况时,就会引发疑问,好吧,那么微软是否拥有有效的控制权?这将引发反垄断担忧。正如你所说,他们发现的是高水平的实质性影响,而不是反垄断。
完全控制,这并不能证明需要进一步采取行动。他们说:“CMA关于管辖权的调查结果不应被解读为该伙伴关系在潜在竞争问题上获得了免罪令。但英国并购控制制度当然必须在议会规定的范围内运作。”所以基本上,他们是在争论说,
在他们负责的狭窄制度范围内,这并不符合他们需要采取行动的条件。对此也有一些批评。值得注意的是,刚刚上任的基尔·斯塔默领导下的工党政府比刚刚离任的里希·苏纳克保守党政府更支持AI加速、经济增长之类的事情,当然,保守党政府发起了著名的AI安全峰会系列。因此,你看到的是
政府内部反映了这种观点。因此,人们担心。例如,有人引用了一句话说:“CMA已经对这一决定犹豫了一年多,但在前亚马逊老板被任命为其主席的几周内,它就决定一切从一开始就绝对没问题,没什么好说的。”很难真正知道这一切会发展到什么程度,因为显然,在这个政府机构内部进行的运作非常复杂,部分是政治性的,但也部分可能是这样发生的。对吧。
真的很难知道,但这是围绕这里正在进行的讨论的一部分。最后一个故事是关于Scale AI宣布了一项数百万美元的国防协议。他们与美国国防部达成了一项协议。它被称为“雷神之锤AI代理计划”,旨在增强美国军事规划和行动。Scale AI是这项计划的领导者,并且
他们表示将与微软和Enduro等公司合作或使用他们的技术。他们确实表示这将是在人类监督下进行的,但其想法似乎是增加遗传能力。而且,你知道,这只是技术向军事靠拢的总体趋势的另一个指标,OpenAI和Anthropic等公司在过去几个月也采取了类似的策略。没有太多,我会说,具体的、不明显的信息,对吧?他们称之为数百万美元的交易。好吧,废话。
你谈论的是,好吧,我们知道这是由国防创新部门(DIU)牵头的,这大致就是它的意思。他们为国防部做了很多先进的研发工作。顺便说一句,我的意思是,人们非常担心显然使用完全自主的系统进行目标定位等。
他们声称不会有,某种程度上会有一个人参与其中。但无论如何,这个领域的现实情况是,我们将走向一个世界,在这个世界里,美国的对手绝对会在没有任何监督的情况下部署这些系统。在某种程度上,这些系统的响应速度太快了,以至于无法让人类参与其中。所以,依赖于,你知道的,无论人类参与意味着什么,因为它已经有点模糊了。
我认为这不是一个成功的策略。我认为最终,经济、地缘战略格局会迫使你走向完全自动化,无论你是否喜欢,把它归咎于摩洛克问题,或者你想怎么称呼它。但是
他们在这里说他们与Enduro合作,Enduro是著名的帕尔默·拉基公司,总之,它正在成为一个大型国防巨头。微软,这将是关于AI代理的,这并不奇怪。他们在这里引用的用例包括建模和模拟、决策支持、拟议行动方案,甚至自动化工作流程。顺便说一句,推出将从美国印太司令部和美国北方司令部开始。这些是
所以美国国防部设立了不同的所谓的作战司令部。这些本质上是实际执行任务的综合行动。例如,在中东,你拥有美国中央司令部(US CENTCOM)。他们负责叙利亚发生的一切。有趣的是,它正在印太司令部(Indo-PACOM)推出,包括中国,然后是美国北方司令部(US UCOM),大概包括俄罗斯。这些都是进行一些实验的有趣场所,因为你会很快获得实际信息
我想,橡胶会很快与道路相遇。所以很有趣。顺便说一句,Scale AI的首席执行官Alex Wang实际上非常担心一致性问题。所以他是在考虑到这一点的情况下这么做的。一个非常有思想的人。我们也会谈谈他最近与埃隆的AI顾问丹·亨德里克斯一起发表的东西。但无论如何,他在这张地图上了。而Scale AI显然现在正在做更多国防部的工作。
接下来是项目和开源,我们从DeepSeek开始,他们举办了一个完整的开源周。简单概括一下,他们一周内每天都会发布一个新的代码库。
所以完整的列表是:Flash MLA,一个针对Hopper GPU的高效MLA解码内核;DeepEP,一个用于专家混合模型的通信库;DeepGem,优化的通用矩阵修改库;优化的并行策略,一个用于优化并行的框架;
以及Fireflyer文件系统,一个针对机器学习工作流程进行优化的完整文件系统。最后是DeepSeek v3 R1推理系统。所以他们发布了六个不同的软件包。从概述中可以看出,它非常关注基础设施。这是他们秘诀的一部分,也是DeepSeek v3创建的原因之一。
因此,在如此低的成本下具有如此高的性能。它只是优化了所有东西,例如进入他们自己的矩阵乘法核心等等。所以他们现在已经分享了所有这些成果。我认为对于从事这类工作的人来说,这真的很令人兴奋。杰里米,我相信你能够在这里提供更多细节。是的,好吧,所以这在某种程度上是
对V3和R1论文以及其他一些内容的重大揭示。我认为它部分展示的是他们拥有的令人难以置信的工程人才的广度,对吧?所以在某种程度上,Fireflyer文件系统,FFFS,
对我来说,至少就它实际能为你带来什么而言,是最不引人注目的。但这有助于说明他们的能力范围有多么广泛。这基本上是用于SSD存储的。所以有一个问题叫做读取吞吐量,它是数据从存储中读取的速度,就像数据中心中的长期存储一样。长期存储在这里实际上是指具有非常高容量的存储,例如存储模型检查点或大型数据集块等。你不会经常使用它们,但当你使用时,你需要非常高的吞吐量。你正在提取大量数据。所以考虑每秒太字节,通常在这个规模上,你正在
所以事实证明,他们已经能够从他们新的优化设置中实现7.3 TB/s的数据读取吞吐量。这实际上非常令人印象深刻。它处于前沿规模的训练运行基础设施的水平,但现在它是开源的。无论如何,这里有很多关于它是如何优化的细节。
我实际上要完全跳过这个,但我们可以深入研究它。这就像即使在SSD级别,他们也在优化它,尽管SSD通常不是高性能计算AI运行的关键瓶颈,例如高带宽内存是GPU、浮点运算或网络互连,但它通常不会从长期存储中提取数据。我认为更大的故事实际上更多的是双管道发布,无论如何,这是更大的故事之一,
我们也可以讨论一下。那个……是的,我认为那个,如果我没记错的话,所以他们还有另一个发布,甚至不是这个开源周的一部分,它完全专注于基础设施。这是……
本周的一部分。这是本周的第四天。我认为这很有趣,你会深入探讨这里的原因,因为这更像是一种算法。所以它不仅仅是纯粹的基础设施。这是
一种新的推理技术。然后我会让你接管细节。是的,我的意思是,现在很难判断什么是硬件,什么是软件。但你是对的。我的意思是,你可以用很多不同的方式来争论它,我想。首先,我们必须谈谈流水线并行这个概念,这是一种分解训练任务的方法,当进行非常大规模的训练运行时,基本上每个人都会这样做。DeepSeek当然也这样做。
本质上,你可以把它想象成你的模型层被划分,这样,你知道,也许第1到3层位于GPU 1上,第4到6层位于GPU 2上,等等,对吧?所以你的模型的不同层位于不同的GPU上。现在,通常情况下,当你这样做时,
你必须馈送。所以假设你得到一个新的数据片段,你想馈送到你的模型。好吧,现在你必须把它馈送到GPU 1,对吧?让它处理那个小批量。然后该输出必须馈送到下一个GPU。你必须把它移动到下一个GPU。然后下一个GPU开始处理它,而GPU 1开始处理下一个小批量。现在,你可能会注意到这个设置的一点是,你有一堆GPU。
持有模型后层权重的GPU,在开始时只是闲置等待处理,因为你必须先将数据通过前几层,然后才能到达后几层。因此,这会产生一种被称为气泡的效应,对吧?你在流水线并行中形成了这个气泡,
就像你有很多闲置的GPU没有被使用。DeepSeek所做的是,他们试图最小化这一点,他们在这里做的一件事是试图最小化该气泡的大小。
他们使用的一种技术是让前向传递从持有模型早期层权重的GPU开始。所以前向传递在那里,而后向传递开始穿过模型的末端,数据向中间传播。必须解决这个中间相遇的问题。无论如何,他们找到了解决这个问题的非常有趣的方法。他们使用的一个关键策略是找到真正巧妙的方法来重叠通信和计算。
在不深入细节的情况下,我想谈谈这个所谓的流多处理器。你的GPU,你可以把它想象成GPU上执行工作的核心单元,即流多处理器。GPU上有成千上万个这样的单元,它们可以处理计算,所以它们执行代码。
该代码用于实际执行矩阵模型和其他形式的计算或通信。但它们不能同时执行这两项操作。因此,给定的流多处理器要么打包数据以将其发送……
你知道,通过网络发送到其他GPU或其他地方,要么执行实际计算。使DeepSeek方法如此复杂的原因是,他们非常仔细地分配了一些流多处理器来处理通信,而另一些则在同一芯片、同一GPU上处理计算。所以你可以想象,在一个给定的时间步长,比如时间步长1,
流多处理器1到80正在对批次A进行计算,而81到100正在处理他们运行的先前一组计算的通信。因此,你基本上有一个单一的GPU芯片,它同时实际上正在做很多不同的事情。这有助于你避免从同时馈送数据到较低层和较高层而产生的中间相遇问题,因为现在你有了这些有点精神分裂的GPU,它们必须处理多个不同的数据,这些数据基本上通过一个过程在一个方向上流动,另一个过程在另一个方向上流动。这实际上非常令人着迷。他们还以一种非常有创意的方式分割他们的层,将多层感知器与注意力机制等分开,从而使他们能够更精细地控制。他们声称他们基本上得到了
完美的通信计算重叠。因此,你不会遇到核心空闲等待馈送数据进行处理的问题,系统中总是在进行某些操作。无论如何,这就是双管道的优势所在,之所以称为双管道,是因为你在早期层馈送前向传递,而在后期层馈送后向传递。
非常酷。继续下一个话题。接下来,我们有一个模型发布,它来自Physical Intelligence。我们正在开源他们的Pi Zero机器人基础模型。几个月前我们讨论过这个。Pi Zero是一个模型,它接收视频流,接收任务规范,并为各种类型的机器人输出机器人控制。
现在,PyZero模型及其代码已在GitHub上的存储库中提供。我认为它也正在集成到Hugging Face的机器人框架中。他们还有一些变体。他们有一个Pi Zero Fast基础模型,还有一些其他的,比如Pi Fast Droid,它是专门为Franca机械臂微调的。所以,作为大型基础模型的首次发布之一,Physical Intelligence获得了7000万美元的创业资金。因此,他们
拥有收集数据集和训练模型的资源,而这些资源到目前为止实际上是不可能的。他们确实表示,您可以用大约1到20小时的数据将其微调到您自己的任务或应用程序。
关于开源方面的最后一个故事,我们有来自DeepMind的Big Bench Extra Hard。正如我们所说,基准测试越来越没有用。而这又是对此的又一次证明。Big Bench Extra Hard是在Big Bench Hard的基础上构建的。它用更难的对应任务替换了其23个任务,这些任务需要高级推理技能。因此,它
最先进的LLM仅对于基础模型而言,其最高准确率达到23.9%,并且在推理专用模型上达到54.2%的通过率。所以,已经能够完成这些任务了,但显然还有很大的改进空间。是的,我记得以前有一个新的超级具有挑战性的基准测试,你会得到1%到
3%的性能。现在我们从一个角度开始,使其成为真正困难的基准测试。结果是,我们已经达到了大约45%。我会说,这是O3 mini高性能模式。许多推理模型,如DeepSeek R1和Distiller R1-Quen32B
它们的性能都在10%以下,大约在5%左右。所以还有很大的改进空间。但当然,你可以看到一个巨大的变化,对吧?O3 mini高性能模式,其中一个模型与其他模型不一样。这很有趣。我认为它告诉你一些关于他们在后端运行的优化过程的信息。所以
非常有趣。基准测试跑步机(benchmark treadmilling)的另一个例子。我认为我们会发现这个很快就会过时,尤其是在推理时间计算的世界中,因为基准测试的性能比以前快得多。说到改进推理模型,我们正在转向研究和进步。第一篇论文是《使自我改进推理器成为可能的认知行为》。
这篇论文提出了一个问题:推理模型究竟是如何进行推理的?什么样的认知行为模式会导致有效的推理?他们确定了四个因素。
具体行为、验证(这意味着你验证你的解决方案)、回溯(返回并重新审视之前的决策)、子目标设定和逆向链接。如果你使用过推理模型,我认为这直观上是有道理的。这正是你经常看到它们所做的事情,列出它们的步骤,一步一步地思考是目前经典的准推理方法,但过去它曾是使它在更复杂的任务中表现更好的方法。因此,他们提出了这些具体的推理技术,并表明,如果你特别针对它们进行训练,你将能够做得更好。
是的。这篇论文中使用的典型例子是Quen 2.5、3B和Lama 3.2、3B,对吧?所以这些基本上规模相同,都是30亿个参数,并且大致属于同一代。所以是Quen和Lama,他们发现的是,如果你使用完全相同的RL推理训练过程,它们,
Coin模型将大大优于Lama模型。所以这是最初的提示,对吧,它让他们问,是什么内在属性使得在RL阶段能够有效地自我改进?顺便说一下,他们将为此使用的玩具环境是一个叫做Countdown的游戏。你基本上有一组数字。
假设我给你一堆不同的数字,然后你必须使用四个基本的算术运算。所以是加法、减法、乘法、除法,将这些数字组合起来得到一个目标数字,对吧?所以大致像某种数独游戏。他们将在其上进行RL优化,然后比较不同模型的性能。他们发现QN模型自然会表现出推理行为,如验证、回溯,
而Lama最初缺乏这些行为,只是基础模型,对吧?在任何类型的RL循环之前。但是他们发现,如果你用包含这些推理行为的例子来引导Lama,对吧?
尤其是回溯,他们在RL期间的性能会显著提高。它的性能实际上达到了QN的性能。所以这很有趣。同样有趣的是,如果你通过本质上赋予它们正确的推理过程或这类推理的例子来引导这些模型,但答案不正确……
你仍然会得到相同的性能提升。这几乎就像推理过程是全部一样。训练环境中的最终解决方案甚至并不那么重要。现在,我认为将此与我们在DeepSeek R1论文中学到的内容进行对比很重要,因为通常情况下,
表面上看,这听起来可能有点矛盾。如果你还记得DeepSeq R1,对吧,他们采用他们的基础模型,然后进行强化学习。他们真正关心的只是你是否得到了正确的答案。强化学习过程最终导致模型通过强制其获得正确答案来学习这些推理行为。所以这可能看起来像是一种矛盾,因为这篇论文所说的实际上是,如果我们让模型使用正确的推理策略进行推理,
即使我们的训练集包含不正确的最终答案,它最终也会表现良好。我认为这里的区别是,你正在用不正确的解决方案来引导它们,但你仍然也在用提供正确解决方案的rel来训练它。所以他们正在训练以获得正确的结果,但被引导为“你应该这样推理”。然后实际的推理最终步骤是不正确的。
没错。所以你是在上下文中告诉它,“嘿,使用这些策略”。然后突然,性能提高了,即使你在上下文中的答案是错误的。对不起,如果我在某个时候说的是“训练”而不是“引导”,我道歉。
是的,完全正确。所以这也表明Lama系列模型具有使用这种推理能力的潜在能力,对吧?基础模型具有这种潜在的推理能力,这让我们重新解释了,我们以前没有理由这样做,但这让我们重新解释了RL阶段,将其更多地视为能力引出过程而不是能力创造过程,本质上是寻找挖掘基础模型推理能力的方法。
所以是的,我认为这超级有趣。如果我们想在RL阶段不花费大量计算的情况下获得更多性能,这是一种有用的方法,就像更好的提示一样,对吧?它实际上明确地展示了正在使用的这些推理策略。所以很有趣。对。这幅图建立在一个最近发表的论文的基础上,标题是《LLM可以很容易地通过演示结构学习推理》,对吧?
内容无关紧要。我不确定你是否讨论过这个,但基本上同样的想法是,你进行推理的结构才是重要的部分。然后,如果你考虑到这一点,你可以有效地进行训练。
接下来,我们有MASC基准测试,它将AI系统中的诚实与准确性区分开来。正如你从标题中可能预期的那样,其想法是如何评估诚实性,如果LLM可能意外地犯了错误
而不是故意不诚实。好吧,这有一个新颖的评估流程,它查看模型的潜在信念,然后查看LLM是否说了一些与该信念相矛盾的话。他们有
大型数据集,1500个例子,它们可以用来评估各种LLM,并表明数据编写LLM在受到压力时经常撒谎。
是的,基本上,他们有一堆提示,这些提示旨在对模型施加压力,使其给出某个不正确的答案。然后他们有一堆更中性的提示,这些所谓的信念引出提示。他们基本上只是对比这两个输出,以评估模型何时是准确和诚实的,或者是不准确和诚实的,与不准确和不诚实的各种可能性。
他们还使用,顺便说一下,这是来自人工智能安全中心的Dan Hendricks,他在这方面的早期工作中做了很多工作。
因此,他们使用表示工程技术来尝试修改模型使其更诚实。这是一个有趣的实验。所以他们基本上就像他们在用户系统提示之前添加了一个非常简单的开发人员系统提示,告诉模型要诚实。这是他们尝试的一种简单的干预措施,它实际上产生了相当大的影响,诚实度提高了约13%,或者说是11%到13%,具体取决于模型。
但随后他们尝试了这种技术,它基于使用本质上类似于LoRa策略的适配器模型或堆叠在其模型顶部的适配器层,他们实际上训练这些层来修改给定层的表示。他们所做的是,通过添加一些鼓励模型诚实或不诚实的文本,来修改训练集中的每个输入,对吧?你可以想象一个
是的,就像一小段文字,说,“在你的回答中撒谎”,或者说“要诚实”。然后他们查看从每种情况下获得的激活,即诚实提示的模型与不诚实提示的模型。
然后他们取这些激活之间的差值。他们从中得到一个对比向量,一个向量基本上告诉他们,当模型诚实时与不诚实时,激活之间有什么区别。无论如何,他们在训练期间将该对比向量添加到他们的实际表示中,并试图训练模型以这种方式朝着诚实的方向发展。
这是他们尝试过的,或者说Dan的团队在其他环境中尝试过的,效果相当好。事实证明,这与开发人员系统提示策略的效果相当。所以很有趣,既是诊断,也是一种治疗,显然并不完美。但他们强调的另一个真正有趣的事情是,更大的模型实际上是规模更大的模型。
通常更准确,但并不更诚实。它们在准确性基准测试上的表现通常会更正确,但它们往往比小型模型更倾向于不诚实。这是一个有趣的趋势,并且在这两种情况下都有很强的相关性。
这就是论文部分的全部内容。我们还有几个与研究相关的其他故事。下一个故事是关于强化学习的一些先驱,特别是Andrew Bartow和Rich Sutton。
获得了图灵奖。图灵奖是计算机科学领域的一个非常著名的奖项,他们因其对强化学习的几十年贡献而获得该奖项。这里没有什么更多可说的了。他们是人工智能领域非常著名的学者,我认为这也许并不令人惊讶。当然,这是一个合理的奖项。
是的,我很惊讶它花了这么长时间。例如,RL在相当长的一段时间内在某些利基领域非常有用,例如多臂老虎机问题等等。但是
是的,我不禁认为推理模型浪潮与此有关,突然之间,我们有了足够好的基础模型,RL是方法。它也没有发生在RLHF上,这是另一件有趣的事情,可能是因为围绕RLHF是否是真正的RL或是否需要是RL的争议。但现在我们肯定有这样的用例,就像,“是的,你知道,Rich Sutton和他的同事们确实派上了用场。”
这里最后一个故事是关于OpenAI启动了一个5000万美元的赠款项目,以帮助资助学术研究。就是这样。它旨在通过一个名为NextGen AI的新联盟支持人工智能辅助研究,该联盟与哈佛大学、麻省理工学院等学术伙伴共同创立。它将提供研究赠款、计算资金和API访问权限。
继续下一个话题,政策和安全。首先,我们有一个观点文章或讨论文章,《超级人工智能的核级风险》。正如Jeremy预告的那样,这篇文章是由Dan Hendricks合著的,他是埃隆·马斯克的安全顾问,也是安全领域一位有影响力的人物。有趣的是,它也是由埃里克·施密特合著的,如果我没记错的话,他是一位在微软工作过的有影响力的人物。
基本上,它指出,当前的人工智能军备竞赛或美国和中国之间的竞赛之间存在可比性,我认为自从Deep Sea Guard 1问世以来,这个概念就越来越热。
整篇文章都在讨论如何将这与核武器进行比较,因为超级人工智能系统可能同样危险。顺便说一下,埃里克·施密特以前是谷歌的联合创始人兼首席执行官,但是是的。谷歌,我的错。现在它只是另一个超级计算器,对吧?但是是的,不。所以有趣的是,它基本上认为
退一步说。我们之所以在冷战期间没有被消灭,是因为美国拥有核武器。俄罗斯拥有核武器。每个人都知道发射一枚核武器意味着发射所有核武器,每个人都会死。对。所以这种情况下根本没有赢家。
通过发动核战争,你也将签署你自己的死亡判决书的想法被称为相互保证毁灭或MAD,有时也称为MAD主义。这是带我们度过冷战的关键地缘战略理论。
有些人在一篇文章中认为,尽管有一些险情。并不明显的是,MAD主义在这个宇宙中看起来像它那样聪明。在大多数情况下,我们可能很幸运,并且有很多险情和很多事故。所以这里的问题是,是否存在类似的激励机制,类似的博弈论格局适用于超级人工智能?如果你假设,特别是超级人工智能是一种大规模杀伤性武器,我认为
这将非常明显。如果是这样的话,那么你就会突然有这样的问题,你知道,中国不会允许美国,如果他们可能的话,他们不会允许美国首先在这里建造超级人工智能系统,因为这将导致美国获得决定性和永久性的战略优势。在这个世界中,中国就不复存在了。
反之亦然,美国会发现中国首先建造这些系统是可以接受的。所以现在你有了双方以及那些实际上没有建造超级智能前景的国家进行干预的动机。因此,你知道,他们有动机试图摧毁彼此的训练运行,用巡航导弹或其他什么东西摧毁彼此的数据中心。也许,也许,作者们在这里大致认为这意味着你达到了这种平衡,中国的
就在中国即将制造ASI或美国即将制造ASI的时候,另一个国家在他们到达那里之前就将他们淘汰了。所以我们从未真正到达那里。这导致了
他们希望某种稳定的平衡,你可以在农村地区建造数据中心,如果有人将它们摧毁,伤亡和破坏相对有限。这是一个建议。无论如何,还有很多关于不扩散、更好的芯片出口管制等等的建议。这是一个威慑框架。关于这是否现实,有一个有趣的论点。这与我们一直在做的许多工作相交叉。我会说它并不反映我们的观点
对实际稳定平衡将是什么样子的看法。例如,这完全取决于美国和中国对彼此的人工智能发展计划有几乎完美的了解,这对于今天的美国与中国来说当然不是事实,对于中国与美国来说可能是事实,因为我们的安全很糟糕。但是
是的,有很多很多需要注意的地方。我认为他们发表这篇文章很好。我很高兴他们这么做了。但这将是这个领域正在进行的讨论的一部分。它绝对是适用于这个领域的一些激励机制的一部分。只是不清楚它是否会像他们在这里概述的那样转化为现实世界的影响。我认为平衡实际上比他们可能暗示的要不稳定得多。所以
很高兴能有这个。这将是讨论的一部分。高质量的报告。我认为它只需要,你知道,这里需要来自实际的特种作战和情报人员的意见,他们每天都在前线与我们的对手打交道,并且知道实际的能力表面是什么,以及对手的行为实际上是什么样的。我认为这是报告目前的弱点,但仍然是一个伟大的贡献。是的,未来将会有很多关于这方面的讨论。
是的,是的。这篇关于时间的评论文章是……
Alex Wang是alignment-pilled(对齐教徒)。是的。
所以,是的,我的意思是,好吧,他是安全方面的,安全方面的,但他不是那种安全研究人员。完全正确。是的,我认为这是一个大问题,这就是我们为什么在我们所做的事情上工作的原因,对吧,与某种
情报。无论如何,你知道,安全社区之外的人,坦率地说,我认为安全社区的一个大问题是,他们对我们的对手实际上能够做什么和会做什么等等,有一个不切实际的看法。所以我认为我认为这就是为什么,同样,很高兴Alex和Eric带着他们不同的背景进来,并对这个问题发表意见。所以是的,你完全正确。这里确实有点多样化。是的。
接下来,我们有一个关于GPT-4.5的故事。METR是一个处理模型评估和威胁研究的组织。顺便说一下,这就是它的缩写,模型评估和威胁研究。你看,我明白了。他们必须评估GPT-4.5的预部署和发布评估,正如他们所说。
所以,在这份报告中,你知道,他们说与非4.5模型相比,GP4.5不太可能构成很大的风险,这正是你所希望的。而且,我相信LPI在其系统卡报告中也提到了这一点。
是的,这是一个有趣的后记,因为他们在与OpenAI的关系方面冒了一点风险来说这些话。METR是一家公司,它与OpenAI、Anthropic和其他公司签订合同,特别关注其模型的自我复制、自我泄露等风险。
所以他们告诉我们,他们获得了GPT 4.5检查点的早期访问权限,不一定是最终版本,这是一个持续存在的问题,即OpenAI没有让他们访问最终版本。我们还被告知,他们在发布前一周获得了此访问权限。所以,就像以前发生过的那样,评估时间表非常仓促。
他们使用其通用自主套件和RE bench测量了模型的性能,这是一个他们用来衡量其模型与顶级人工智能研究人员有多接近的基准。正如你所说,这里没有提高的风险。他们发现,粗略地说,GPT 4.5有50%的几率成功完成大约需要30分钟的人工智能研究任务。
所以他们可以完成人工智能研究人员的工作,粗略地说,只要这项工作不超过30分钟。这是一个有趣的基准。但他们确实指出了这一点。将来,我们很高兴与前沿人工智能开发人员合作,调查他们在整个开发过程中模型的安全问题,而不仅仅是在预部署冲刺中。这经常出现。人们越来越担心,当你只进行预部署评估时,
你实际上只处理了一小部分风险。公司内部的员工开始使用这些系统进行内部部署也会带来很大的风险。
想想内部滥用。如果这些东西最终具有大规模杀伤性武器的能力,那么你就会允许一些心怀不满的员工内部滥用这些系统。失去控制仍然是一个问题。盗窃仍然是一个问题,因为实验室安全很糟糕。所以所有这些对于内部开发来说仍然是问题,远在你部署到公众之前。但据我了解,OpenAI一直反对这一点
实际测试。所以,METR正在公开地说出不为人知的部分,这本身就是一个有趣的数据点。
是的,完全正确。他们在本文中有一节关于预部署评估的局限性,还有一节关于分子释放低估的部分,他们说,“我们非常确定4.5没问题,但我们也很确定我们可能低估了它。”所以它既重申了他们进行了这项评估,也表示,
提供了关于估值以及应该考虑或可能更改的事项的观点。我们最后一个故事是中国买家正在获得英伟达Blackwell芯片,尽管美国实施了出口管制。我们不会详细介绍这个故事。基本上,《华尔街日报》有一篇非常详细的文章介绍了这是如何发生的。我们已经介绍过类似的情况,你可以
为供应商获得一些芯片,所以不需要赘述。但如果你对此感兴趣,请查看《华尔街日报》的那篇文章。就这样,我们完成了。感谢收听本期节目。我相信许多听众很高兴Jeremy回来,希望他将来不会再被卷入任何旅行。
所以感谢收听。和往常一样,如果你想发表评论,如果你想提问,我们有我们的Discord。我们会查看YouTube和Apple Podcasts。所以请随时联系我们。
分解一下。
新技术正在涌现,看着外科医生飞翔 从实验室到街道,人工智能正在高飞 算法正在塑造未来的海洋 收听,收听,轻松获取最新信息 上周的人工智能,来坐车吧 了解科技的最新消息
从神经网络到机器人,头条新闻不断涌现
数据驱动的梦想,它们永不停歇。每一次突破,每一行未编写的代码。在变革的边缘,我们兴奋不已。从机器学习奇迹到编码之王。未来正在展开,看看它会带来什么。