您好,欢迎收听《人工智能的上一周》播客,在这里您可以听到我们聊聊人工智能领域正在发生的事情。像往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻。您还可以在lastweekin.ai上查看我们的《人工智能的上一周》新闻通讯,其中包含更多新闻报道。
我是你们的其中一位主持人,Andrey Karenkov。我的背景是在研究生院学习人工智能,现在我在一家生成式人工智能初创公司工作。我是你们的另一位主持人,Jeremy Harris。我是Gladstone AI的联合创始人,这是一家从事人工智能国家安全业务的公司。在开始之前,我想说一句,
Andre真是个冠军。仅仅这周就够疯狂的了,而前一周也同样疯狂。我们没有报道前一周的情况,所以现在我们要报道两周的内容。就在最后一刻,我告诉他:“老兄,我比平时少20分钟的时间。”你知道,有时我们每个人都会面临不同的限制,我们试图解决这个问题。但本周是我。我道歉。他非常善良,开始删减了一些故事,也许我们以后会报道。但是,事情太多了。这太难了。这肯定是一集内容密集的节目。
正如人们可能预期的那样,我们将谈论很多DeepSea,但在商业方面和政策方面也有其他事情,我相信,Jeremy,你最近非常忙碌的部分原因是美国新政府正在采取一些行动,你知道吗?无论如何,正在发生很多事情,所以我们稍后会深入探讨。我只想说......
做一个高级预览。我们将从项目和开源开始,这与我们通常的做法不同。所以我们将直接从DeepSeek R1开始,然后讨论一些Qwen模型和其他模型。我们将涵盖与DeepSeek和Qwen相关的工具和应用程序,以及关于Perplexity的一些其他故事。像往常一样,我们将讨论应用程序和业务。有一些关于OpenAI的更新。在某些情况下,这似乎是我们报道的新闻的一半。并且
还有微软和DeepSeek。本周我们将主要跳过研究部分,因为我们将深入探讨DeepSeek。然后,我们将讨论一些与新政府相关的政策和安全故事,以及我们通常在该部分讨论的地缘政治问题。我还可以说,YouTube的观众可能会注意到Andre的牙齿看起来很不错。这听起来可能很奇怪。如果这是你收听的本播客的第一集。是的。
那么,如果你不知道我是个怪人,你就会认为我是个怪人,但是,恭喜你,你的手术很成功,一切顺利吗?是的,是的,我已经完全从我新年不幸的事件中恢复过来了,我很高兴,谢谢你的注意,说到听众,在我们进入新闻之前,我还想快速承认一些听众的评论和更正,我注意到最近在
Apple Podcasts上发布的一条有趣的反馈,我们收到了一条三星评价,说我们始终保持兄弟般的品质。我们是现状年轻的硅谷兄弟,总是落后于潮流,但一直在为其加油助威。例如,在DSR1之前的具有讽刺意味的硬件剧集。所以,
一个有趣的看法。感谢您的反馈。关于这一点,我要说的是,我回顾并重新收听了我们报道DeepSeek v3的那一集,那是1月初。Jeremy,你需要得到一些赞扬,因为我认为当时你称之为
一件大事。我们深入探讨了他们如何高效地训练这个模型的技术细节。所有关于它花费600万美元等等的新闻,甚至都不是R1,对吧?那是回到DeepSeek v3,我们确实报道过。所以无论如何,我只是想指出这一点。
谢谢你,Andre。我的天哪。但是是的,不,我们会谈论这个,当我们谈到R1和R10以及所有这些爵士乐的时候。但在某种程度上,我的意思是,如果你听过我们关于V3的第一个播客,当它发布时,你可能不会对R1和R0感到惊讶,对吧?我的意思是,我们当时谈论的方式,我认为它清楚地表明,这东西拥有,它是一个基础模型,拥有GPT-40的所有潜力,可以提供R1,并且,你
在某种程度上,如果你有一个好的基础模型,你真正需要的只是强化学习的优化程序等等,这才是真正流行的东西。所以
在某些方面,非常重要,在某些方面,并不太令人惊讶。首先,现状,年轻的硅谷兄弟。我喜欢这个。我要做一个印有这个的T恤。太棒了。例如,在DeepSeek R1之前的具有讽刺意味的硬件剧集。所以我真的很想听听这位评论者对他们认为其中哪些是具有讽刺意味的看法,因为我要说的是,当我们讨论R1时我们会谈到这一点,但是
我认为人们对R1和R0对硬件的影响存在误读。它实际上对,这不是投资建议,对英伟达的股票来说是非常有利的。它对硬件生态系统和以许多人错过的某种方式进行扩展来说是非常有利的。所以无论如何,只是在那里插一面旗帜,也许评论者指的是其他事情,在这种情况下,我认为听到它是什么会非常有趣。
也许他们不同意,但我认为这是——每个人现在突然都在谈论硬件,对吧?无论如何,感谢您的评价。始终感谢这样的建设性反馈,我们将考虑在内。我们再提一件事情,然后我们就开始。
在Discord上,看到人们讨论问题非常有趣,我们确实收到了一个关于DeepSeek及其对美国法规影响的问题,全球谨慎态度现在将影响美国和中国之间的竞争。我们稍后会回到这个问题。一旦我们进入政策和安全部分,我们还计划插一面旗帜。我们将讨论对地缘政治的影响。
感谢Discombobulated Penguin提出的问题。Discombobulated Penguin,谢谢你。谢谢你,Discombobulated Penguin。有了这个预览,让我们开始吧。正如我所说,我们从项目和开源开始。当然,第一个故事是DeepSeek R1。我们将深入研究这篇论文,我认为,这篇论文的标题是《DeepSeek R1:通过强化学习激励大型语言模型的推理能力》。
我相信许多人已经知道DeepSeeker 1是什么了,但让我们快速总结一下。所以DeepSeeker 1基本上等同于或与OpenIO 1具有竞争力。它是一个语言模型,一个聊天机器人,它针对推理进行了优化,旨在能够解决具有挑战性的问题,例如Cloud Sonnet,例如GPIO 4.0,这些问题是无法很好地解决的。
这篇论文是在DeepSeq v3发布几周后发表的。DeepSeq v3是他们开始使用的基础模型。例如,O1大概是从GPT-4.0开始的。同样,这是一个在DeepSeq v3之上训练的模型。它不是从头开始训练的。
这篇论文有一些非常有趣的内容和对如何做到这一点的启示。对于像O1这样的东西,我们并不真正知道他们做了什么。有很多猜测,但并不十分清楚。在过去的一年左右的时间里,我们还报道了很多新闻故事,研究了使用大型语言模型进行推理的各种方法,以及进行推理时间缩放的各种方法,以及
我认为从更技术的角度来看,这篇论文中非常有趣的一点是,根据标题“通过强化学习激励大型语言模型的推理能力”,该方法的重点几乎完全在于强化学习。这意味着他们通过给予模型奖励来训练模型。它只是产生一些输出。这有点像反复试验。
因此,可以说,它是在没有被告知正确答案的情况下进行训练的。我们已经看到这是一种可能的方法,但这几乎是他们唯一依赖的方法。虽然有多个步骤,但在高层次上,这确实展示了强化学习的潜力。与DeepSeq v3类似,
它似乎是用相对较少的资源完成的,并取得了令人印象深刻的结果。就像,你知道,人们说它不如O1好,但这非常令人印象深刻。你知道,显然它获得了非常好的基准数字。这也是它令人兴奋的另一个原因。我会......
到此为止,我认为,Jeremy,我会让你补充更多细节。是的,是的。我认为你是完全正确的。你知道,强化学习至上的这个想法,对吧?所以有强化学习,也有强化学习。所以这里的胜利在于表明,如果你只是奖励模型获得正确答案而不是获得错误答案,
这就足够了。有所有这些复杂的策略,我们已经报道了很多这样的策略,因为它们已经被讨论过了。而且,你知道,我们有DeepMind关于这些的论文。我们有关于这些的博客文章。过程奖励模型也是如此。是的,完全正确。所以,所以PRM和ORM过程奖励模型和结果奖励模型,在那里,你知道,你基本上要考虑,你知道,一个思维链,对吧。你的模型会这样想,好吧,第一步,我会这样做,第二步,我会那样做。对。所以过程奖励模型当然是被训练的模型,对吧。
用来评估给定步骤的准确性有多大。有很多方法可以做到这一点。通常,你会从给定的步骤开始生成10个不同的展开,从那里开始的10个不同的替代路径,看看这些路径中有多少导致正确答案。然后,根据这个分数,你对开始展开的初始步骤的推定准确性进行评分。这是一种进行过程奖励建模的方法。你基本上用它来训练一个模型来预测
给定推理流中的步骤有多大可能是准确的。过程奖励模型非常挑剔,很难为它们获得好的数据等等。有一些结果奖励模型对输出做同样的事情。所以你基本上训练一个模型来预测一个输出有多大可能是正确的。这些不是地面实况,对吧?这些是模型。这有点像拥有一个
LHF的奖励模型或类似的东西。它们不是地面实况。所以你正在训练你的模型以针对某些你并不关心的东西进行优化。这意味着模型可以利用,对吧?它可以,它基本上可以破解过程或结果奖励模型,然后只是,无论如何,生成模型认为好的输出,但实际上并不好的输出。所以
这始终是一个问题。这就像,在过去的两年左右的时间里,我们一直在玩打地鼠游戏。这表明,采用像DeepSeek v3这样的预训练模型并进行强化学习。你只需要告诉它,嘿,我会给你一些思考标签。我会强迫你写你的代码。
这些思考标签之间的思维链。好的。但是你的输出将在思考标签关闭后出现。所以你基本上有一个定义的区域作为你的草稿纸,你可以在那里进行所有思考,然后你有一个定义的区域用于你的实际输出。至少对于DeepSeek R1.0来说,就是这样,对吧?所以你只需要你的预训练模型,然后你就可以使用简单的强化学习过程,你知道,你要么做对并获得奖励,要么做错,你得不到奖励。
令人难以置信的是,当你这样做时会发生什么,他们将使用一个具有可量化输出的数据集,例如数学数据集或编码数据集,你实际上可以客观地评估输出是否正确。这使他们能够有效地生成这些奖励。我们在该领域的各个方面都看到了这一点。
但是当你这样做时,你会发现模型会自然地学习以类似于思维链的方式进行推理。它比这更多样化。从这个意义上说,它实际上更强大,对吧?因为如果你考虑我们通常强迫这些模型思考的思维链,我们这样做的方法是,我们将实际使用我们的基础模型,而不是直接进入强化学习。我们将做的是,我们将给它一些额外的训练,一些有监督的微调,
在一个数据集上,一个精心策划的数据集,其中包含许多思维链和输出。这些数据集的制作成本非常高昂,对吧?因为你必须让人类在某些情况下进行思维链的注释,生成思维链,以各种方式和细节解决问题。然后你只是训练你的模型对这些进行文本自动完成。它学习了思维链的模式。它有点,它被迫像那个数据集一样思考。所以你会看到它在经过该数据集的微调后自然地运行思维链。
但是这里发生的事情比这更自然。我们只奖励它获得正确答案或没有获得正确答案。唯一额外告诉它的就是把你的想法放在这些思考标签之间,这些想法自然看起来很像思维链,但它们并没有被迫看起来像思维链。它可以做一些更灵活、更多样化的事情,因为你没有强迫它。你没有用人类的思维链明确地训练它。所以它会倾向于探索更多。你会看到另一件事是
当你开始这个强化学习过程时,你在基础模型上进行的强化学习的前几轮,思维链的长度,或者这些思考标签之间的文本量一开始很短。随着你花费更多的时间,进行更多步骤的强化学习,你会发现模型实际上倾向于更充分地填充这些思考标签。思维链实际上会变长。
输出也变得更准确。这告诉你的是,模型实际上是在独立地重新发现和利用推理时间缩放定律。他们有一个惊人的图表,它是论文中的图三,他们展示了每个响应的平均长度的这种非常线性的增长。换句话说,基本上是这些思考标签之间的文本量以及模型为生成这些输出而投入的推理时间计算量。
同样,这并不是因为有人硬编码了这样的想法,嘿,顺便说一句,你在思考上花费的标记越多,换句话说,你花费的推理时间计算越多,你的输出就会越好。不,这是一个自然的结果。这是模型只是通过纯粹的强化学习偶然发现这种策略。这是一件非常非常重要的事情。它之所以重要,不仅仅是因为我们现在不必收集这些巨大的有监督微调思维链数据集,尽管这确实是一件非常非常重要的事情。
但它也表明推理时间缩放定律的鲁棒性。它们是关于人工智能系统的一个收敛事实。当你用强化学习训练系统时,它们会独立地发现这一点。关于R1.0,在我继续讨论R1之前,我要说的最后一件事。
R10难以坚持只使用一种语言。记住,你训练它做的只是获得正确答案或没有获得正确答案,或者更确切地说,你奖励它的是获得正确答案。你没有告诉它如何思考。你没有给它思维链来训练。
所以你往往会发现模型实际上会在语言之间切换。有时它会有时生成文本。它不是人类可读的。他们将其作为一个问题,作为一个问题,几乎像一个错误,但实际上并非如此。思考这个问题的方法是,这是一个特性。有一个很长的复合德语单词可以捕捉20个英语单词的含义。
中文或法语中可能有一个词可以捕捉20个英语单词的含义。当你可以使用这个词并将更多思考压缩到一个或少量标记中时,如果你试图优化计算效率,你应该这样做。
我认为,这就是你看到这种奇怪的语言切换的实际正确解释。模型基本上利用了这一点,嘿,看,对我来说,英语实际上并不存在。法语或其他语言实际上并不存在。不需要在一个语言中保持连贯性。我在我的思维链中使用任何碰巧最有效的语言或推理工具。
所以你最终得到了这个。这个问题,我们早在OpenAI的O1发布时就指出了这一点,OpenAI说,嘿,看,它正在通过人类可理解的思维链进行推理。这对人工智能安全来说多么好,对吧?这意味着我们可以理解模型实际上在思考什么,如果它开始思考某种危险的想法,我们可以进行干预。
当时我们说,等等,这绝对不会是最终状态。总有比人类可理解的方式更有效的推理方法。这就是我们在这里看到的。我认为这非常清楚地表明,当你只让模型为了奖励而推理,并且你没有引入人工的人类废话时,模型会自然地学习以越来越不为人理解的方式进行推理,因为人类的可理解性是一项任务。
这是一项你强加给模型的税。这是一个额外的、不必要的归纳先验,你最好摆脱它。所以无论如何,我会把它放在这里。对不起。非常令人兴奋。这是一个非常好的值得指出的点。这也是R1.0和R1之间存在差异的部分原因,我们接下来会讨论,对吧?这里有一些细微之处需要讨论。
关于R1.0的几个细微之处。所以R1.0,这是一个纯粹的强化学习模型。这是通往R1的第一步。他们确实只是从基础模型开始。他们有一个非常简单的模板。所以他们给模型的提示确实告诉它要考虑推理过程,在给出答案之前输出一个思考过程。但这几乎是他们告诉它的唯一事情。
他们只在数学问题和编码问题上训练它。我认为这对于强化学习来说很重要。我认为人们经常忘记这是强化学习本身的一个局限性。如果你没有能力以编程的方式获得奖励,在这种情况下你可以,那么
强化学习就更加困难了。如果你有,你大概有各种推理过程,你有关于如何浏览网络的推理过程等等,那么通常可能无法训练强化学习。至于语言问题,我想提一下,这是一个有点离题,但我认为值得回顾一下。
对于那些长期关注人工智能的人来说,我认为是在2017年,在旧时代,深度学习是所有炒作,而大型语言模型还不是一个东西的时候,有一个关于人工智能发明自己语言的新故事。我认为当时它还不是Meta,也许吧。
他们正在撰写一篇关于讨价还价的论文,一个多智能体系统,其中有两个人工智能模型进行讨价还价。无论如何,我们称之为讨价还价。所以他们做了类似的事情,将这两个模型一起优化。他们发现这些模型开始基本上使用胡言乱语,使用,你知道,
你知道,标点符号等等,不是人类可读的东西。就像这里一样,这是很有道理的。因为如果你的奖励只是,你知道,获得正确的输出,获得它的过程,你没有告诉模型该做什么,它可以在此过程中编造它自己的奇怪语言。这并非恶意,这并不令人惊讶,即使这只是,
一个相当合理的成果,即让模型不受约束。它现在可以做任何它想做的事情。所以当时对于那篇论文,他们明确地提到他们添加了一个奖励组件。然后他们添加了一点奖励,就像,这实际上应该像英语一样可读。然后它实际上是可理解的。
在某种程度上,这与他们在本文中所做的类似。所以现在我们可以从R1.0转向R1了。R1是R1.0,但有一些额外的限制、约束和设计考虑因素。为了快速介绍这个过程,他们开始训练R1.0。
R1,不是R10,通过进行监督学习。所以他们通过结合不同的方法获得了一个推理轨迹的数据集。至少据我所知,他们为此使用了一些DeepSeek R10。他们使用了一些其他的方法来获得其中的一些。然后他们只是训练模型来模仿该数据集,这部分是OpenAI可能正在做的事情,付钱给人类
人们来生成数据进行训练。
然后,在进行有监督微调之后,他们进行了一些强化学习。他们在进行有监督微调之后,对R1进行与R1.0相同的强化学习,以某种方式,我想,将其偏向某个方向,该方向确实使用了人类可理解的方法。然后他们进入,在论文中,还进行了蒸馏并获得了更小的模型。
最终,你会变得有点复杂。我不知道你是否可以称之为复杂,但它并不像看起来那么简单。这套步骤有点不直观,
我会说,你知道,可能不是最佳的,但它仍然,它仍然非常有趣,他们还进行了大规模的强化学习。当它开始训练R1时,他们将它与监督射击训练混合了一点,这让你获得了LLM类型清晰度和R1.0推理的双重优势。
是的,绝对的。当他们这样做时,对吧,当他们添加有监督微调步骤以使其以人类可理解的思维链术语进行思考时,对吧?
是的,人类的可理解性绝对上升了,但性能下降了。这是一个轻微的下降,但确实存在性能下降。所以前面我说过,为了人类的可理解性,人类的可解释性,你必须付出代价,他们正在衡量这个代价。你要么会优化一个非常好的推理模型,要么会优化一个人类可理解的模型,但这两种东西意味着不同的东西。
迫使公司制造更好的推理器的压力最终会非常非常强大,并且可能比迫使公司制造人类可理解的推理系统的压力更大。在这种程度上,你开始担心诸如隐写术或仅仅是像某种危险的事情之类的显式推理。
人类可理解的推理轨迹,因为那是你期望这些事情在未来发生的地方。所以我认为这非常有趣。顺便说一句,思考这个问题的一种方法是
R1是你实际使用的模型。对于现在许多应用程序来说,你想要使用的模型可能更易于人类理解。但是R10是向你展示强化学习未来的模型。这个模型说明了强化学习可以扩展,并且确实有效。所有这一切的最大教训
现在这回到了,这不是投资建议,而是观察英伟达的股价走势。那里发生了很多事情。但是当你考虑是什么导致英伟达起飞时,它基本上是Rich Sutton在《痛苦的教训》中首先提出的论点,对吧?那就是,规模为王。很多人误解了这意味着什么。《痛苦的教训》的重点不是你不再需要聪明的主意了。很多人这么认为,但是
而是,你需要找到聪明的方法来摆脱你的优化过程。你需要找到方法来消除归纳先验,让计算去做计算应该做的事情。这实际上需要聪明的主意。这些正是DeepSeq在v3和特别是r10中如此出色地使用的那种主意。
所以当你喜欢这个的实际提炼物时,DeepSeek表明,你可以在至少推理时间上达到OpenAI的1级性能,例如大约30分之一的预算。
训练费用为500万美元或600万美元,他们的星号是这仅适用于导致成功输出的特定训练运行期间使用的计算量。我们之前讨论过这个问题。它没有考虑他们必须运行的所有实验,但仍然。好的。换句话说,我可以获得更多每浮点运算的智能。我可以获得更多每单位计算的智能。这就是DeepSeek的故事。这听起来像是英伟达的看跌案例吗?
对我来说,这听起来像是对英伟达的利好消息。从本质上讲,你们的GPU在推理时间上的价值提升了30倍。这就是它的含义。这意味着通过应用DeepSeq在此过程中学习到的经验而获得的缩放曲线斜率实际上比我们之前想象的要陡峭得多。投资回报率甚至更高。
而且因为对智能的需求永无止境,这正是经济的字面基础。它们本质上是一个巨大的引擎,其中很大一部分。所有这一切都意味着人们喜欢在提问时坚持同样的问题,这无关紧要,无论你是......你知道的,Anthropic、OpenAI还是其他任何人,你问自己的问题总是相同的。我最多能投入多少资金到我的计算预算中?
然后我就能得到我所能得到的任何智能。这意味着你实际上会得到30倍的提升。因此,如果有什么不同的话,这实际上为以下观点提供了支持:为什么我们不尝试一下,如果可能的话,将更多资金投入到预算中。
这就是将会发生的事情。相信我,这就是将会发生的事情。已经有很多人将此视为悲观的消息。但是当你与实验室里的人交谈时,情况并非如此。这非常类似于缩放,它仍然非常活跃。我们恰好处于这个特殊时刻,我们正处于范式转变的转折点,对吧?我们很长时间以来,预训练都是主要的范式。现在我们让推理时间的计算在强化学习等方面占据更多比重。并且
这给了新进入者超越的机会。但在未来六个月、十二个月里,根本性的问题将回到:是的,但是你能投入多少计算到这些相同的策略中?如果DeepSeek没有得到很大的国家支持,他们将会挣扎。
他们已经在挣扎,正如他们的首席执行官所说,他们难以获得足够的优质计算资源来推动这项运动。出口管制绝对在打击他们。这是另一个被误解的教训。每个人都像,“哇,一家中国公司做了一件非常令人印象深刻的事情。出口管制的意义何在?”不,不,不。教训是计算的重要性比昨天高出30倍。出口管制更加重要。这是真正的教训。
总之,有很多事情。我们将在政策部分讨论这个问题,因为Anthropic的Dario发表了一篇博客文章,在我看来,这篇文章非常棒。无论如何,所有这些都是为了回答一位观众在Discord上提出的问题,这是我对出口管制故事的看法。顺便说一句,这是一个非常令人印象深刻的模型。我认为许多试图应对的人......你知道的,这实际上并不超级......它令人印象深刻。它绝对令人印象深刻。它
也绝对符合潮流。但令人疯狂的是,你有一家中国公司在能够做到的事情或接近能够做到的事情方面走在潮流前沿。也许不是完全处于前沿。无论如何,这是一个超级令人印象深刻的模型。看看经过Sweet Bench验证的分数,你知道的,49.2。这比OpenAI的O1模型在12月17日更好。这告诉你所有你需要知道的事情。这是真实的。它具有巨大的、巨大的影响,但它们与许多人......我认为目前的主流叙事是不同的。
对。我认为我们将在商业部分花更多时间讨论主流叙事和对R1的反应,我认为这种反应相当极端。现在,我们将更多地关注技术细节。在继续之前,我还想对论文的技术报告说一件事。
其中一件非常有趣的事情,而且我非常欣赏这一点,这做得还不够多,他们确实有一节关于不成功的尝试和对他们不起作用的事情。他们确实指出过程奖励模型是一种有效但最终失败的方法。
计算不值得。事实证明,只做强化学习比这种更复杂的方法更好。他们确实尝试了受AlphaGo、AlphaZero和其他模型启发的蒙特卡洛树搜索。这是另一个人们热衷于进行更多搜索过程的想法,在这个过程中,你进行搜索以获得良好的结果,而不是仅仅进行强化学习,这似乎是这里的情况。我还认为
XactoRail设置中缺少一些细节,因为有
各种进行强化学习的方法。他们使用了一种重要的技术,即GRPO,我们甚至没有提到。但值得一提的是,他们使用的是组相对策略优化作为强化学习算法,这是他们在2024年初提出的。这也证明这是一种非常有前景的算法。
该算法使得训练更高效。我们无法深入细节,但它似乎效果很好。总之,这是一篇很棒的论文。如果你关注这些东西,这是一篇非常有趣的论文。R1当然令人印象深刻且令人兴奋。我们可能稍后会回到它。但是......
接下来,我们还有几个故事,我们无法深入探讨。所以我们将开始快速推进。首先,下一个故事再次关于DeepSeek。这很有趣。就在R1之后,很快他们宣布......
另一种类型的模型,一种名为Janus Pro的多模态AI模型,他们声称其性能优于其他类似模型。关于DeepSeek R1值得注意的最后一件事是,它的许可非常宽松。我认为它是MIT许可证,这基本上意味着你可以随心所欲地使用它。这意味着你可以将其用于商业应用,用于
你知道的,研究,显然,几乎任何事情。没有任何限制,而其他开源版本通常会有这些限制。这也是为什么这令人兴奋的另一个方面。现在,这是一个你可以用来构建的尖端模型之一。显然,这对这个领域的许多人来说都是令人兴奋的。现在继续,我们还有很多故事要讲。所以我们必须加快速度。
接下来,我们还有一个关于DeepSeq和他们发布的另一个模型的故事,这并不是什么大不了的事情,但仍然非常酷。他们现在有一个名为Janus Pro的模型,这是一个文本到图像模型,也以VMware MIT许可证发布。
类似于......你知道的,其他文本到图像,我认为很难确切地说。你知道的,它看起来非常好。据报道,它在基准测试中优于DALI Free和其他模型,如Stable Diffusion Excel。他们还发布了70亿参数版本和10亿参数版本。所以它......
有一些非常好的开源文本到图像生成器,这并不是什么大不了的事情,但令人印象深刻的是,DeepSeq作为一个实验室,实际上是一个研发项目,而不是一个商业企业,现在正在将多个这样的模型发布到开源中,并产生了很大的影响。
是的,值得一提的是,擅长制作推理模型的公司也往往擅长制作这种多模态系统。这并非巧合。但无论如何,看看DeepSeek未来是否会发布更多多模态模型,将推理与视觉和其他模态结合起来,这将很有趣。我的确希望这即将到来。
对。我想在这里提到的另一个细微之处是,在它的描述中,他们强调的是这统一了多模态理解和生成。所以最大的亮点是文本到图像部分,但他们正在结合,我们有视觉语言模型,它们是
图像加文本到文本。这是图像理解。我们还有文本到图像模型,图像生成模型,它们只是文本到图像。这些通常以不同的方式,略微不同的方式,以不同的方式进行训练。所以这里非常有趣的是统一,并让它们一起工作。所以这里再次有一些相当重要的技术见解是新颖的,并且
实际上可能具有相当大的影响力。还有一篇关于Janus Pro的论文,即使用数据和模型缩放进行统一的多模态理解和生成。无法深入细节,但同样,这是一项非常令人兴奋的研究,也是人们可以使用的模型。
继续前进,我们还有另一个令人兴奋的Baywater版本,它发生在R1之后。这并不是什么大不了的事情,但仍然非常值得注意。而这一次是关于QEN 2.5-1M。
所以Quend来自另一个中国组织,我相信它由阿里巴巴资助。他们已经在这个Quend系列模型上工作了相当长一段时间。所以他们现在发布了这个最新版本的技术报告,该版本专注于长上下文长度。因此,名称中的“-1M”是Quend。
因为他们将其扩展到能够处理100万个标记。因此,他们发布了一篇论文,其重点是如何实现这一点
长上下文缩放的优化。他们还发布了它的变体,70亿参数和140亿参数,并更新了他们的API以访问它。所以再次,我认为这是开源模型中缺失的部分之一。通常,你通常会得到大约128,000个标记的长度。所以再次,
有效地扩展到长上下文是一件非常重要的事情。是的,他们为此使用了大量的技术,这些技术在文档中都有很好的记录。其中一个关键技术是渐进式长度训练。我们之前见过这种情况,但他们在这里将其推向了极限,你从相对较小的上下文窗口或有效的上下文窗口开始,在这种情况下大约为4,000个标记。
他们逐渐增加它。你达到32,000,你知道的,大约64,000。你基本上每次都在翻倍,直到你的模型最终达到能够容纳完整上下文并在诸如“大海捞针”评估等方面表现良好的程度,这是他们关注的事情之一。还需要跟踪。因为注意力机制本身并不关心词序,所以你必须基本上叠加某种正弦型模式到你的嵌入上,以便你可以跟踪哪些词在哪里。他们使用自适应绳索基频,这些频率随着上下文长度而增加。基本上,这是一种动态调整......
调整这种词序计算策略的方法,因为你增加了上下文窗口。训练数据混合也很有趣。对于渐进式长度预训练,他们所做的是,对不起,训练,他们使用的文本的75%实际上是该长度下的完整上下文。例如,75%是它可以达到的最大长度。然后他们有大约25%的较短序列。但无论如何,使用了我们不会过多详细介绍的其他各种技术。我们过去谈到过稀疏注意力。他们确实使用了它。
很多方法可以进行VRAM优化,在芯片上等等。所以它确实很酷。这是这些非常注重工程的开源开发之一,对吧?我们开始看到......为了能够阅读这些论文,你必须了解硬件,并且能够深入了解你的VRAM和SRAM在所有这些爵士乐中都在做什么。所以
而且我猜你可以说,尖端AI越来越关注工程方面,或者至少工程方面与架构和建模方面完全密不可分。无论如何,我觉得这非常有趣,而且与我们的硬件剧集时间安排得很好。怎么样?
是的,完全正确。此外,关于缩放定律,我认为值得注意的一件有趣的事情是,显然,缩放的一般想法是,你制作更大的模型,你获得更大的数据,你将这些东西结合起来,你就能获得更好的性能。正如我们在DeepSeq v3、R1和这个中看到的那样,
最终,进行有效的缩放并不容易,正如你之前所说,对吧?所以这是关于找出正确的成分组合、优化过程、硬件等等,以及使你能够进行有效缩放并最终解决各种问题的数据。
这再次证明了这个领域中存在的知识积累,这是两年前人们无法利用的。
接下来是下一个故事,再次是Quent团队的第二个版本。而这一次是Quent 2.5-VL。正如我提到的,这是一个视觉语言模型。它专注于分析文本和图像、视频理解和物体计数。与OpenAI的运营商模型类似,
以及在Frappic计算机使用API上,这将增强他们控制网站浏览并以代理方式为你使用计算机的能力。我认为这个......再次,这并不是什么大不了的事情。正如你经常提到的那样,
Jeremy写了一篇有趣的博客文章。博客文章的标题是Quent 2.5 VL、Quent 2.5 VL、Quent 2.5 VL。Quent团队到底发生了什么?水里有什么?有人很有创意。他们发布的博客文章并不枯燥。
是的,在这里他们展示了该模型的各种演示。因此,很明显,这些团队正在获得大量资源,或者至少他们能够在这个时候取得很大的进展。我认为这就是为什么对所有这些事情的反响如此强烈的原因之一。
是的。而且他们必须做到的一个具体的进步是在......正如他们所说,超长视频理解方面,因为这就是你需要制作一个像这样的在计算机上运行的代理所需要的。
我想从国家安全的角度来看,考虑一下......所以我们已经讨论过,或者实际上是相当多地讨论过关于伪宽松许可证周围的法律情况的想法,对吧?所以你有一家中国公司发布了一些性能非常好的模型。并且有一个许可条款说,如果你有任何问题
例如,使用此模型,这些问题将在PRC法院,在中国法院进行诉讼,对吧?这让你有点开源战争的感觉,你知道的,它让你处于CCP的保护伞下。这是一种有趣的事情,也许是有点学术性的问题,或者不是完全......不是什么大不了的事情,但却是美国的一个障碍。
在这里,当我们越来越多地转向实际上可以控制你的计算机并做实际事情的这种运营商类型的模型时,例如,可能为你发送电子邮件或访问你的个人数据并将其泄露到你的权限范围之外的服务器,这开始成为一个真正的问题。你可以考虑一下开源战争的形式,即在这种模型中植入某种黑客后门和特洛伊木马,以使它们以某种方式运行,从而实现
实现中国共产党或任何开发它们的人的目标。这实际上是一个非常有趣的策略,开源非常......你知道的,我不是说这里正在发生这种情况。我怀疑不是。但是随着我们越来越习惯使用这种来自Quinn或DeepSeek或其他任何地方的模型,我们应该开始考虑的是,谁在构建这些模型?
他们有什么动机以我们无法理解的方式掩盖某些行为,因为我们缺乏解释这些系统的详细技术的解释技术?我认为从国家安全的角度来看,这是一个被低估的方面。在未来一年中,我们可能会发现,哦,糟糕,最新的零日漏洞实际上是使用所有这些部署的来自Quinn或DeepSeek或其他任何地方的代理模型。所以我认为这是一个非常有趣的方面,值得跟踪。
没错。继续前进,我们将开始快速推进,转向工具和应用程序。我们将从所有R1和Quinn的故事中稍作休息,转向OpenAI和
转向另一个与代理计算机使用相关的故事。就在最近,OpenAI启动了Operator的研究预览版,这正是你可以在ChatGPT中使用的工具,它可以浏览网络并进行与Anthropic和在这种情况下,Quint团队所展示的同类型的计算机使用。
因此,如果你访问operator.chatgpt.com,并且你有权访问,你只能作为美国用户试用它。如果你至少目前处于200美元的专业订阅级别,那么你可以使用它。并且会出现一个小窗口,其中包含一个专用网络浏览器,代理将开始使用该浏览器。
作为用户,你仍然可以控制,因为运营商正在使用它自己的东西。它没有控制你的计算机,所以你可以继续做其他事情。
OpenAI表示,Operator有一个计算机使用代理模型。除了这一点,我们对它知之甚少,类似于Anthropic的计算机使用模型。但显然,它经过训练可以与视觉网站交互,能够点击和阅读文本,导航菜单等,
所以这是Anthropic在......我不知道,在几个月前的10月份推出的东西,他们在他们的API上进行了预览。当时,这是一件大事。我认为人们仍然对他们的GenTech AI非常看好。所以,你知道的,我认为它被R1和围绕它的讨论所掩盖了一点。但我确实认为这似乎相当值得注意。
确实如此。而且它......你知道的,它并不完美。他们对此非常坦率。显然,他们必须如此,因为如果你要发布一个......你知道的,模型并说它是以这种方式进行代理的,人们会将它用于真实的事情。所以他们确实说,目前Operator无法可靠地处理许多复杂或专门的任务。
例如,创建详细的幻灯片、管理复杂的日历系统或与高度定制或非标准的网络界面交互,很好。所以这就是它无法做到的事情。但他们在这里明确地采取了一种谨慎的方法。他们要求对某些任务进行监督。所以银行交易和......
在其他领域,例如,你必须输入你的信用卡信息,用户必须介入并实际执行此操作。OpenAI确实表示,这在这种情况下是相关的,Operator不会收集或截取任何数据。所以这显然是......你可能会担心在一个运行Operator的系统中输入你的信用卡信息。他们的说法是他们没有收集这些数据。所以这有点意思,在这个开放式环境中,你在人和AI之间进行这种交接的地方在哪里?
我的意思是,归根结底,在我们拥有完全成熟的AGI之前,对吧?我们不会对这个问题有一个明确的答案。即使在自动驾驶汽车中,情况也更加棘手,至少在那里你处于一个非常受限的环境中。你知道的,你在......你知道的,你在路上,你知道的,只是其他汽车、行人。这是一个臭名昭著的复杂环境。别误会我的意思。
但与整个互联网相比,你将遇到一些非常奇怪的分布外设置。那里的风险也很高,对吧?你可能会把钱送出去,你可能会下载恶意软件,做各种事情。它是一个对抗性环境,以一种驱动它的方式。所以我认为这将非常有趣,看看他们能多稳健地制作这些模型?他们能多快改进它们?但正如你想象的那样,有很多合作关系。
与DoorDash、Instacart等公司合作。所以很多YC公司,这很有趣,因为显然Sam Moulton曾经是Y Combinator的总裁。所以他和那些家伙关系很好,还有eBay、Priceline、StubHub、Uber等等。所以
只是......你知道的,确保Operator尊重他们的服务条款显然是他们的首要任务,也是Operator在这里进行良好初始试运行的一种方式。没错。我认为与Anthropic类似,Anthropic的计算机使用API类似于Anthropic的Project Mariner。
谷歌,这在12月份刚刚宣布。关于何时广泛可用和可靠,没有确切的时间表。我的印象是,通过所有这些努力,这将我们带向未来,在这个未来中,代理将代表你做事情。但我们可能需要一段时间才能到达那里。看看OpenAI现在才发布这个,在Anthropic之后几个月,
有多种限制,它也拒绝发送电子邮件和删除日历事件,这......你知道的,作为一个助手,你可能希望你的代理根据需要发送电子邮件和删除日历事件,对吧?
所以是的,看到更多朝着这个方向的工作令人兴奋。如果整个想法是......请为我买一张票,我不知道为什么每个人都喜欢让AI为你预订旅行票的想法。我认为这不是一个好主意,但这通常是人们提到的一个想法。显然,最终我们会到达那里,我们正在朝着那个未来前进。我会更多地谈谈我对这个问题的看法,但我必须赶上我凌晨3点的纽约航班,所以......
很好。所以,继续前进,回到DeepSeek和故事的另一个方面。所以,显然,作为我们这些整天报道AI的书呆子,R1的论文非常令人兴奋和有趣,有一个
哦,一个O1级别的模型,几乎是一个O1级别的模型,即使是出乎意料的。但我发现DeepSeek故事中另一个令人惊讶和有趣的是,他们在智能手机上的应用程序。
变得非常流行。所以故事是,DeepSeek应用程序在Google Play商店中排名第一。这意味着自1月中旬以来,它下载量超过120万次,全球总下载量超过190万次。这太疯狂了,对吧?因为显然我们已经看到ChatGPT病毒式传播,
我们已经看到使用量出现了巨大的激增。DeepSeek现在几乎凭借他们自己的ChatGPT竞争对手聊天机器人病毒式传播,在这种情况下,它是一种免费与v3模型对话的方式。
而且人们......我想,蜂拥而至,这再次是让我感到惊讶的事情,我想这会让OpenAI有点担心。我们看到了一些反应,例如......你知道的,对人们对此感到兴奋感到不高兴。所以很明显,我认为这也是我们对DeepSeek R1发布反应如此强烈的原因之一。
是的,我认为一旦这些新的范式达到硬件饱和,归根结底,它将演变成相同的事情,对吧?谁拥有更大的GPU堆栈以及运行它们和冷却它们的能量?所以我认为在这种情况下,中国最终处于与他们之前或多或少相同的位置。如果他们难以在预训练的基础上竞争,那么当推理时间的计算变得更重要时,他们将继续难以竞争。只是
我们还没有达到这些特定技术,这个范式已经在硬件上扩展到我们已经饱和了我们拥有的全部硬件的地步。这些优化正在我们说话的时候展开。这是与下一代不仅是英伟达硬件,还有数据中心、计算机和网络结构的设置方式的设计对话的一部分。是的,人们很快就会超越DeepSeek、O1平台。
和R1级别的性能。我认为你会看到,除非中国持续且协调一致地努力整合计算并进行大规模的训练运行,才能在计算基础上与我们在西方的计算能力竞争,否则你会看到同样的事情再次发生。我猜你会看到西方模型的起飞,显然会领先。
但是开源和闭源之间的差距可能会继续缩小。这值得跟踪。我想说的是,随着这次发布,你知道的,在美国Play商店排名第一,DeepSeek应用程序本身的数据会发送到中国服务器。所以你是在自担风险。但是......这再次是一种......它不是开源战争。这有点不同,因为这是应用程序,某种程度上是部署的应用程序。
但这部分是OpenAI和Anthropic,尤其是OpenAI所享有的结构性优势,因为品牌认知度。随着人们更多地使用该系统,他们会获得更多数据,这些数据可以用来训练他们的下一个模型。但是,在这种情况下,请记住,民用与军事融合是中国的一件事。因此,中国公司拥有的任何东西,中国军队都拥有。所以你正在向他们发送你的数据。这对每个人来说并不重要,但对某些人来说可能很重要。是的,如果你在谷歌工作,你可能不想将所有敏感文档的密码交给它,对吧?是的。
当然,值得快速提及的是,这再次来自中国。许多人报告说,它以各种方式受到审查,正如中国政府意料之中的那样。尽管如果你获得开源模型,规避起来相当容易。正如我们所报道的,你可以取消训练这些模型中的各种限制。该模型知道它不应该说些什么。
所以,是的,在应用程序中,我们可以期待这一点。但同样,我的印象是,如果你想尝试一些免费的新事物,你可能更喜欢 ChatGPT,而且你不担心敏感信息,它实际上是一个不错的应用程序。我相信这就是人们蜂拥而至的部分原因。下一个故事再次,
我们报道了 DeepSeq,现在我们回到 Quen。除了那个百万上下文长度模型之外,阿里巴巴还发布了 Quen Chat v02。它引入了诸如网络搜索、视频创建和图像生成等功能,这些功能都包含在该聊天界面中,它补充了一些已经存在的更简单的事情,例如文档分析和图像理解。
因此,网络搜索紧随 OpenAI 不久之后而来。为 ChatGPT 添加网络搜索是其获取上下文以回答问题的方式之一。
我认为值得注意的是,在中国,它正在填补这个空白,或者至少是一家填补这个空白的公司,它提供了一种类似于 ChatGPT 的消费者服务,你可以付费使用聊天机器人。
现在,我认为如果你使用命令聊天,你将拥有一个不错的优势,那就是他们拥有一个具有非常长上下文大小的百万参数模型,这更类似于 Unpropic、Opus 或 Gemini,它们同样优化了长上下文。所以
1 月份中国在大型语言模型和人工智能领域发生了很多事情。继续前进,回到美国,但仍在讨论 DeepSeek。它确实风靡一时。下一个故事是关于 Perplexity 的。
Perplexity 是一个非常流行的 AI 驱动的搜索界面。他们很快就在美国托管了 DeepSeek R1。因此,现在如果你使用 Perplexity,你可以选择使用 R1 来支持专业搜索模式。这曾经是
一个仅有的选项,现在你可以选择在那里使用 DeepSeek R1。所以没有什么好说的,但有趣的是,首先,他们在发布后这么快就将其集成到他们的产品中,在美国托管该模型,并将其作为人们使用的选项。是的,我的意思是,如果我是 Perplexity,我会非常喜欢这种策略。虽然它不会持续太久,但
至少目前和将来,拥有这些可信赖的、具有前沿能力的 OpenAI O1 模型的替代方案,Perplexity 从某种意义上说是一个聚合器,是许多不同模型能力的聚合器。他们自己并没有构建前沿模型。他们将其外包给其他人。在一定程度上,如果你有很多不同的公司在构建模型,你就会让这个领域变得更加商品化。最终的价值获取
如果情况如此,那么在聚合层面更容易实现,或者至少它会成为一个更合理的附加值。我认为这是 R1 发布及其在此集成到 Perplexity 中的战略意义。
在这个部分中,还有几个故事。接下来,我们转向 Apple,以及一个,你知道的,有趣的小插曲,AI 正在做一些愚蠢的事情,这很好地融入到所有严肃的进展中。正如一些人可能已经看到的那样,Apple 有一些非常愚蠢的 AI 生成的新闻通知。这是在他们发布 iOS 10 之后发生的。
18.3 默认情况下启用了 AI,以及为什么我们没有将其作为优先事项来报道。我认为 Apple,它在雷达下运行得相当好,他们现在比
但没有被注意到的事情之一是它所做的愚蠢的事情,例如,他们在通知中总结了标题和新闻故事。这导致了许多非常愚蠢、不正确的总结,说了一些本质上是错误的事情。情况如此糟糕,以至于 Apple 根据新闻报道,已经禁用了此功能。也有一些例子。
类似地总结你从联系人那里收到的消息,非常尴尬或愚蠢的事情,至少有些人是这样认为的,所以是的,Apple 与其他公司相比,在进入这个领域方面相当缓慢,你可以说这是战略性的,但是
这并不是一个强烈的迹象,表明 Apple Intelligence 运行良好。这确实让我想起了 Gemini,对吧?当 Google 推出他们的产品时,你会看到类似的非常愚蠢的事情,这表明这些公司正在仓促推出这些东西。是的,绝对的。我认为 Apple,有点像亚马逊,有几家公司值得注意的是,它们进入游戏较晚,并认识到,是的,就像 Apple 一样,
似乎缩放定律确实有效,伙计。我们正在朝着 AGI 的方向前进。我不知道你们一直在做什么,但落后的代价是巨大的,它在各个领域都是如此,对吧?比如你的硬件堆栈、你的网络,你为了构建数据中心而需要获取的电力。然后是模型开发团队,就像堆栈的每一层一样,你必须找到方法来说服最优秀的人才,因为最优秀的人才......
在这个领域,就你能从他们的工作中获得的杠杆作用而言,他们绝对是 10 倍、100 倍的工程师。因此,第一名和第二名之间的差距是天壤之别。所以我认为这是税收的一部分,无论如何,Apple 和亚马逊都在为此付出代价,而亚马逊至少已经拥有了
明智地与 Anthropic 合作以获得帮助,你知道的,让他们的 Inferentia、Trinium 3 芯片上线。所以 Apple 并没有这种合作关系。我认为这实际上对他们不利。我认为如果我是 Apple 的员工,我会考虑的事情之一是,你如何找到一种方法与真正的前沿实验室合作,让他们帮助你构建?因为显然进展不顺利。顺便说一句,我想值得一提的是,这,
iOS 18.3 有其他更新。现在有视觉智能,你可以用你的手机指向某物。
并询问你正在拍摄照片的任何东西的问题,类似于你可以用 ChatGPT 做的事情。所以 Apple 正在推出其他一些功能,但我猜这是人们意识到的亮点,至少就我所看到的而言。还有一个类似的故事,我相信很多人没有听说过,但报道起来很有趣。法国 AI Lucy 看起来很俗气。
这是来自标题的,但答案总是错误的。所以法国推出了一款名为 Lucy 的 AI 聊天机器人,由政府支持,旨在推广欧洲价值观,显然是为了对抗 AI 工具中英语的主导地位。所以这将是,你知道的,这是一个如此欧洲的项目。对不起,它太欧洲了。是的,然后
启动后不久,它就被暂停了,因为它提供了不正确和幽默的回应,引起了娱乐和沮丧。所以有很多例子,比如它说奶牛蛋是一种健康的食品来源,诸如此类的事情。
所以这相当尴尬或至少很有趣。正如你所说,欧洲,作为更大故事的一部分,显然在与美国和中国竞争方面远远落后。这不是一个好兆头
关于欧洲发展这种技术的能力。是的,我觉得法国总统埃马纽埃尔·马克龙,他知道的足够多,可以花很多钱去做一些非常愚蠢的事情,但这显然并不愚蠢。这是一个危险的地方。无论如何,已经发生了几件这样的事情。
我的意思是,我想我之前在播客中说过,对于在家跟踪的人来说,我认为 Mistral,例如,将面临巨大的困境。我认为他们在一个规模化的世界中无法跟上,我预计他们会在某个时候倒闭,或者被收购,或者像我们看到的其他一些实验室那样发生的事情。
但我发现这里一件特别有趣的事情,对不起,我太批评它了,但这很有趣。Lucy 的标志是一个女性的脸,据说它是法国共和象征玛丽安娜和是的,美国女演员斯嘉丽·约翰逊的结合,受到了广泛批评。在 GPT-4-0 debacle 之后,你为什么要选择斯嘉丽·约翰逊?我
真的不知道。但这显然听起来像一个非常好的计划。他们继续做了。所以现在这只是这个巨大的政府投资在这个聊天机器人中的巨型屎三明治中的另一层屎。我不知道。这里发生了这么多事情。我就像,我只是不知道。但我相信他们有计划。我相信他们有计划,对吧。他们确实收到了来自更广泛的国家......
国家投资计划的资金。顺便说一句,该组织是 Linagora,一家法国开源软件公司,是该项目背后财团的领导者。他们在一份声明中表示,此次发布为时尚早。是的,我们也看到 Google 和 Apple 也发生了这种情况。所以我想他们在这方面并不独特,但仍然。
有点愚蠢。继续前进到应用程序和业务,我们必须再次回到 DeepSeq 并报道 R1 模型的结果和回应。我不知道这的确切时间线。这是一件有趣的事情。几乎没有人关心 DeepSeq v3,至少在商业世界中是这样。然后 R1 推出,每个人都疯狂了,开始
恐慌,或者至少在美国商业世界中明显存在大量的恐慌。标准普尔 500 指数下跌了 2%,纳斯达克指数下跌了 3%,英伟达股价暴跌了 17%。我的意思是,17%。这是 6000 亿美元的市值。所以
显然,我们看到了很多关于这个故事的新闻报道,很多报道都不太好,它们引用了论文中的 600 万美元的数字,与 OpenAI 投入的数十亿美元相比,你知道的,这显然是错误的。600 万美元的故事是关于训练成本,而不是基础设施成本。
至于对英伟达的影响,这相当微妙。可能是这种情况,
由于 DeepSeq v3 中报道的更有效训练能力,英伟达未来的利润可能会减少。但同样,对吧,这篇论文的论证是,对于那些被限制购买最新一代芯片的中国公司来说,他们可以使用相对较弱的可用硬件,
他们仍然能够进行训练。从这方面来看,你可以争辩说,英伟达可能无法销售那么多产品
旗舰芯片是最昂贵的。但无论如何,是的,从我的角度来看,这有点令人惊讶,也许这表明这几乎就像一个警钟。去年有一篇博客文章提出了一个关于人工智能的 6000 亿美元的问题,你已经看到了大量的基础设施投资并没有带来利润,除了英伟达,我想。而且
所以我认为这也可能表明人们有点担心,所有这些巨额投资可能不会获得那么好的回报。我只是想像我之前做的那样,在这个整个叙事中泼冷水。我想明确一点,我不是英伟达的托儿。这只是一个事实,他们基本上控制着这个领域,并拥有巨大的市场份额。但是
Semi Analysis 发布了一份非常好的报告,详细介绍了这一点,尽管之前在某种程度上已经很明显了。但实际的资本支出,这是一笔巨大的支出,比宣传的 600 万美元的训练成本高出几个数量级。
再次强调,600 万美元的训练成本可能是与一次训练运行相关的计算成本,特别是导致 V3 模型的那一次。它不是资本支出成本,当你决定是否购买更多英伟达芯片时,你主要考虑的是这一点。英伟达的收入在很大程度上是基于这一点的。需要记住的另一件事是,他们宣传过,我们当时也讨论过,
当 V3 首次推出时。但我们正在学习,这有点像,球被弄丢了一点。我认为 Scalii 的首席执行官 Alex Wang,甚至可能是达沃斯的 Dario 都接受了采访,他们在采访中错误地说了一些类似于有 50,000 个 H100 的话,实际上
可用于 DeepSeek。实际上,它混合使用了 H800、H100 和 H20,这些是我们经常在出口管制背景下讨论过的中国专用芯片,而且也可能应该受到出口管制的,但没有。这是一款英伟达专门设计用来规避出口管制、直接低于门槛并能够销售给中国的芯片。所以......
故事的寓意是,伙计,我们必须进一步加强出口管制。它们正在发挥作用,因为如果 DeepSeek 能够获得更多这种硬件,情况会糟糕多少?这是一个非常关键的问题。因此,当人们在我看来错误地解释 DeepSeek 的结果时,股价暴跌。但是另一个
令人复杂的情况是,就在第二天,我们发现特朗普总统想要对台湾半导体出口征收关税,他说最高可达 100% 的关税,这实际上可以证明英伟达股价暴跌是合理的。所以现在我们想知道,股价暴跌是因为人们在第一天错误地评估了 DeepSeek 的影响,还是
或者之前有某种泄露,并且基于对即将宣布可能对台积电或台湾进口商品征收关税的泄露进行了内幕交易?对我来说,现在这实际上非常模棱两可。我想知道是否有人做过详细的分析来解析这一点。我不知道该如何去做。
但我认为这里有一些模糊不清的地方,这使得事情变得非常有趣。所以底线是,我认为英伟达的基本面看涨,除了关税之外,这实际上将成为美国人工智能竞争对手的一个大问题。对吧。所以我想我们在分析方面都在同一页上,这似乎有点反应过度,并且只能从
从更广泛的角度来看待 AGI 的前景以及通常构建这些大型数据中心,而不是专门针对 DeepSeek 本身。
继续前进,下一个故事也与数据中心有关,它关于微软和 OpenAI 之间的关系。微软发布了一篇文章,更新了我们所知道的关于微软和 OpenAI 关系的细节。所以现在微软不再拥有 OpenAI 的独家云提供商地位。
对 OpenAI 来说,尽管它确实拥有优先购买权协议,OpenAI 至少必须与他们进行沟通。
OpenAI 仍然致力于大量使用 Azure,但显然也试图放松与微软的关系。这也在我们稍后将讨论的 Stargate 项目的背景下,该项目似乎主要为了 OpenAI 的利益,OpenAI 获得了使用该项目成果的独家许可证。
OpenAI 和微软有着悠久的合作关系,从商业战略的角度来看非常有趣。这是对持续变化局势的最新更新。是的,在某种程度上,也许并不最令人震惊。我们实际上在 OpenAI Oracle 交易的背景下讨论过这一点,事后看来,这部分是 Stargate 项目的一部分,这个位于德克萨斯州阿比林的项目。
他们正在合作构建的集群,对吧?这是我们第一次看到这一点。我们想,嘿,你知道的,这真的是 OpenAI 在他们与微软的关系方面偏离了轨道。正如我们当时所理解的那样,似乎已经发生了变化。我记得,当时的论点是,嘿,微软似乎有点担心,
按照 OpenAI 的意愿,按照他们想要的速度进行这些建设,非常非常激进,对吧,比如 5000 亿美元超过,我想,四年或五年,不,四年。顺便说一句,也值得注意的是,
因此,微软每年在人工智能新数据中心建设方面投资 800 亿美元,如果你在四年内观察一下,这与 5000 亿美元的数字相差并不远。这里有很多事情正在发生。也许 OpenAI 渴望独家使用该集群也是一个重要因素。这是一件大事。另一个被谈论过的事情,埃隆·马斯克也在推特上谈到过这一点,他既是对的,也是......实际上,我的意思是,我想他从技术上说是对的
萨姆将此描述为,是的,这是一项 5000 亿美元的投资。
资金已到位,用一句流行语来说。埃隆说,不,你没有获得资金保障。我从可靠的消息来源得知。他认为在 X 上的某个时候说过,软银只有,我不知道,100 亿到 150 亿美元可用于流动性。无论如何,当你把这些金额加起来时,比如 OpenAI 的 150 亿美元和 Oracle 的另外 150 亿美元或其他什么,这个数量级根本加起来不到 5000 亿美元。这是绝对正确的。
因此,实际上已经获得了 1000 亿美元的资金,希望能够及时筹集另外 4000 亿美元。因此,这额外的 4000 亿美元在某种程度上是一种营销策略,OpenAI 试图将这个项目打造成政府青睐的项目。这是一个重要的因素。
所以我们可能会在这里报道它。但是,当你向全世界宣布你正在建设一个 5000 亿美元的集群,而你内部认为这是超级智能集群时,你是在邀请国家关注。所以,你知道的,就像萨姆·奥特曼让中国注意到这将是一个非常肥美的设施,他们确切地知道他计划如何使用它。从安全角度来看,这并不是一件好事,并不是说你可以隐藏这些建设,但有一些方法可以做到这一点,这对于
我认为你面临这种媒体激励,因为你也在试图吸引投资者
但这个建设的一个挑战是谁是投资者。因此,G42 通过......他们不是以 G42 的身份投资,而是通过 MGX 投资,但它是 G42。那是阿联酋基金。还有沙特资金,这是孙正义软银的主要贡献者。所以从非常真实的意义上说,Stargate 项目就像阿联酋和沙特资助的,
我必须看看,但我一点也不会感到惊讶,如果大部分资金来自这些来源。从国家安全的角度来看,这很有趣。附加在这些资金上的条件必须非常非常仔细地进行审查。但我认为这是一个非常严重的问题。所以......
它说明了人们对 OpenAI 的一些挑战,特别是据报道,他们愿意为了甚至包括俄罗斯和中国的国家安全利益而牺牲美国的国家安全利益,他们说:“我们将让这些国家试图竞标人工智能,相互竞争,让 AGI 项目落户他们的公司。”这就是这种事情。不幸的是,当有这种非常可信的故事时,
这会导致人们质疑,当你开始接受沙特和阿联酋的资金来进行这些建设时,你背后的想法是什么?我并不假装知道。我无法读懂萨姆·奥特曼的心思。但这些是你需要考虑的事情,特别是如果你认为自己正在建设一个如此重要的项目。没错。接下来,另一个与 OpenAI 及其持续旅程相关的的故事,你可以这么说,
与 OpenAI 的治理部分相关,他们正在更新他们的董事会,增加了黑人创始合伙人 Adebayo Ogunnesi,我认为你可以这样称呼他。
所以他专注于基础设施投资,在瑞士信贷工作了 23 年。我不能说我对这方面的影响了解太多,但显然,你知道的,在 OpenAI 仍在努力转向盈利结构的时候,紧随其后的是,你知道的,我想,仅仅一年多前,我们有
非营利董事会
发生了一场政变。从那时起,权力逐渐过渡,大概是在幕后进行的。所以这是同时发生的,并且可能确实有一些有意义的影响。是的,基本上,我的解读是,他们需要一个能够帮助将巨额资金,比如沙特和主权财富基金的资金,带入大型项目的人。所以这是一个非常优秀的金融人士,在这方面经验丰富。
他们实际上在 10 月份说,他与微软、英伟达和阿布扎比的支持下,启动了一项与 GIP BlackRock 合作的 300 亿美元基金,目的是建设数据中心和相关的电力基础设施。所以这是一个与阿联酋利益相关者,也就是世界上的 G42,以及大概在其中有深厚网络的人有经验的人。所以我的解读是,这就是这次任命的策略。
最后一个故事,只是为了报道一些正常的事情,我想,更像是我们在平静的一周可能会得到的事情。值得知道的是,专门从事人工智能语音技术的 11 Labs 在 CWC 融资轮中筹集了 2.5 亿美元,这使得他们的估值达到 30 亿美元。我相信我们已经报道过这个故事,这是一个......
对该融资轮的确认,由 ICONIQ Growth 领导,Andrew C. Horowitz,我认为这个名字可能不像 OpenAI 或 Anthropic 等那样知名,但作为人工智能语音技术领域的领导者,这是一个非常重要的组织,并且
我认为这显然反映在这个融资和估值中。这总是要说,让我们继续讨论政策和安全。完全跳过研究,因为我们没有时间。我们从政策和安全开始,再次是 Stargate 和......
可能在白宫或无论如何都与唐纳德·特朗普出席的公告。关于 Stargate 的宣传很多,你可以说,这是对美国人工智能基础设施的 5000 亿美元投资。所以有这个
特朗普在演讲中赞扬了这个项目,并表示这将使美国处于竞争地位,成为“让美国再次伟大”倡议的一部分。他还提到使用紧急声明来促进基础设施发展。所以一个有趣的事情,显然,杰里米,你对此会了解更多,美国政府是否
能够支持这个项目,以及这个公告的影响是什么。有点奇怪,因为 Stargate 已经进行了一段时间,他们似乎现在正在以一种并非真正新闻但被塑造成新事物的方式推动它。是的。
是的,公平地说,这方面并不罕见。我认为台积电在拜登政府后期也做过类似的事情,他们想要宣布一个大型工厂。他们只是说,哦,我们将等到特朗普上任,然后,你知道的,给他记功。
这只是政治如常的一部分。必须说,这尤其是一招萨姆·奥特曼式的举动,特别是考虑到他现在正在努力弥补与政府的关系,因为他长期以来一直是,你知道的,一个非常公开的反特朗普人士。然后他发布了一些相当......
我不知道,对一些人来说很尴尬的推文。就像,当你一直在追踪他对之前特朗普政府的看法时,看到这个 180 度大转弯就像,哦,这很有趣。你知道的,至少对我来说,这似乎非常清楚地是一个......
试图讨好他,就像,是的,你在经营一家公司,并且有明显的治理影响,但这将成为任何处于这种地位的人的计算的一部分。至于这实际上意味着什么政府支持,没有,就像,我没有追踪任何政府对这方面的投资。事实上,对于如此高的金额,总统仅仅能够说,嘿,是的,我们将资助你,这将非常困难,因为国会负责拨款,并且
因此,获得更多资金,这并不是总统在不从其他事情中抽取资金的情况下能够轻易做到的事情。话虽如此,特朗普一直非常支持放松管制,特别是放松环境法规和其他会减缓数据中心建设时间和电力建设的问题。
这实际上非常重要。现在,我们与中国相比最大的差距是我们通过任何方式部署足够电力来建设大型园区的能力。我们或多或少可以吃掉所有硬件,但我们需要能源基础设施。拜登任期结束时出台了一系列行政命令,这些命令似乎仍然有效。然后,所以这很有趣。所以特朗普让他们继续存在,因为他们确实指出了放松管制。
但他正在采取其他行动,并且采取了真正大胆的行动来放松管制并推动事物发展,我认为,如果您是美国在这个领域竞争力的支持者,这是一个重要的举措。无论您在这个领域的立场如何,即使您关心失去控制(我绝对关心),您都希望美国领先,这样美国的实验室就有足够的时间来研究他们的对齐技术,而不会因为地缘战略因素而过于仓促。所以无论如何,
我认为这实际上就像,特朗普表示他支持这一点很好。资金来源,这更多的是萨姆·奥特曼筹集资金的事情,资金来源可能是一个问题,除非非常仔细地审查这些资金的来源。你可能需要来自国外的主权财富基金的资金。这可能是事实,但你绝对需要对这些资金的来源及其对项目的杠杆作用进行严格的国家安全审查。
正如你所说,再次强调,5000亿美元的数字基本上只是他们希望在未来四年获得的数字。
显然,1000亿美元的数字来自南非银行首席执行官孙正义,那里还有其他投资者,包括OpenAI。所以这是一个巨大的项目,一个非常雄心勃勃的项目。我想我们会看到最终会发生什么。接下来,更多与特朗普上任相关的新闻,这发生在昨天。
我认为上周我们无法报道。所以这令人惊讶,我想我们知道会发生这种情况。特朗普总统
特朗普撤销了拜登政府关于人工智能的行政命令,即安全、可靠且值得信赖的人工智能开发和使用命令,这是一个巨大、非常非常长的行政命令,做了很多事情。特朗普还有另一项行政命令,即最初撤销有害的行政命令和行动,该命令已生效。
正如你所说,特朗普似乎正在做各种事情。所以这更多地关注安全方面,许多机构的目标都是如此。
但是,其他拜登的政策和命令并未成为此项命令的目标。是的,这实际上非常有趣。所以我想当这项行政命令首次发布时,我们讨论过这个问题,但特朗普刚刚撤销的行政命令是一项试图做所有事情的行政命令,对吧?所以支持它的民主党联盟包括各种利益和担忧的人,其中一些人关注的是像国家安全这样的核心问题,这些问题是
两党的,围绕人工智能武器化、失去控制的风险等等。然后还有一些东西,你可以说,更明显的是民主党式的。所以围绕伦理和
算法中的偏差等等。无论如何,当时它是美国历史上最长的行政命令。我认为它可能仍然是。所以当它发布时,阅读它是一件很有趣的事情。但你当然可以将其解读为他们推翻了这项行政命令,因为它包含了如此多的无关紧要的东西。问题是,他们将用什么来代替它?这项行政命令所做的一件好事是,它包含了对任何使用超过10的26次浮点运算进行训练的模型的报告要求,对吧?
所以当时,没有模型在该阈值上进行过训练。现在我们有一些了。但是,是的,所以问题将是,这是否会以某种形式恢复?还会有哪些行政命令?这是一个悬而未决的问题。所以我想现在很多人都在解读很多东西,而这些东西实际上相当不清楚。但背后的原因是相当清楚的。任何关注此事的人都知道,政府一直在谈论
他们将如何撤销这项命令已经有一段时间了。原因也很清楚,其中有很多无关紧要的东西与特朗普总统关心的核心国家安全问题无关。这就是他们采取的策略。很多事情,我们还不知道它将如何发展。
现在让我们回到DeepSeek,正如承诺的那样,回到政策和地缘政治的影响。我们将通过你提到的,杰里米,Anthropic首席执行官达里奥·阿马迪的观点来深入探讨。
正如阿马迪之前所做的那样,他发表了一篇博客文章,表达了他的观点,说他们并不认为DeepSeek是对手,基本上说这并不一定是坏事,但同时强调了出口管制的重要性。所以阿马迪
在这里找到了一个很好的平衡点。他对DeepSeek及其所做的研究给予了高度评价,但同时,我想,试图提醒大家这样一个事实,
他们总部设在中国,因此直接与中国专制政府联系在一起,并且必须遵守中国的命令,至少作为西方人,我们再次要明确一点,我们确实有一些偏见,或者可以说是一种对中国政府持负面观点的观点。同样在这里,阿马迪将中国定位为一个
不好的东西。并且仍然重要的是要加倍努力或继续进行专家控制。是的,他还发表了一篇博客文章,这篇文章非常好,更详细地阐述了他对DeepSeek实际意义的思考。我认为在这个领域中的每个人或多或少都达成了共识。或多或少有两类人。他们就像那些正在关注DeepSeek v3的人,他们就像,我的天哪,
并且已经在脑子里进行了这些计算。然后是那些在R1发布时才感到震惊的人。媒体的报道主要集中在后者身上,但前者,无论如何,我们已经讨论了很多次了,但这基本上与这个想法一致,对吧?规模将继续发挥作用。规模曲线将继续占据主导地位。现在的问题是,多快
以及西方如何饱和他们已经拥有的计算能力。一旦完成,我们就能真正了解谁在这个领域领先。但最终,硬件为王,这并没有真正改变。我们只是有了第二个可以扩展的轴。达里奥非常有效地提出的一个观点是,看看,自从训练01以来已经有一段时间了。我
自从训练3.5 Sonnet以来已经有一段时间了。在那段时间里,考虑到算法和硬件改进的速度,你可能会预期,是的,你会得到一个在价值约10亿美元的基础设施上训练的模型,其中单个训练运行成本约为600万美元。这一切都不是那么令人震惊。事实上,它略微落后于曲线。令人震惊的事情不是,不是中国设法做到这一点本身。只是
曲线本身非常陡峭。改进曲线,就像我们正在朝着超级智能前进,至少许多人相信,我相信我们正在朝着超级智能前进。这就是这些曲线所说的。如果你认真对待这一点,那么是的,每一次渐进式的突破都会让人感到震惊。即使像DeepSeek这样的东西,在成本性能权衡方面可能比前沿落后几个月,是的,也会让人震惊。当你开源它们并添加一些营销内容说600万美元时,是的,它会产生影响。而且
我认为这里的主要教训是,期待更多这样的事情,不一定是来自中国,因为西方的规模开始推动事物发展,我会预期。但是,当然,来自其他地方的前沿实验室。对。现在是回到我们从Discord收到的那个问题的好时机,特别是杰里米,你的看法。显然,这里有一些紧张关系。一方面,我们希望拥有安全,你知道,拥有安全。
你当然是一个安全鹰派,希望了解对齐问题等等。同时,你可以说我们美国和中国之间新的竞争动态以及DeepSeek证明了这一点。所以是的,你的反应是什么,我想,这与对齐和那些事情有什么关系?显然,中国在DeepSeek中拥有一个令人印象深刻的国家冠军。
中国二号人物李强与DeepSeek的联合创始人之一会面,对此有很多说法。中国银行宣布对人工智能基础设施投资1万亿元人民币,西方媒体错误地将其解读为1370亿美元,
如果你只是简单地进行货币兑换,就会得到这个结果。但真正重要的数字是购买力,即购买力平价数字。按照购买力平价计算,这实际上是一项2400亿美元的投资。
所以这超过了实际承诺给星门计划的总资金。事实上,是两倍多。所以当你考虑中共对此有多认真时,他们非常认真。他们现在在DeepSeek中拥有一个国家冠军,如果他们有足够的硬件,他们绝对有技术能力进行竞争。我还想提一下,不仅仅是DeepSeek,阿里巴巴和Quinn,我们不应该忽视它们。他们在前沿模型方面非常有竞争力。
不,很好的指出。是的。当你并且,你也考虑华为中芯国际的准入以及多少,无论如何,关于他们的7纳米或工艺的硬件情况可能是什么样的,以及这是否足以大规模生产具有足够良率的芯片来做有趣的事情,有一个完整的故事。很可能。但底线是,中国在这里是认真的。这就是西方国家安全机构有很多工作要做,并且必须更多地参与其中的地方。
但底线是,我认为我们必须对中国成为这场竞争中的一个活跃参与者意味着什么进行一些深思熟虑的权衡和计算。同时,认识到,是的,对齐尚未解决。太多人认为超级智能系统的对齐和控制可能是一个非常大的问题。他们几乎不想承认这一点,因为他们也认识到,试图与中国进行善意谈判是不可能的。
在过去一年中,在我们进行调查的过程中,我们一直在努力解决的问题是,
如果你认真对待这两件事会发生什么?如果你承认,是的,中国基本上违反了他们参与的每一个国际安全条约?他们利用了美国和俄罗斯在核问题上达成的条约,并且没有停止的迹象。同时,我们不知道如何控制超级智能,如果我们在能够控制超级智能之前就制造了超级智能,那么可能的结果并不好。你如何调和这两种观点?
我认为这正是许多在双方都有些过于乐观、不切实际的观点的核心,这些观点并没有考虑到全貌。所以我会先搁置这个问题,因为我......
我会在这个问题上说得太长了。是时候进行政策讨论了。我已经听说了。最后一点,有一些与台积电相关的报道。我们将关注其中一个。所以有一个关于特朗普威胁关税的故事,以及台湾政府对此的回应。然后还有......
台湾政府批准台积电在海外生产2纳米芯片的有趣故事,他们有这个所谓的“硅盾”来限制这一点。现在他们正在降低这个限制,这当然与台积电在美国的工作有关。
是的,在这种情况下,看待台湾的方式是,他们是一个拿走了你婴儿的人,他们抱着你的婴儿。然后另一个人正对着他们指着枪。他们不会放开你的婴儿。因为如果他们这样做,那么你就会说,是的,我不太关心台湾是否会被枪杀。但他们抱着你的婴儿,这样你就会关心他们是否会被枪杀。他们就像,不,我们在这里建造所有的半导体。如果中国攻击我们,那么你就得不到任何半导体。这真的很、真的很糟糕。这是一个完美的比喻。我对此非常满意。
是的。无论如何,
所以是的,这实际上长期以来一直是台湾国家政策的问题,无论台积电的领先节点是什么,他们只允许在台积电之外建造制造厂,这些制造厂生产落后两代的节点。因此,当你看到台积电正在准备的亚利桑那州制造厂时,众所周知,这些制造厂是4纳米。这是因为台积电目前的领先节点是2纳米制造厂,2纳米节点。所以
是的,这正在改变。这是一个非常、非常有趣的发展,对吧?这实际上是批准在美国建设2纳米、1.6纳米等等制造厂,美国显然会对此非常感兴趣,因为他们需要快速提高生产这些芯片的能力。
如果发生像热战这样的事情,中国入侵台湾,我的意思是,假设一阶上所有台积电的制造厂都被安装了炸弹。基本上,你没有更多的台积电了。然后一切都重置为,好吧,那么下一个领先的制造厂是什么?在这种情况下,中芯国际是一个非常有趣的参与者。
实际上。我的意思是,他们会有问题,因为他们无法获得光刻机和其他东西,但他们肯定会变得更重要。所以中国崛起得更接近与西方的平起平坐。
在这种情况下。因此,人们非常感兴趣将台湾台积电的制造厂和能力转移到这些更高的分辨率上。这就是我们在这里看到的。这基本上已经获得了批准。说得通。就这样,我们完成了这篇非常密集的以DeepSeek为中心的节目。感谢您的收听。与往常一样,您可以访问说明查看所有链接,访问lastweekin.ai或lastweekin.ai或lastweekin.ai.com。
在网上也可以获得这些信息。与往常一样,我们感谢您的观看、分享、订阅,但最重要的是,感谢您的收听和在Discord上的聊天。所以谢谢您,并确保继续收听。握住我的手。握住我的手。握住我的手。握住我的手。
♪ 你必须拿出你的心 ♪ ♪ 你必须拿出你的心 ♪ ♪ 我想我已经准备好了 ♪ ♪ 那些眼睛比我还空虚 ♪ ♪ ♪
所以
是
♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪
谢谢。