cover of episode #198 - DeepSeek R1 & Janus, Qwen1M & 2.5VL, OpenAI Agents

#198 - DeepSeek R1 & Janus, Qwen1M & 2.5VL, OpenAI Agents

2025/2/2
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
A
Andrey Kurenkov
J
Jeremie Harris
Topics
@Andrey Kurenkov : 我认为我们之前的播客对DeepSeek v3的预测是准确的,DeepSeek R1的结果并不令人意外。DeepSeek R1是一个与OpenAI的O1具有竞争力的语言模型,其优势在于推理能力。该模型的训练使用了强化学习方法,并取得了令人印象深刻的成果。DeepSeek R1的发布引发了美国科技股的剧烈波动,这反映了市场对AI技术发展前景的担忧和期待。然而,我认为市场对DeepSeek R1对英伟达的影响存在误读,它实际上利好英伟达的硬件生态系统。DeepSeek R1采用宽松的MIT许可证,这有利于其在商业和研究领域的应用。 此外,DeepSeek还发布了Janus Pro,一个性能优异的开源文本到图像模型。这些模型的发布表明,DeepSeek作为一个实验室,正在对开源AI领域产生重大影响。 @Jeremie Harris : DeepSeek V3是一个强大的基础模型,通过强化学习优化就能达到与GPT-4相当的水平。人们对DeepSeek R1对硬件的影响存在误读,它实际上利好英伟达的硬件生态系统。仅仅通过奖励模型正确答案就能有效提升大型语言模型的推理能力,这证明了强化学习的强大潜力。深度学习模型通过强化学习,能够自主发现并利用推理时间缩放定律,这表明该定律是AI系统的一个内在属性。模型会自然地采用比人类更有效率的推理方式,人类可解释性只是对模型的一种额外限制。DeepSeek R1是实际应用的模型,而R1.0则展示了强化学习的未来潜力。DeepSeek证明了可以以更低的成本获得与OpenAI O1相当的性能,这对于英伟达来说是利好消息。DeepSeek的成功凸显了算力在AI发展中的重要性,也进一步强调了出口管制的必要性。DeepSeek的手机应用在Google Play商店排名第一,这表明其模型获得了广泛的关注。DeepSeek的成功并不能改变算力在AI发展中的核心地位,未来算力仍然是决定AI竞争力的关键因素。

Deep Dive

Shownotes Transcript

您好,欢迎收听《人工智能的最后一周》播客,在这里您可以听到我们聊聊人工智能领域正在发生的事情。像往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻。您还可以在lastweekin.ai上查看我们的《人工智能的最后一周》新闻通讯,其中包含更多新闻报道。

我是你们的其中一位主持人,Andrey Karenkov。我的背景是在研究生院学习人工智能,现在我在一家生成式人工智能初创公司工作。我是你们的另一位主持人,Jeremy Harris。我是Gladstone AI的联合创始人。这是一家从事人工智能国家安全业务的公司。我要说的是,在我们开始之前,

Andre真是个冠军。仅仅这周就太疯狂了。前一周也很疯狂。我们没有报道前一周的情况。所以现在我们要报道两周的情况。我当时只是在最后一刻说,嘿,伙计,我比平时少20分钟的时间。而且,你知道,有时我们每个人都会因为不同的限制而来回讨论,我们试图解决这个问题。但本周是我。我道歉。他非常善良,开始删减了一些故事,我们以后可能会报道。但是,事情太多了。这真是太难了。这肯定是一集内容密集的节目。

正如人们可能预期的那样,我们将谈论DeepSea很多,但在商业方面、政策方面也有其他事情,我相信,Jeremy,你最近非常忙碌的部分原因是美国新政府正在采取一些行动,你知道吗?无论如何,正在发生很多事情,所以我们稍后会深入探讨。我要说的是......

做一个高级预览。我们将从项目和开源开始,这与我们通常的做法不同。所以我们将立即从DeepSeek R1开始,然后讨论一些Qen模型和其他模型。我们将涵盖与DeepSeek和Qen相关的工具和应用程序,以及关于Perplexity的一些其他故事。像往常一样,我们将讨论应用程序和业务。有一些关于OpenAI的更新。在某些情况下,这似乎是我们报道的新闻的一半。而且

还有微软和DeepSeek。本周我们将主要跳过研究,因为我们将深入探讨DeepSeek。然后我们将讨论一些与新政府相关的政策和安全故事,以及我们这一部分中通常的某种地缘政治。我还可以说,YouTube的观众可能会注意到Andre的牙齿看起来很不错。这听起来可能很奇怪。如果这是你收听的本播客的第一集。是的。

那么,如果你不知道我是个怪人,你就会认为我是个怪人,但是,但是,恭喜你,我想你的手术很成功,一切都好吗?是的,是的,我已经完全从我新年不幸的事件中恢复过来,我很高兴,呃,谢谢你注意到,说到听众,在我们进入新闻之前,我还想快速承认一些听众的评论和更正,我注意到最近在

Apple Podcasts上发布的一条有趣的反馈,我们收到了一条三星评价,说我们始终保持兄弟般的品质。我们是现状年轻的硅谷兄弟,总是落后于潮流,但一直在为其加油。例如,在DSR1之前的具有讽刺意味的硬件剧集。所以,

一个有趣的看法。感谢您的反馈。我要就此说明一点,我回顾并重新收听了我们报道DeepSeek v3的那一集,那是1月初。Jeremy,你需要得到一些赞扬,因为我认为当时你称之为

一件大事。我们深入探讨了他们如何能够非常高效地训练这个模型的技术细节。所有关于它花费600万美元等等的新闻,那甚至不是R1,对吧?那是回到DeepSeek v3,我们确实报道过。所以无论如何,我只是想指出这一点。

谢谢你,Andre。我的天哪。但是是的,不,我会说,当我们谈到R1和R10以及所有这些爵士乐时,我们会谈论这个。但在某种程度上,我的意思是,如果你听过我们关于V3的第一个播客,当它发布时,你可能不会对R1和R0感到太惊讶,对吧?我的意思是,我们当时谈论的方式,我认为它清楚地表明,这东西拥有,它是一个基础模型,拥有GPT-40的所有潜力,可以提供R1,并且,你

在某种程度上,如果你有一个好的基础模型,你真正需要的只是RL的优化程序等等,这才是真正流行的东西。所以

在某些方面,非常重要,在某些方面,并不太令人惊讶。首先,现状,年轻的硅谷兄弟。我喜欢这个。我将用这个印一件T恤。太棒了。例如,在DeepSeek R1之前的具有讽刺意味的硬件剧集。所以我实际上很想听听这位评论者对他们认为其中哪些是具有讽刺意味的看法,因为我要说的是,当我们讨论R1时我们会谈论这个,但是

我认为人们对R1和R0对硬件的影响存在真正的误读。它实际上对,这不是股票建议,对英伟达股票来说是非常有利的。它对该硬件生态系统和以我认为许多人错过的某种方式进行扩展来说是非常有利的。所以无论如何,只是为了在那里插一面旗帜,再说一次,也许评论者指的是其他事情,在这种情况下,我认为听到它是什么会非常有趣。

也许他们不同意,但我认为这是——每个人现在突然都在谈论硬件,对吧?无论如何,感谢您的评价。始终感谢这样的建设性反馈,我们将考虑在内。我们再提一件事情,然后我们将深入探讨。

在Discord上,看到人们的讨论问题非常有趣,我们确实收到了一个关于DeepSeek及其对美国法规影响的问题,全球谨慎态度现在将影响美国和中国之间的竞争。我们稍后会回到这个问题。一旦我们进入政策和安全部分,我们还计划插一面旗帜。我们将讨论对地缘政治的影响。

感谢Discombobulated Penguin提出的问题。Discombobulated Penguin,谢谢你。谢谢你,Discombobulated Penguin。有了这个预览,让我们开始吧。正如我所说,我们从项目和开源开始。当然,第一个故事是DeepSeek R1。我们将深入研究这篇论文,我认为,这篇论文的标题是《DeepSeek R1:通过强化学习激励大型语言模型的推理能力》。

所以,我相信许多人已经知道DeepSeeker 1是什么了,但让我们快速总结一下。所以DeepSeeker 1基本上等同于或与OpenIO 1具有竞争力。它是一个语言模型,一个聊天机器人,它针对推理进行了优化,旨在能够解决Cloud Sonnet、GPIO 4.0等大型语言模型难以胜任的难题。

这篇论文是在DeepSeq v3发布几周后发布的。DeepSeq v3是他们开始使用的基础模型。例如,O1大概是从GPT-4.0开始的。同样,这是一个在DeepSeq v3之上训练的模型。它不是从头开始训练的。

这篇论文有一些非常有趣的内容和对如何做到这一点的启示。例如,对于O1,我们并不真正知道他们做了什么。有很多猜测,但并不十分清楚。在过去的一年左右的时间里,我们还报道了许多新闻故事,研究了使用大型语言模型进行推理的各种方法,以及进行推理时间缩放的各种方法,以及

我认为从更技术的角度来看,这篇论文中非常有趣的一点是,根据标题“通过强化学习激励大型语言模型的推理能力”,该方法的重点几乎完全在于强化学习。这意味着他们通过给予模型奖励来训练模型。它只是产生一些输出。这有点像反复试验。

因此,它是在没有被告知正确答案的情况下进行训练的,你可以这么说。我们已经看到这是一种可能的方法,但这几乎是他们唯一依赖的方法。虽然有多个步骤,但在高层次上,这确实展示了强化学习的潜力。与DeepSeq v3类似,

它似乎是用相对较少的资源完成的,并取得了令人印象深刻的结果。就像,你知道,人们说它不如O1好,但这非常令人印象深刻。你知道,显然它获得了非常好的基准数字。这也是它令人兴奋的另一个原因。我会......

到此为止,我认为,Jeremy,我会让你补充更多细节。是的,是的。我认为你是完全正确的。你知道,强化学习至上的这个想法,对吧?所以有强化学习,也有强化学习。所以这里的胜利在于表明,如果你只是奖励模型获得正确答案而不是获得错误答案,

这就足够了。所有这些复杂的方法,我们已经报道了很多,因为它们已经被讨论过了。而且,你知道,我们有DeepMind关于这些的论文。我们有关于这些的博客文章。过程奖励模型也是如此。是的,完全正确。所以,所以PRM和ORM过程奖励模型和结果奖励模型,在那里,你知道,你基本上考虑,你知道,一个思维链,对吧。你的模型会想,好吧,是的,第一步,我会这样做,第二步,我会那样做。对吧。所以过程奖励模型当然是被训练的模型,对吧。

来评估给定步骤的准确性有多大可能。有很多方法可以做到这一点。通常,你将从给定步骤开始生成10个不同的展开,从那里开始的10个不同的替代路径,并查看这些路径中有多少导致正确答案。然后,基于这个分数,你将对开始展开的初始步骤的推定准确性进行评分。这是一种进行过程奖励建模的方法。你基本上用它来训练一个模型来预测

给定推理流中的步骤有多大可能是准确的。过程奖励模型非常挑剔,很难为它们获得良好的数据等等。有一些结果奖励模型对输出做同样的事情。所以你基本上训练一个模型来预测某个输出是否可能正确。这些不是基本事实,对吧?这些是模型。这有点像拥有一个

LHF的奖励模型或类似的东西。它们不是基本事实。所以你正在训练你的模型以针对某些你并不关心的东西进行优化。这意味着模型可以利用,对吧?它可以,它可以基本上破解过程或结果奖励模型,然后只是,无论如何,生成模型认为好的输出,但实际上并不好的输出。所以

这始终是一个问题。这就像,在过去的两年左右的时间里,我们一直在玩打地鼠游戏。这表明,采用像DeepSeek v3这样的预训练模型并进行RL。你只需要告诉它,嘿,我会给你思维标签。我会强迫你编写你的代码。

这些思维标签之间的思维链。好的。但是你的输出将在思维标签关闭后出现。所以你基本上有一个定义的区域作为你的草稿纸,你可以在其中进行所有思考,然后你有一个定义的区域用于你的实际输出。至少对于DeepSeek R1.0来说,就是这样,对吧?所以你只需要你的预训练模型,然后你就可以使用简单的强化学习过程,你知道,你要么做对并获得奖励,要么做错,你得不到奖励。

令人难以置信的是,当你这样做时会发生什么,他们将使用一个具有可量化输出的数据集,例如数学数据集或编码数据集,你实际上可以客观地评估输出是否正确。这使他们能够有效地生成这些奖励。我们在该领域的各个方面都看到了这一点。

但是当你这样做时,你会发现模型会自然地学习以类似于思维链的方式进行推理。它比这更具多样性。从这个意义上说,它实际上更强大,对吧?因为如果你考虑我们通常强迫这些模型思考的思维链,我们这样做的方法是,我们将实际使用我们的基础模型,而不是直接进入强化学习。我们将做的是,我们将给它一些额外的训练,一些有监督的微调,

在一个数据集上,一个精心策划的数据集,其中包含许多思维链和输出。这些数据集的制作成本非常高,对吧?因为你必须让人类在某些情况下进行思维链的注释,生成思维链,以各种方式和细节解决问题。然后你只需训练你的模型对这些进行文本自动完成。它学习思维链的模式。它有点像,它被迫像那个数据集一样思考。所以你会看到它在经过该数据集的微调后自然地运行思维链。

但是这里发生的事情比这更自然。我们奖励它的只是获得正确答案或没有获得正确答案。唯一额外告诉它的就是把你的想法放在这些思维标签之间,这些想法最终看起来很像思维链,但它们并没有被迫看起来像思维链。它可以做一些更可变、更多样的事情,因为你没有强迫它。你没有用人类的思维链明确地训练它。所以它会倾向于探索更多。你会倾向于看到的一件事是

当你开始这个强化学习过程时,你在基础模型上进行的强化学习的前几轮,思维链的长度,或者这些思维标签之间的文本量一开始很短。随着你花费更多时间,进行更多步骤的强化学习,你会发现模型实际上倾向于更充分地填充这些思维标签。思维链实际上会变长。

输出也变得更准确。这告诉你的是,模型实际上是在独立地重新发现和利用推理时间缩放定律。他们有一个惊人的图表。它是论文中的图三,他们展示了每个响应的平均长度的这种非常线性的增长。换句话说,基本上是这些思维标签之间的文本量以及模型为生成这些输出而投入的推理时间计算量。

再说一次,这并不是因为有人硬编码了这个想法,比如,顺便说一句,你在思考上花费的标记越多,换句话说,你花费的推理时间计算越多,你的输出就会越好。不,这是一个自然的结果。这是模型只是通过纯粹的强化学习偶然发现这种策略。这是一件非常非常重要的事情。它之所以重要,不仅仅是因为我们现在不必收集这些巨大的有监督微调思维链数据集,尽管这确实是一件非常非常重要的事情。

但它也表明推理时间缩放定律的鲁棒性有多强。它们是关于人工智能系统的收敛事实。当你用强化学习训练系统时,它们会独立地发现这一点。关于R1.0,我要说的最后一件事,然后我们将继续讨论R1,这是一个略有不同的故事。

R10难以坚持只使用一种语言。所以记住,你训练它做的只是获得正确答案或没有获得正确答案,或者更确切地说,你奖励它的只是获得正确答案。你没有告诉它如何思考。你没有给它思维链来进行训练。

所以你往往会发现模型实际上会在语言之间切换。有时它会有时生成文本。它不是人类可读的。他们将其称为一个问题,一个问题,几乎像一个错误,但实际上并非如此。思考这个问题的方法是,这是一个特性。有一个很长的复合德语单词可以捕捉20个英语单词的含义。

而且可能有一个汉语单词或法语单词可以捕捉20个英语单词的含义。当你可以使用确切的单词并将更多思考压缩到一个或少量标记中时,如果你试图优化计算效率,你应该这样做。

我认为,这就是你看到这种奇怪的语言切换的实际正确解释。模型基本上利用了这一点,比如,嘿,看,对我来说,英语实际上并不存在。法语或其他语言实际上并不存在。没有必要在一个语言中保持连贯性。我在我的思维链中使用任何碰巧最有效的语言或推理工具。

所以你最终得到了这个。这个问题,我们早在OpenAI的O1发布时就指出了这一点,OpenAI说,嘿,看,它正在通过人类可理解的思维链进行推理。这对人工智能安全来说多么好,对吧?这意味着我们可以理解模型实际上在思考什么,如果它开始思考某种危险的想法,我们可以进行干预。

当时我们说,等等。这绝对不会是这些东西的最终状态。总有比人类可理解的方式更有效的推理方式。这就是我们在这里看到的。我认为这非常清楚地表明,当你只是让模型根据奖励进行推理,并且你没有引入人工的人类废话时,模型会自然地学习以越来越不为人理解的方式进行推理,因为人类的可理解性是一项任务。

这是一项你强加给模型的税。这是一个你最好去掉的额外的、不必要的归纳先验。所以无论如何,我会把它停在这里。对不起。非常令人兴奋。这是一个非常好的值得指出的点。这也是R1.0和R1之间存在差异的部分原因,我们接下来会讨论,对吧?这里有一些细微之处需要讨论。

关于R1.0的几个细微之处。所以R1.0,这是一个纯粹的强化学习模型。这是通往R1的第一步。他们确实只是从基础模型开始。他们有一个非常简单的模板。所以他们给模型的提示确实告诉它要考虑推理过程,在给出答案之前输出一个思考过程。但这几乎是他们告诉它的唯一事情。

他们只在数学问题和编码问题上训练它。我认为这对于强化学习来说很重要。我认为人们经常忘记这是强化学习本身的一个局限性。如果你没有以编程方式获得奖励的能力,在这种情况下你可以,那么

强化学习就更加困难了。如果你有,你大概有各种推理过程,你有关于如何浏览网络的推理过程等等,那么通常可能无法训练强化学习。至于语言问题,我确实想提一下,这是一个有点离题,但我认为值得回顾一下。

对于那些长期关注人工智能的人来说,我认为是在2017年,在旧时代,深度学习是所有炒作,而大型语言模型还不是一个东西的时候,有一个关于人工智能发明自己语言的新故事。我认为当时它还不是Meta,也许吧。

他们正在撰写一篇关于讨价还价的论文,这是一个多智能体系统,其中有两个人工智能模型进行讨价还价。无论如何,我们称之为讨价还价。所以他们做了类似的事情,将这两个模型一起优化。他们发现这些模型开始基本上使用胡言乱语,使用,你知道,

你知道,标点符号等等,不是人类可读的东西。就像这里一样,这是很有道理的。因为如果你的奖励只是,你知道,获得正确的输出,获得它的过程,你没有告诉模型该做什么,它可以在此过程中编造它自己的奇怪语言。这并非恶意,这并不令人惊讶,即使这只是,

一个相当合理的成果,即让模型不受约束。它现在可以随心所欲地做任何事情。所以当时对于那篇论文,他们明确地提到他们添加了一个奖励组件。然后他们添加了一点奖励,就像,这实际上应该像英语一样。然后它实际上是可理解的。

在某种程度上,这与他们在这篇论文中所做的事情类似。所以现在我们可以从R1.0转向R1了。R1是R1.0,但有一些额外的限制、约束和你可以说的一些设计考虑。为了快速介绍这个过程,他们开始训练R1.0。

R1,不是R10,通过进行监督学习。所以他们通过结合不同的东西获得了一个推理轨迹的数据集。至少据我所知,他们为此使用了一些DeepSeek R10。他们使用了一些其他方法来获得其中的一些。然后他们只是训练模型来模仿该数据集,这部分是OpenAI可能正在做的事情,付钱给人类

人们来生成数据进行训练。

然后,在进行有监督微调之后,他们进行了一些额外的强化学习。所以在对R1进行有监督微调之后,他们在R1上进行与R1.0相同的强化学习,以某种方式,我想,将其偏向某个方向,该方向确实使用人类可理解的方法。然后他们进入,在论文中,还进行了蒸馏并获得了更小的模型。

最终,你会变得有点复杂。我不知道你是否可以称之为复杂,但它并不像看起来那样简单。这套步骤有点不直观,

我会说,你知道,可能不是最佳的,但它仍然,它仍然非常有趣,他们还进行了大规模强化学习。当它开始训练R1时,他们将它与有监督的火力训练混合了一点,这让你获得了LLM类型的清晰度和R1.0推理的最佳效果。

是的,绝对的。当他们这样做时,对吧,当他们添加有监督微调步骤以使其以人类可理解的思维链术语进行思考时,对吧?

是的,人类的可理解性绝对上升了,但性能下降了。这是一个轻微的下降,但确实存在性能下降。所以前面我说过,为人类的可理解性、人类的可解释性付出代价,他们实际上是在衡量这种代价。你要么会优化一个非常好的推理器模型,要么会优化一个人类可理解的模型,但这两种东西意味着不同的东西。

迫使公司制造更好的推理器的压力最终将非常非常强大,并且可能比迫使公司制造人类可理解的推理系统的压力更大。在这种程度上,你开始担心诸如隐写术或甚至只是像某种危险的事情之类的显式推理。

人类可理解的推理轨迹,因为那是你期望这些事情在未来发生的地方。所以我认为这非常有趣。顺便说一句,思考这个问题的一种方法是

R1是你实际使用的模型。对于现在来说,对于许多应用程序来说,你想要使用的模型可能更易于人类理解。但是R10是向你展示强化学习未来的模型。这个模型说明了RL可以扩展并且确实有效。所有这一切的最大教训

现在这回到了,这不是投资建议,而是观察英伟达的股价走势。那里发生了很多事情。但是当你考虑是什么导致英伟达起飞时,它基本上是Rich Sutton在“痛苦的教训”中首先提出的论点,对吧?那就是,规模为王。许多人误解了这意味着什么。“痛苦的教训”的重点不是你不再需要聪明的主意了。很多人这么认为,但是

而是,你需要找到聪明的方法来摆脱你的优化过程。你需要找到方法来消除归纳先验,让计算去做计算所做的事情。这实际上需要聪明的主意。这些正是DeepSeq在v3和特别是r10中如此出色地使用的那种主意。

所以当你喜欢这个的实际提炼时,DeepSeek表明你可以在至少推理时间上达到Open AI,比如大约30分之一的预算。

训练费用为500万美元或600万美元,他们的星号是这仅适用于导致成功输出的特定训练运行期间使用的计算量。我们之前讨论过这个。它没有考虑他们必须运行的所有实验,但仍然。好的。所以换句话说,我可以获得更多每浮点运算的智能。我可以获得更多每单位计算的智能。这就是DeepSeek的故事。这听起来像是英伟达的看跌案例吗?

对我来说,这听起来像是对英伟达的利好消息。从本质上讲,你们的GPU在推理时间上的价值提升了30倍。这就是它的含义。这意味着通过应用DeepSeq在此过程中学习到的经验而获得的缩放曲线斜率实际上比我们之前想象的要陡峭得多。投资回报率甚至更高。

而且因为对智能的需求永无止境,这正是经济的字面基础。它们本质上是一个巨大的引擎,其中很大一部分。所有这一切都意味着人们喜欢在面对同样的问题时,无论你是谁,是Anthropic、OpenAI还是其他任何人,你都会问自己同样的问题:我最多能投入多少资金到我的计算预算中?

然后我就能得到我所能得到的任何智能。这意味着你实际上会得到30倍的回报。因此,如果有什么不同的话,这实际上为以下观点提供了支持:为什么我们不尝试一下,如果可能的话,把更多资金投入到预算中。

这就是将会发生的事情。相信我,这就是将会发生的事情。现在已经有很多人认为这是悲观的新闻。但是当你与实验室里的人交谈时,情况并非如此。这非常类似于缩放仍然非常活跃。我们恰好处于这个特殊时刻,我们正处于范式转变的转折点,对吧?我们很长时间以来,预训练都是主要的范式。现在我们让推理时间的计算在强化学习等方面占据更多比重。并且

这给了新进入者超越的机会。但在未来六个月、十二个月里,根本性的问题将回到:是的,但是你能投入多少计算到这些相同的策略中?如果DeepSeek没有得到很大的国家支持,他们将会挣扎。

他们已经在努力,正如他们的首席执行官所说,他们正在努力获得足够的优质计算资源来推动这项运动。出口管制绝对在打击他们。这是另一个被误解的教训。每个人都像,“哇,一家中国公司做了一件非常令人印象深刻的事情。出口管制有什么意义?”不,不,不。教训是计算的重要性比昨天高出30倍。出口管制更加重要。这就是真正的教训。

总之,有很多事情。我们将在政策部分讨论这个问题,因为Anthropic的Dario发表了一篇博客文章,在我看来,这篇文章非常棒。无论如何,所有这些都是为了回答一位观众在Discord上提出的问题,这就是我对出口管制故事的看法。顺便说一句,这是一个非常令人印象深刻的模型。我认为许多试图应对的人,你知道,这实际上并不是超级,它令人印象深刻。它绝对令人印象深刻。它

也绝对符合潮流。但令人疯狂的是,你有一家中国公司在能够做到的事情或接近能够做到的事情方面走在潮流前沿。也许不是完全处于前沿。无论如何,这是一个非常令人印象深刻的模型。看看经过Sweet Bench验证的分数,你知道,49.2。这比OpenAI的O1模型在12月17日要好。这告诉你你需要知道的一切。这是真实的。它具有巨大的、巨大的影响,但它们与许多人认为的主流叙事有所不同。

对。我认为我们将在商业部分花更多时间讨论主流叙事和对R1的反应,我认为这种反应非常极端。现在,我们将更多地关注技术细节。在继续之前,我还想对这篇论文的技术报告说一件事。

其中一件非常有趣的事情,而且我非常欣赏这一点,这做得还不够多,他们确实有一节关于不成功的尝试和对他们不起作用的事情。他们确实指出过程奖励模型是一种有效但最终失败的方法。

计算不值得。事实证明,只做强化学习比这种更复杂的方法更好。他们确实尝试了受AlphaGo、AlphaZero和其他算法启发的蒙特卡洛树搜索。这也是人们热衷于进行更多搜索过程的想法之一,你进行搜索以获得良好的结果,而不是仅仅进行强化学习,这似乎是这里的情况。我还认为

XactoRail设置中缺少一些细节,因为有

各种方法可以进行强化学习。他们确实使用了GRPO,我们甚至没有提到这一点。但值得一提的是,他们使用的是组相对策略优化作为强化学习算法,他们在2024年初就提出了这个算法。这也证明这是一个非常有前景的算法。

该算法使得训练更高效。我们无法深入细节,但它似乎效果很好。总之,这是一篇很棒的论文。如果你关注这些东西,这是一篇非常有趣的论文。R1当然令人印象深刻且令人兴奋。我们可能稍后会再谈到它,但是......

接下来,还有几个故事我们无法深入探讨。所以我们将开始快速推进。首先,下一个故事再次关于DeepSeek。这很有趣。就在R1之后,很快他们就宣布了......

另一种类型的模型,一种名为Janus Pro的多模态AI模型,他们声称其性能优于其他类似模型。关于DeepSeek R1值得注意的最后一件事是,它的许可非常宽松。我认为它是MIT许可证,这基本上意味着你可以随心所欲地使用它。这意味着你可以将其用于商业应用,用于

你知道,研究,显然,几乎任何事情。没有任何限制,而其他开源版本通常都有这些限制。这也是为什么这令人兴奋的另一个方面。现在,这是一个你可以用来构建的尖端模型之一。显然,这对这个领域的许多人来说都是令人兴奋的。现在继续,我们还有很多故事要讲。所以我们必须加快速度。

接下来,我们还有一个关于DeepSeq及其发布的另一个模型的故事,这并不是什么大不了的事情,但仍然非常酷。他们现在有一个名为Janus Pro的模型,这是一个文本到图像模型,也以VMware MIT许可证发布。

类似于,你知道,其他文本到图像,我认为很难确切地说。你知道,它看起来非常好。据报道,它在基准测试中确实优于DALI Free和其他模型,如Stable Diffusion Excel。他们发布了70亿参数版本和10亿参数版本。所以它......

有一些非常好的开源文本到图像生成器,这并不是什么大不了的事情,但令人印象深刻的是,DeepSeq作为一个实验室,实际上是一个研发项目,而不是一个商业项目,现在正在将多个这样的模型发布到开源中,并产生了很大的影响。

是的,值得一提的是,擅长制作推理模型的公司也往往擅长制作这种多模态系统。这并非巧合。但无论如何,因此看看未来DeepSeek是否会发布更多多模态模型,将推理与视觉和其他模态结合起来,这将很有趣。我的确希望这即将到来。

对。我想在这里还要提到一个细微之处,我认为在它的描述中,他们强调的是这统一了多模态理解和生成。所以最大的亮点是文本到图像部分,但他们正在结合,我们有视觉语言模型,它们是

图像加文本到文本。这是图像理解。我们还有文本到图像模型、图像生成模型,它们只是文本到图像。这些通常以不同的方式、略微不同的方式、以不同的方式进行训练。所以这里非常有趣的是统一,并让它们协同工作。所以这里再次有一些相当重要的技术见解是新颖的,并且

实际上可能具有相当大的影响力。还有一篇关于Janus Pro的论文,即使用数据和模型缩放进行统一的多模态理解和生成。无法深入细节,但同样,这是一项非常令人兴奋的研究,也是人们可以使用的模型。

继续前进,我们还有另一个令人兴奋的Baywater版本,它发生在R1之后。这并不是什么大不了的事情,但仍然非常值得注意。而这一次是关于QEN 2.5-1M。

所以Quend来自另一个中国组织,我相信它由阿里巴巴资助。他们已经在这个Quend系列模型上工作了相当长一段时间。因此,他们现在发布了这个最新版本的技术报告,该报告侧重于长上下文长度。因此,名称中的“-1M”是Quend。

因为他们将其扩展到能够处理100万个标记。因此,他们发布了一篇论文,其重点是如何实现这一目标

长上下文缩放的优化。他们还发布了它的变体,70亿参数和140亿参数,并更新了他们的API以访问它。所以再次,我认为这是开源模型中缺失的部分之一。通常,你通常会得到大约128,000个标记的长度。所以再次,

有效地扩展到长上下文是一件非常重要的事情。是的,他们为此使用了大量技术,这些技术在文档中都有很好的记录。其中一个关键技术是渐进式长度训练。我们之前见过这种情况,但他们在这里将其推向了极限,你从相对较小的上下文窗口或有效的上下文窗口开始,在这种情况下大约为4,000个标记。

他们逐渐增加它。你达到32,000,你知道,大约64,000。你基本上每次都在翻倍,直到你的模型最终达到能够容纳完整上下文并在诸如“大海捞针”评估等方面表现良好的程度,这是他们关注的事情之一。还需要跟踪。因为注意力机制本身并不关心词序,所以你必须基本上叠加某种

无论如何,你使用一种技术来在你的嵌入之上叠加某种正弦型模式,以便你可以跟踪哪些词在哪里。他们使用自适应绳索基频,这些频率随着上下文长度而增加。基本上,这是一种动态调整......

调整这种词序计算策略的方法,因为你增加了上下文窗口。训练数据混合也很有趣。对于渐进式长度预训练,他们所做的是,对不起,训练,他们使用的文本的75%实际上是该长度下的完整上下文。其中75%是它可以达到的最大长度。然后他们有大约25%的较短序列。但无论如何,使用了我们不会过多详细介绍的其他各种技术。我们过去谈到过稀疏注意力。他们确实使用了它。

很多方法可以进行VRAM优化,在芯片上等等。所以它确实很酷。这是这些非常注重工程的开源开发之一,对吧?我们开始看到,为了能够阅读这些论文,你必须了解硬件,并且必须能够深入了解你的VRAM和SRAM在所有这些爵士乐中都在做什么。所以

而且我猜你可以说,尖端AI越来越关注工程方面,或者至少工程方面与架构和建模方面完全密不可分。无论如何,我觉得这非常有趣,而且与我们的硬件剧集时间安排得很好。怎么样?

是的,完全正确。此外,关于缩放定律,我认为值得注意的一点是,显然,缩放的一般想法是,你制作更大的模型,你获得更大的数据,你将这些东西结合起来,你就能获得更好的性能。正如我们在DeepSeq v3、R1和这个中看到的那样,

最终,进行有效的缩放并不容易,正如你之前所说,对吧?所以这是关于找出正确的成分组合、优化过程、硬件等等,以及使你能够进行有效缩放并最终解决各种问题的数据。

而这是对该领域中现有知识积累的又一次证明,两年前人们还无法利用这些知识。

接下来是下一个故事,再次是Quent团队的第二个版本。而这一次是Quent 2.5-VL。正如我提到的,这是一个视觉语言模型。它专注于分析文本和图像、视频理解和物体计数。与OpenAI的运营商模型类似,

以及在Frappic计算机使用API上,这将增强他们控制网站浏览并以积极的方式为你使用计算机的能力。我认为这个不太重要,再次,正如你喜欢提到的那样,

Jeremy写了一篇有趣的博客文章。这篇博客文章的标题是Quent 2.5 VL、Quent 2.5 VL、Quent 2.5 VL。Quent团队到底发生了什么?水里有什么?有人很有创意。他们发布的博客文章并不枯燥。

所以是的,在这里他们展示了该模型的各种演示。因此,很明显,这些团队正在获得大量资源,或者至少他们能够在这个时候取得很大的进展。我认为这也是为什么对所有这些事情的反响如此强烈的原因之一。

是的。他们必须在这里做出的具体改进之一是在长视频理解方面,正如他们所说,超长视频理解,因为这就是你需要制作一个像这样的在计算机上运行的代理所需要的。

我会说,从国家安全的角度来看,你想想,所以我们已经或多或少地谈到了关于伪宽松许可证的法律图景的想法,对吧?你有一家中国公司发布了一些性能非常好的模型。并且有一个许可条款说,如果你有任何问题

例如,使用此模型,这些问题将在PRC法院,在中国法院进行诉讼,对吧?这让你有点开源战争的感觉,你知道,它让你处于CCP的保护伞下。这是一种有趣的事情,也许是有点学术性的问题,或者不是完全的,不是什么大不了的事情,但却是美国的一个障碍。

在这里,当我们越来越多地转向实际上可以控制你的计算机并做实际事情的运营商类型模型时,例如,可能为你发送电子邮件或访问你的个人数据并将其泄露到你的权限范围之外的服务器,这开始成为一个真正的问题。你想想以在这些模型中植入某种黑门和特洛伊木马的形式进行开源战争,以使它们以某种方式运行,你

实现中国共产党或任何开发它们的人的目标。这实际上是一个非常有趣的策略,开源非常,你知道,我不是说这就是这里发生的事情。我怀疑不是。但是随着我们越来越习惯使用这种来自Quinn或DeepSeek或其他任何地方的模型,我们应该开始考虑的是,谁在构建这些模型?

他们有什么动机以我们无法理解的方式掩盖某些行为,因为我们缺乏解释这些系统细节的技术?我认为从国家安全的角度来看,这是一个被低估的方面。在未来一年中,我们可能会发现,哦,糟糕,最新的零日漏洞实际上是使用所有这些部署的来自Quinn或DeepSeek或其他任何地方的代理模型。所以我认为这是一个非常有趣的方面,值得跟踪。

没错。继续前进,我们将开始快速推进,转向工具和应用程序。我们将从所有R1和Quinn的故事中稍作休息,转向OpenAI和

转向另一个与积极的计算机使用故事相关的案例。就在最近,OpenAI启动了Operator的研究预览版,这正是你可以在ChatGPT中使用的工具,它可以浏览网络并进行与Anthropic和在这种情况下,Quint团队所展示的同类型的计算机使用。

因此,如果你访问operator.chatgpt.com,并且你有权访问,你只能作为美国用户尝试它。如果你至少目前处于200美元的专业订阅级别,那么你可以使用它。并且会弹出一个带有专用网络浏览器的窗口,代理将开始使用该浏览器。

作为用户,你仍然可以控制,因为运营商正在使用它自己的东西。它并没有控制你的计算机。所以你可以继续做其他事情。

OpenAI表示,Operator有一个计算机使用代理模型。除了这一点,我们对它知之甚少,类似于Anthropic的计算机使用模型。但显然,它经过训练可以与视觉网站交互,能够点击和阅读文本、导航菜单等,

所以这是Anthropic在10月份,几个月前推出的东西,他们在他们的API上进行了预览。当时,这是一件大事。我认为人们仍然对他们的GenTech AI非常看好。所以,你知道,我认为它被R1及其周围的讨论所掩盖了一点。但我确实认为这似乎相当值得注意。

确实如此。而且,你知道,它并不完美。他们对此非常坦率。显然,他们必须这样做,因为如果你要发布一个,你知道,模型并说它是以这种方式积极的,人们会将它用于真实的事情。因此,他们确实表示,目前Operator无法可靠地处理许多复杂或专门的任务。

例如,创建详细的幻灯片、管理复杂的日历系统或与高度定制或非标准的网络界面交互,很好。所以这就是它无法做到的事情。但他们在这里明确地采取了一种谨慎的方法。他们要求对某些任务进行监督。所以银行交易和......

在其他需要你例如输入信用卡信息的领域,用户必须介入并实际执行此操作。OpenAI确实表示,这在这种情况下是相关的,Operator不会收集或截取任何数据。所以这显然是,你可能会担心在一个运行Operator的系统中输入你的信用卡信息。他们的说法是他们没有收集这些数据。所以这有点意思,在这个开放式环境中,你在人和AI之间进行这种交接的地方在哪里?

我的意思是,归根结底,在我们拥有完全成熟的AGI之前,对吧?我们不会对这个问题有一个明确的答案。即使在自动驾驶汽车中,情况也更加棘手,至少在那里你处于一个非常受限的环境中。你知道,你在,你知道,你在路上,你知道,只是其他汽车、行人。这是一个众所周知的很复杂的环境。不要误会我的意思。

但与整个互联网相比,你将遇到一些非常奇怪的分布外设置。那里的风险也很高,对吧?你可能会把钱送出去,你可能会下载恶意软件,做各种事情。从某种意义上说,这是一个对抗性环境。所以我觉得这将非常有趣,看看他们能多稳健地制作这些模型?他们能多快改进它们?但正如你想象的那样,有很多合作关系。

与DoorDash、Instacart等公司合作。所以很多YC公司,这很有趣,因为显然Sam Moulton曾经是Y Combinator的总裁。所以他和那些家伙关系很好,还有eBay、Priceline、StubHub、Uber等等。所以

只是,你知道,确保Operator尊重他们的服务条款显然是他们的首要任务,也是Operator在这里进行良好初始试运行的一种方式。没错。我认为与Anthropic类似,Anthropic的计算机使用API类似于Anthropic的Project Mariner。

谷歌,这是在12月份宣布的。关于何时广泛可用和可靠,没有确切的时间表。我的印象是,对于所有这些努力,这正在将我们带向未来,在这个未来中,代理将代表你做事情。但我们可能还需要一段时间才能到达那里。看看OpenAI现在才发布这个,在Anthropic之后几个月,

有多种限制,它也拒绝发送电子邮件和删除日历事件,这,你知道,作为一个助手,你可能希望你的代理根据需要发送电子邮件和删除日历事件,对吧?

所以是的,看到更多朝着这个方向的工作令人兴奋。如果整个想法是,“请为我买一张票”,我不知道为什么每个人都喜欢让AI为你预订旅行票的想法。我认为这不是一个好主意,但这通常是人们提到的一个想法。显然,最终我们会到达那里,我们正在朝着那个未来前进。我会更多地谈谈我对这个问题的看法,但我必须赶上我凌晨3点的纽约航班,所以......

很好。所以,继续前进,回到DeepSeek和故事的另一个方面。所以,显然,作为我们这些整天报道AI的书呆子,R1的论文非常令人兴奋和有趣,有一个

哦,一个一级模型,几乎是一个一级模型,这甚至出乎意料。但DeepSeek故事中另一个让我感到惊讶和有趣的是,他们的智能手机应用程序。

变得非常流行。所以故事是,DeepSeek应用程序在Google Play商店中排名第一。这意味着自1月中旬以来,它下载量超过120万次,全球总下载量超过190万次。这太疯狂了,对吧?因为显然我们已经看到ChatGPT病毒式传播,

我们已经看到使用量出现了巨大的激增。DeepSeek现在几乎凭借他们自己的ChatGPT竞争对手聊天机器人病毒式传播,在这种情况下,它是一种免费与v3模型对话的方式。

人们正在,我想,蜂拥而至,这再次是一种让我感到惊讶的事情,我想这会让OpenAI有点担心。我们看到了一些反应,例如,对人们对此感到兴奋感到不高兴。所以很明显,我认为这也是我们对DeepSeek R1发布反应如此强烈的原因之一。

是的,我认为一旦这些新的范式达到硬件饱和,归根结底,它将演变成相同的事情,对吧?谁拥有更大的GPU堆栈以及运行它们和冷却它们的能量以及能力?所以我认为在这种情况下,中国最终处于与他们之前或多或少相同的位置。如果他们难以在预训练的基础上竞争,那么当推理时间的计算变得更重要时,他们将继续难以竞争。只是

我们还没有达到这些特定技术,这个范式已经在硬件上扩展到我们已经饱和了我们拥有的全部硬件的地步。这些优化正在我们说话的时候展开。这是与下一代不仅是英伟达硬件,还有数据中心、计算机和网络结构的设置方式的设计对话的一部分。是的,人们很快就会超越DeepSeek、O1平台。

和R1级别的性能。我认为你会看到,除非中国持续且共同努力,这很可能,巩固计算并进行大规模的训练运行,才能在计算基础上与我们在西方的计算能力竞争,否则你会看到同样的事情再次发生。我猜你会看到西方模型的起飞,显然会领先。

但是开源和闭源之间的差距可能会继续缩小。这值得关注。我会说,随着这次发布,你知道,在美国Play商店排名第一,DeepSeek应用程序本身的数据会发送到中国服务器。所以请自担风险使用。但这再次是一种形式,它不是开源战争。这有点不同,因为这是应用程序,某种程度上是部署的应用程序。

但这是OpenAI和Anthropic,尤其是OpenAI所享有的结构性优势的一部分,因为品牌认知度。随着人们更多地使用该系统,他们会获得更多数据,这些数据可以用来训练他们的下一个模型。但是,在这种情况下,请记住,军民融合是中国的一件事。因此,中国公司拥有的任何东西,中国军队都拥有。所以你正在向他们发送你的数据。这对每个人来说并不重要,但对某些人来说,它可能很重要。是的,如果你在谷歌工作,你可能不想将所有敏感文档的密码交给它,对吧?是的。

当然,值得快速提及的是,这再次来自中国。许多人报告说,它以各种方式受到审查,正如中国政府意料之中的那样。尽管如果你获得开源模型,规避起来很容易。正如我们所报道的,你可以取消训练这些模型中的各种限制。该模型知道它不应该说些什么。

所以,是的,在应用程序中,我们可以期待这一点。但同样,我的印象是,如果你想尝试一些免费的新事物,你可能更喜欢 ChatGPT,而且你不担心敏感信息,它实际上是一个不错的应用程序。我相信这就是人们蜂拥而至的部分原因。下一个故事再次,

我们报道了 DeepSeq,现在我们回到 Quen。除了那个百万上下文长度模型之外,阿里巴巴还发布了 Quen Chat v02。它引入了诸如网络搜索、视频创建和图像生成等功能,这些功能都包含在该聊天界面中,它增加了一些我认为更简单的功能,例如文档分析和图像理解,这些功能已经存在。

因此,网络搜索紧随 OpenAI 不久之后而来。为 ChatGPT 添加网络搜索是其获取上下文以回答问题的方法之一。

我认为值得注意的是,在中国,它正在填补这个利基市场,或者至少是一家公司正在填补这个利基市场,即提供一种你可以付费使用的 ChatGPT 式消费者服务聊天机器人。

现在,我认为如果你使用命令聊天,你拥有的一个不错的优势是,它们拥有一个具有非常长上下文大小的百万参数模型,这更类似于 Unpropic、Opus 或 Gemini,它们同样优化了长上下文。所以

1 月份中国在大型语言模型和人工智能领域发生了很多事情。继续前进,回到美国,但仍在讨论 DeepSeek。它确实风靡一时。下一个故事是关于 Perplexity 的。

Perplexity 是一个非常流行的 AI 驱动的搜索界面。他们很快就在美国推出了 DeepSeek R1。因此,现在如果你使用 Perplexity,你可以选择使用 R1 来支持专业搜索模式。这曾经是

一个仅有的选项,现在你可以选择在那里使用 DeepSeek R1。所以没有什么好说的,但有趣的是,首先,他们在发布后这么快就将其集成到他们的产品中,在美国托管该模型,并将其作为人们使用的选项。是的,我的意思是,如果我是 Perplexity,我会非常喜欢这种策略。虽然它不会持续太久,但

至少目前和将来,拥有这些可信赖的、具有前沿能力的 OpenAI O1 模型的替代方案,Perplexity 从某种意义上说是一个聚合器,是许多不同模型能力的聚合器。他们自己并没有构建前沿模型。他们将其外包给他人。在一定程度上,如果你有很多不同的公司在构建模型,你就会让这个领域变得更加商品化。最终的价值获取

如果情况如此,则在聚合层面更容易实现,或者至少它会成为一个更合理的附加值。我认为这是 R1 发布及其在此集成到 Perplexity 中的战略意义。

本节中还有几个故事。接下来,我们转向 Apple,以及一个,你知道的,有趣的小插曲,AI 正在做一些愚蠢的事情,这很好地融入到所有严肃的进展中。正如一些人可能看到的那样,Apple 有一些非常愚蠢的 AI 生成的新闻通知。这是在他们发布 iOS 10 之后发生的。

18.3 默认情况下启用了 AI,以及为什么我们没有将其作为优先事项来报道。我认为 Apple,它在雷达下运行得相当好,他们现在比

但没有被注意到的事情之一是它所做的愚蠢的事情,例如,他们在通知中总结了标题和新闻故事。这导致了许多非常愚蠢、不正确的总结,说了一些本质上是错误的事情。情况如此糟糕,以至于 Apple 按照新闻报道所说,已经禁用了此功能。也有一些例子。

类似地总结你从联系人那里收到的消息,非常尴尬或愚蠢的事情,至少有些人是这样得到的,所以是的,Apple 与其他公司相比,在进入这个领域方面相当缓慢,你可以说这是战略性的,但是

这并不是一个强烈的迹象,表明 Apple Intelligence 运行良好。这确实让我想起了 Gemini,对吧?当 Google 推出他们的产品时,你会看到类似的非常愚蠢的事情,这表明这些公司正在仓促推出这些东西。是的,绝对的。我认为 Apple,有点像亚马逊,有几家公司值得注意的是,它们进入游戏较晚,并认识到,是的,就像 Apple 一样,

似乎缩放定律确实有效,伙计。我们正在朝着 AGI 迈进。我不知道你们一直在做什么,但落后的代价是,它在各个领域都是如此复杂,对吧?比如你的硬件堆栈、你的网络,你为了构建数据中心所需的能力而做的事情。然后是模型开发团队,就像堆栈的每一层一样,你必须找到方法来说服最优秀的人才,因为最优秀的人才......

在这个领域。就你能从他们的工作中获得的杠杆作用而言,他们绝对是 10 倍、100 倍的工程师。因此,第一名和第二名之间的差距是天壤之别。所以我认为这是税收的一部分,无论如何,Apple 和亚马逊都在支付,而亚马逊至少拥有

明智地与 Anthropic 合作以获得帮助,你知道的,让他们的 Inferentia、Trinium 3 芯片上线。因此,Apple 并没有这种合作关系。我认为这实际上对他们不利。我认为,如果我在 Apple 工作,我会考虑做的事情之一是,你如何找到一种方法与真正的前沿实验室合作,让他们帮助你构建?因为显然进展不顺利。顺便说一句,我想值得一提的是,这,

iOS 18.3 有其他更新。现在有视觉智能,你可以用你的手机指向某物。

并询问你正在拍摄照片的任何内容,类似于你可以使用 ChatGPT 做的事情。因此,Apple 正在推出其他一些功能,但我猜这是人们至少据我所知,人们所知道的最重要的功能。还有一个类似的故事,我相信很多人没有听说过,但报道起来很有趣。法国 AI Lucy 看起来很俗气。

这是来自标题的,但答案总是错误的。因此,法国推出了一个名为 Lucy 的 AI 聊天机器人,由政府支持,旨在推广欧洲价值观,显然是为了对抗 AI 工具中英语的主导地位。所以这将是,你知道的,这是一个如此欧洲的项目。对不起。它太欧洲了。是的。然后

启动后不久,它就被暂停了,因为它提供了不正确和幽默的回应,引起了娱乐和沮丧。所以有很多例子,比如它说奶牛蛋是一种健康的食品来源,诸如此类的事情。

所以相当尴尬,或者至少很有趣,就是这样。正如你所说,欧洲,作为更大故事的一部分,显然在与美国和中国竞争方面远远落后。这不是一个好兆头

关于欧洲发展这种技术的能力。是的,我觉得法国总统埃马纽埃尔·马克龙,他知道的足够多,可以花很多钱去做一些非常愚蠢的事情,但这显然并不愚蠢。这是一个危险的地方。无论如何,已经发生了几件这样的事情。

我的意思是,我想我之前在播客上说过,对于在家跟踪的人来说,我认为 Mistral,例如,将面临巨大的困境。我认为他们在一个规模化的世界中无法跟上,我预计他们会在某个时候倒闭,或者被收购,或者像我们看到的其他一些实验室那样发生的事情。

但我发现这里一件特别有趣的事情,对不起,太批评它了,但这很有趣。Lucy 的标志是一个女性的脸,据说它是法国共和象征玛丽安娜和是的,美国女演员斯嘉丽·约翰逊的结合,受到了广泛批评。在 GPT-4-0 debacle 之后,你为什么要选择斯嘉丽·约翰逊?我不知道。

我真的不知道。但这显然听起来像一个非常好的计划。他们继续做了。所以现在这只是这个巨大的政府对这个聊天机器人的投资的屎三明治中的另一层屎。我不知道。这里发生了这么多事情。我就像,我就是不知道。但我相信他们有计划。我相信他们有计划。对。他们确实收到了来自更广泛的国家......

国家投资计划的资金。顺便说一句,该组织是 Linagora,一家法国开源软件公司,是该项目背后财团的领导者。他们在一份声明中表示,此次发布为时尚早。是的,我们也看到 Google 和 Apple 也发生了这种情况。所以我想他们在这方面并不独特,但仍然。

有点傻。继续前进到应用程序和业务,我们必须再次回到 DeepSeq 并报道 R1 模型的结果和回应。我不知道这的确切时间表。这是一件有趣的事情。几乎没有人关心 DeepSeq v3,至少在商业世界中是这样。然后 R1 推出,每个人都疯了,开始

恐慌,或者至少在美国商业界显然存在大量恐慌。因此,标准普尔 500 指数下跌了 2%,纳斯达克指数下跌了 3%,英伟达股价暴跌了 17%。我的意思是,17%。这是 6000 亿美元的市值。所以

显然,我们看到了很多关于这个故事的新闻报道,很多报道都不太好,它们引用了论文中的 600 万美元的数字,与 OpenAI 投入的数十亿美元相比,你知道的,这显然是错误的。600 万美元的故事是关于训练成本,而不是基础设施成本。

至于对英伟达的影响,这相当微妙。可能是这种情况,

由于 DeepSeq v3 中报道的更有效训练能力,英伟达可能会看到未来的利润减少。但同样,对吧,这篇论文的论证是,对于那些被限制购买最新一代芯片的中国公司来说,他们可以使用相对较弱的可用硬件,

他们仍然能够进行训练。从这方面来看,你可以争辩说,英伟达可能无法销售那么多产品

旗舰芯片是最昂贵的。但无论如何,是的,从我的角度来看,这有点令人惊讶,也许这表明这几乎就像一个警钟。去年有一篇博客文章提出了一个关于人工智能的 6000 亿美元的问题,你已经看到了对基础设施的大量投资,但并没有带来利润,除了英伟达,我想。而且

所以我认为这也可能表明人们有点担心,所有这些巨额投资可能不会获得那么好的回报。我只是想像我之前做的那样,在这个整个叙事中泼冷水。我想明确一点,我不是英伟达的托儿。这只是一个事实,他们基本上控制着这个领域,并拥有巨大的市场份额。但是

Semi Analysis 发布了一份详细介绍此内容的精彩报告,尽管之前在某种程度上已经很明显了。但实际的资本支出,对吧?所以当你决定是否购买更多英伟达芯片时,你问自己的问题是,

不是训练我的模型的边际成本和计算量是多少。而是我的该死的集群要花我多少钱?我必须购买多少英伟达芯片?根据 SEMI analysis 的说法,该集群的总资本支出,总服务器资本支出为 13 亿美元。其中很大一部分用于维护和运营 GPU 集群以及运营。但这是一笔巨大的开支,比宣传的 600 万美元的训练成本高出几个数量级。

再次强调,600 万美元的训练成本可能是与一次训练运行相关的计算成本,特别是导致 V3 模型的那一次训练运行。它不是资本支出成本,当你决定是否购买更多英伟达芯片时,你主要考虑的是这一点。在很大程度上,英伟达的收入确实基于这一点。需要记住的另一件事是,他们宣传过,我们当时也讨论过,

当 V3 首次推出时。但我们正在学习,这有点像,球被弄丢了一点。我认为 Scale AI 的首席执行官 Alex Wang 甚至可能是达沃斯的 Dario 都进行了采访,他们在采访中错误地说了一些类似于有 5 万个 H100 的话,

可用于 DeepSeek。实际上,它是 H800、H100 以及 H20 的混合体,这些是中国特有的芯片,我们在出口管制方面讨论了很多,而且可能也应该受到出口管制,但没有。这是一款英伟达专门设计用于规避出口管制、直接低于门槛并能够向中国销售的芯片。所以

故事的寓意是,伙计,我们必须进一步加强出口管制。它们正在发挥作用,因为如果 DeepSeek 能够获得更多这种硬件,情况会糟糕多少?这是一个非常关键的问题。因此,当人们在我看来错误地解读了

DeepSeek 的结果时,股价暴跌。但另一个复杂因素是,就在第二天,我们发现特朗普总统想要对台湾半导体出口征收关税,他表示最高可达 100% 的关税,这实际上可以证明英伟达股价暴跌是合理的。所以现在我们想知道,股价暴跌是因为人们在第一天错误地评估了 DeepSeek 的影响,

还是由于对即将宣布可能对台积电或台湾进口产品征收关税的消息提前泄露以及内幕交易造成的?对我来说,现在这实际上非常模棱两可。我想知道是否有人做过详细的分析来解析这一点。我不知道该如何去做。

但我认为这里有一些模糊不清的地方,这使得事情变得非常有趣。所以底线是,我认为英伟达的基本面看涨,除了关税之外,这实际上将成为美国人工智能竞争对手的一个大问题。对。所以我想我们在分析方面都在同一页上,这似乎有点反应过度,而且只有从

更广泛的角度来看待 AGI 的前景以及通常构建这些大型数据中心,而不是专门针对 DeepSeek 本身。

继续前进,下一个故事也与数据中心有关,它与微软和 OpenAI 之间的关系有关。微软发布了一篇文章,更新了我们所知道的关于微软和 OpenAI 关系的细节。因此,微软不再拥有 OpenAI 的独家云提供商地位。

对 OpenAI 来说,尽管它确实拥有优先购买权协议,OpenAI 至少必须与他们进行沟通。

OpenAI 仍然致力于大量使用 Azure,但显然也试图放松与微软的关系。这也与我们将稍后讨论的 Stargate 项目有关,该项目似乎主要为了 OpenAI 的利益,OpenAI 获得了使用该项目成果的独家许可。

OpenAI 和微软有着悠久的合作关系,从商业战略的角度来看非常有趣。这是对持续变化局势的最新更新。是的,在某种程度上,也许并不最令人震惊。我们实际上在 OpenAI Oracle 交易的背景下讨论过这个问题,对吧?事后看来,这被认为是 Stargate 项目的一部分,这个位于德克萨斯州阿比林的项目。

他们正在合作构建的集群,对吧?这是我们第一次看到它。我们想,嘿,你知道的,这真的是 OpenAI 在他们与微软的关系方面偏离了轨道。正如我们当时所理解的那样,似乎已经发生了变化。据我回忆,当时的论点是,嘿,微软似乎有点担心,

追随 OpenAI 的步伐,就他们想要达到的速度而言,就这些建设而言,非常非常激进,对吧,比如 5000 亿美元超过,我想,四年或五年,不,四年。顺便说一句,也值得注意的是,

因此,微软每年在人工智能新数据中心建设方面投资 800 亿美元,如果你在四年内观察一下,这与 5000 亿美元的数字相差并不远。这里有很多事情正在发生。也许 OpenAI 希望独家使用该集群也是一个重要因素。这是一件大事。另一个被谈论过的事情,埃隆·马斯克也对此发表了推文,他既是对的,也是......实际上,我的意思是,我想他从技术上说是对的

萨姆将此描述为,是的,这是一项 5000 亿美元的投资。

资金已到位,用一句俗语来说。埃隆说,不,你没有获得资金保障。我从可靠的消息来源得知。他认为在 X 上的某个时候,软银只有,我不知道,100 亿到 150 亿美元的可用流动资金。无论如何,当你把这些金额加起来时,OpenAI 的 150 亿美元和 Oracle 的另外 150 亿美元或其他什么,这个数量级根本加起来不到 5000 亿美元。这是绝对正确的。

因此,实际上已经获得了 1000 亿美元的资金,希望能够及时筹集另外 4000 亿美元。因此,这额外的 4000 亿美元在某种程度上是一种营销策略。OpenAI 试图将这个项目打造成政府青睐的项目。这是一个重要的因素。我会说,我的意思是,OpenAI 的安全措施很糟糕。我知道这一点,因为我们在过去一年中一直在调查前沿实验室的安全以及对国家超级智能项目的影响。

这将在两周后发布。所以这可能会在这里报道。但是,当你向全世界宣布你正在建设一个你内部认为是超级智能集群的 5000 亿美元的集群时,你是在邀请国家关注。所以,你知道的,就像萨姆·奥特曼已经让中国注意到这将是一个非常肥美的设施,他们确切地知道他计划如何使用它。从安全角度来看,这并不是一件好事,并不是说你可以隐藏这些建设,但有一些方法可以做得更好

我认为你面临这种媒体激励,因为你也在试图吸引投资者

但这个建设的一个挑战是谁是投资者。因此,G42 通过......他们不是以 G42 的身份投资,而是通过 MGX 投资,但它是 G42。那是阿联酋基金。还有沙特资金,这是孙正义软银的主要贡献者。所以从非常真实的意义上说,Stargate 项目就像阿联酋和沙特资助的,

我必须看看,但我一点也不会感到惊讶,如果大部分资金来自这些来源。从国家安全的角度来看,这很有趣。必须非常仔细地审查附加在这些资金上的条件。我认为这是一个非常严重的问题。所以......

它说明了一些人对 OpenAI 特别是愿意为了国家安全利益而牺牲美国国家安全利益的挑战,根据一些关于俄罗斯和中国的报道,“我们将让这些国家试图竞标人工智能,相互竞争,让 AGI 项目落户他们的公司。”就是这样。不幸的是,当有这样一些非常可信的故事时,

这会让人质疑,当你开始接受沙特和阿联酋的资金来进行这些建设时,这背后的想法是什么?我并不假装知道。我无法读懂萨姆·奥特曼的心思。但这些是你想要考虑的事情,特别是如果你认为自己正在建设一个如此重要的项目。没错。接下来,另一个与 OpenAI 及其持续旅程相关的,你可以说,

与 OpenAI 的治理部分相关的,他们正在更新他们的董事会,增加了黑人创始合伙人 Adebayo Ogunesi,我认为你可以这样说。

所以他专注于基础设施投资,在瑞士信贷工作了 23 年。我不能说我对这方面的影响了解太多,但显然,你知道的,在 OpenAI 仍在努力转向盈利结构的时候,紧随其后的是,你知道的,我想,仅仅一年多前,我们有

非营利董事会

发生了一场政变。从那时起,权力逐渐过渡,大概是在幕后进行的。所以这是同时发生的,并且可能确实有一些有意义的影响。是的,基本上,我的解读是,他们需要一个能够帮助将巨额资金,比如沙特和主权财富基金的资金,带入大型项目的人。所以这是一个非常优秀的金融人士,在这方面经验丰富。

他们实际上在 10 月份说,他与微软、英伟达和阿布扎比的支持下,启动了一项与 GIP BlackRock 联合成立的 300 亿美元的基金,用于建设数据中心和相关的电力基础设施。所以这是一个与那些阿联酋利益相关者,也就是世界各地的 G42 有着丰富经验的人,并且大概在其中有深厚的网络。所以我的解读是,这就是这次任命的策略。

最后一个故事,只是为了报道一些正常的事情,我想,更像是我们在平静的一周可能会得到的事情。值得知道的是,专门从事人工智能语音技术的 11 Labs 在一轮 CEC 融资中筹集了 2.5 亿美元,这使得他们的估值达到 30 亿美元。我相信我们已经报道过这个故事,这是一个......

对该融资轮次的确认,由 ICONIQ Growth、Andrew Seaton Horowitz 领导,我认为这个名字可能不像 OpenAI 或 Anthropic 等那样广为人知,但作为人工智能语音技术领域的领导者,这是一个非常重要的组织,并且

我认为这显然反映在这笔资金和估值中。这就是说,让我们继续讨论政策和安全。完全跳过研究,因为我们没有时间。我们从 Stargate 和......开始政策和安全。

在白宫或无论如何,在唐纳德·特朗普在场的情况下宣布的事情。关于 Stargate 的宣传很多,你可以说,这是对美国人工智能基础设施的 5000 亿美元投资。所以有这个

特朗普在演讲中赞扬了这个项目,并表示这将使美国具有竞争力,这是“让美国再次伟大”倡议的一部分。他还提到使用紧急声明来促进基础设施发展。一个有趣的事情,显然,杰里米,你对此了解更多,美国政府

能否支持这个项目以及这个公告的影响是什么。有点奇怪,因为 Stargate 项目已经进行了一段时间,他们似乎现在正在以一种并非真正新闻但被塑造成新事物的方式推动它。是的。

是的,公平地说,这方面并不罕见。我认为台积电在拜登政府后期也做过类似的事情,他们想要宣布一个大型工厂。他们只是说,哦,我们将等到特朗普上任,然后,你知道的,让他为此获得荣誉。

这已经完成了。这只是政治如常的一部分。必须说,这是一个特别萨姆·奥特曼式的举动,特别是考虑到他现在正在努力改善与政府的关系,长期以来一直是,你知道的,一个非常公开的反特朗普人士。然后他发表了一些相当......

我不知道,一些令人尴尬的推文。就像当你一直在追踪他对前特朗普政府的观点时,看到这个 180 度大转弯就像,哦,这很有趣。你知道的,至少对我来说,这似乎非常清楚地表明

试图讨好他,就像,是的,你在经营一家公司,并且存在明显的治理问题,但这将成为任何处于这种地位的人的计算的一部分。至于这实际上意味着什么政府支持,没有,就像我没有追踪任何政府对这方面的投资。事实上,对于如此高的金额,总统本人很难说,嘿,是的,我们将资助你,因为国会负责拨款,

因此,获得更多资金,这只是总统在不从其他方面抽取资金的情况下难以轻易做到的事情。话虽如此,特朗普一直非常积极地推动放松管制,特别是环境法规和其他延缓数据中心建设时间和电力建设的问题。

这实际上非常重要。目前,我们与中国相比最大的差距是我们通过任何方式提供足够电力来建设大型园区的能力。我们或多或少拥有所有我们能够使用的硬件,但我们需要能源基础设施。拜登任期结束时发布了一系列行政命令,这些命令似乎仍在生效。然后,这很有趣。所以特朗普让他们继续存在,因为他们确实指出了放松管制。

但他正在采取其他行动,并且正在采取更大胆的行动来放松管制并推动事情向前发展,我认为,如果您是美国在这个领域竞争力的支持者,这是一个重要的举措。无论您在这个领域的立场如何,即使您关心失去控制(我绝对关心),您都希望美国处于领先地位,以便美国实验室有足够的时间来研究其调整技术,并且不会因为地缘战略因素而过于仓促。总之......

我认为这实际上是,特朗普表示他支持这一点是件好事。资金来源,这更多的是萨姆·奥特曼筹集资金的事情,资金来源可能是一个问题,除非仔细审查资金的用途。您可能需要来自境外的主权财富基金的资金。这可能是事实,但您绝对需要对这些资金的来源及其对项目的杠杆作用进行严格的国家安全审查。

正如您所说,再次强调,5000亿美元的数字基本上只是他们希望在未来四年获得的数字。

显然,1000亿美元的数字来自南银首席执行官孙正义,那里还有其他投资者,包括OpenAI。这是一个巨大的项目,也是一个非常雄心勃勃的项目。我想我们会看到最终会发生什么。接下来,更多与特朗普上任相关的新闻,这发生在昨天。

我认为上周我们无法报道。所以这令人惊讶,我想我们知道会发生这种情况。特朗普总统

特朗普撤销了拜登政府关于人工智能的行政命令,即安全、可靠且值得信赖的人工智能开发和使用命令,这是一个巨大、非常非常长的行政命令,做了很多事情。特朗普还有另一项行政命令,即最初撤销有害的行政命令和行动,该命令已生效。

正如您所说,特朗普似乎正在做的事情种类繁多。因此,这更多地关注许多机构的目标是实现安全方面的工作。

但是,其他拜登政策和命令并未成为此项的目标。是的,这实际上非常有趣。我认为当这项行政命令首次发布时,我们讨论过这个问题,但特朗普刚刚撤销的行政命令是一项试图做所有事情的行政命令,对吧?因此,支持它的民主党联盟包括各种利益和担忧的人,其中一些人关注的是像国家安全这样的核心问题,这些问题是

两党的,围绕人工智能武器化、失去控制的风险等问题。然后还有很多东西,你可以说,显然是民主党编码的,所以围绕伦理和

算法中的偏差等等。总之,当时它是美国历史上最长的行政命令。我认为它可能仍然是。所以当它发布时,阅读它是一件很有趣的事情。但你当然可以这样解读:他们推翻了这项行政命令,因为它包含了太多与核心国家安全问题无关的东西。问题是,他们将用什么来代替它?这项行政命令所做的一件好事是,它包括对任何使用超过 10 的 26 次浮点运算进行训练的模型的报告要求,对吧?

所以当时,没有模型在该阈值下进行训练。现在我们有一些了。但是,是的,所以问题将是,这是否会以某种形式恢复?还会有哪些行政命令?这是一个悬而未决的问题。所以我认为现在很多人都在解读很多东西,而这些东西实际上非常不清楚。但背后的原因是相当清楚的。任何关注此事的人都知道,政府一直在谈论此事。

他们将如何撤销这项命令已经有一段时间了。原因也很清楚,其中有很多无关紧要的东西与特朗普总统关心的核心国家安全问题无关。这就是他们采取的策略。很多事情,我们还没有看到它将如何发挥作用。

现在,正如承诺的那样,回到 DeepSeek,回到政策和地缘政治的影响。我们将通过您提到的杰里米,Anthropic 首席执行官达里奥·阿马迪的观点来深入探讨。

正如阿马迪之前所做的那样,他发表了一篇博客文章,表达了他的观点,说他们并不认为 DeepSeek 是对手,基本上说这并不一定是坏事,但同时强调了出口管制的重要性。所以阿马迪有点

在这里划了一条细线。他对 DeepSeq 及其所做的研究给予了很好的评价,但同时,我想,试图提醒人们注意这样一个事实,即

他们的总部设在中国,因此直接与中国专制政府联系在一起,并且必须遵守中国的命令,至少作为西方人,我们再次要明确一点,我们确实有一些偏见,或者可以说是一种对中国政府持负面观点的观点。同样在这里,阿马迪将中国定位为一个

不是一件好事。并且仍然重要的是要加倍努力或继续进行专家控制。是的,他还发表了一篇博客文章,这篇文章非常好,更详细地阐述了他对 DeepSeek 实际意义的思考。我认为在这个领域中的每个人或多或少都达成了共识。或多或少有两类人。他们就像那些正在关注 DeepSeek v3 的人一样,他们就像,天哪,

并且已经在脑子里进行了这些计算。然后,有些人只是在 R1 发布时感到震惊。媒体的报道主要集中在后者身上,但前者,无论如何,我们已经讨论了很多次了,但这基本上与这个想法一致,对吧?规模将继续发挥作用。规模曲线将继续占据主导地位。现在的问题是,有多快

以及西方如何饱和他们已经拥有的计算能力。一旦完成,我们将真正了解谁在这个领域领先。但最终,硬件为王,这并没有真正改变。我们只是有了第二个可以扩展的轴。达里奥非常有效地提出的一个观点是,看,自从训练 01 以来已经有一段时间了。我

自从训练 3.5 Sonnet 以来已经有一段时间了。在那段时间里,鉴于算法和硬件改进的速度,你几乎可以预期,你会得到一个在价值约 10 亿美元的基础设施上训练的模型,其中单个训练运行成本约为 600 万美元。这一切都不是那么令人震惊。事实上,它略微落后于曲线。令人震惊的事情不是,不是中国。

设法做到这一点本身。只是曲线本身非常陡峭。改进曲线,至少许多人相信,我相信,我们正在走向超级智能。这就是这些曲线所说的。如果你认真对待这一点,那么是的,每一次渐进式突破都会让人感到震惊。即使像 DeepSeek 这样的东西,在成本性能权衡方面可能比前沿落后几个月,也会让人震惊。当你开源它们并添加一些营销信息说 600 万美元时,

那么是的,它会产生影响。我认为这里的主要教训是期待更多这样的事情,不一定是来自中国,因为西方的规模开始推动事物发展,我会预期。但当然,来自其他地方的前沿实验室也是如此。对。现在是回到我们从 Discord 收到的那个问题的好时机,特别是杰里米的看法。显然,这里存在一些紧张关系。一方面,我们希望拥有安全,你知道,拥有......

你当然是一个非常关注安全的鹰派,希望了解调整问题等等。同时,你可以说,你是在美国和中国之间进行种族竞争吗?DeepSeek 就证明了这一点。所以是的,你的反应是什么,我想,这与调整和那些事情有什么关系?显然,中国在 DeepSeek 中拥有一个令人印象深刻的国家冠军。

中国二号人物李强与 DeepSeek 的一位联合创始人会面,对此有很多说法。中国银行宣布对人工智能基础设施投资 1 万亿元人民币,西方媒体错误地将其解读为 1370 亿美元。

如果你只是简单地进行货币换算,就会得到这个结果。但真正重要的数字是购买力,即购买力平价数字。按照购买力平价计算,这实际上是一项 2400 亿美元的投资。

所以这超过了实际承诺给星门计划的总资金。事实上,它超过了一倍多。所以当你考虑中共对此有多认真时,他们非常认真。他们现在在 DeepSeek 中拥有一个国家冠军,如果他们有足够的硬件,他们绝对具备竞争的技术实力。我还想提一下,不仅仅是 DeepSeek,阿里巴巴和 Quinn,我们不应该忽视它们。他们在前沿模型方面非常具有竞争力。

不,很好的指出。是的。当你并且,当你想到华为中芯国际的准入以及多少时,无论如何,关于硬件情况可能如何以及他们的 7 纳米工艺是否足以大规模生产具有足够良率的芯片来做有趣的事情,有一个完整的故事。很可能。但底线是,中国在这里是认真的。这就是西方国家安全机构有很多工作要做,并且必须更多地参与其中的地方。

你知道,有,无论如何,这正在演变成我们两周后将要启动的工作。但底线是我认为,我们必须对中国成为这场竞争中的一个活跃参与者意味着什么进行一些深思熟虑的权衡和计算。同时也要认识到,是的,调整尚未解决。像那里,那里有太多人关注这样一个事实,即调整是

控制超级智能系统可能是一个非常大的问题。他们几乎不想承认这一点,因为他们也认识到,试图与中国进行善意谈判是不可能的。我们在过去一年进行调查时一直在努力解决的问题是,

如果你认真对待这两件事会发生什么?如果你承认,是的,中国基本上违反了他们参与的每一个国际安全条约?他们利用了美国和俄罗斯在核问题上达成的条约,并且没有停止的迹象。同时,我们不知道如何控制超级智能,如果我们在能够控制超级智能之前就制造了超级智能,那么可能的结果并不好。你如何调和这两种观点?

我认为这正是许多双方都持有的有点盲目乐观、不切实际的观点的核心,这些观点并没有考虑到全貌。所以我会把它放在这里,因为我......

我会在这个问题上说得太长了。是时候进行政策讨论了。我已经听说了。最后一点,有一些与台积电相关的报道。我们将关注其中一个。所以有一个关于特朗普威胁关税的故事,以及台湾政府对此的回应。然后还有......

台湾政府批准台积电在海外生产 2 纳米芯片的有趣故事,这就是他们所谓的限制这一行为的“硅盾”。现在他们正在降低这一限制,这当然与台积电在美国的工作有关。

是的。在这种情况下,思考台湾的方式是,他们是一个拿走你婴儿的人。他们抱着你的婴儿。然后另一个人正对着他们指着枪。他们不会放开你的婴儿,因为如果他们这样做,那么你就会说,呃,是的,我不太在乎台湾是否会被枪杀。但他们抱着你的婴儿,这样你就会关心他们是否会被枪杀。他们就像,不,我们在这里建造所有半导体。如果中国袭击我们,那么你就得不到任何半导体。这真的很糟糕。这是一个完美的比喻。我很高兴听到这个。

是的。无论如何,

所以是的,这实际上长期以来一直是台湾国家政策的问题,即无论台积电的领先节点是什么,他们只允许在台积电外部建造制造厂,这些制造厂制造落后两代的节点。因此,当你看到台积电正在准备的亚利桑那州制造厂时,众所周知,这些制造厂是 4 纳米的。这是因为台积电目前的领先节点是 2 纳米制造厂,2 纳米节点。所以

是的,这正在改变。这是一个非常非常有趣的发展,对吧?这实际上是批准在美国建设 2 纳米、1.6 纳米等等制造厂,美国显然会对此非常感兴趣,因为他们需要快速提高生产这些芯片的能力。

如果发生像热战这样的事情,中国入侵台湾,我的意思是,假设一阶上所有台积电制造厂都被安装了自毁装置。基本上,你没有更多台积电了。然后一切都重置为,好吧,那么下一个领先的制造厂是什么?在这种情况下,中芯国际是一个非常有趣的参与者。

实际上。我的意思是,他们会有问题,因为他们无法获得光刻机和其他东西,但他们肯定会变得更重要。因此,中国在这种情况下的实力将更接近与西方的实力相当。

在这种情况下。因此,人们非常有兴趣在这些更高的分辨率下将台湾台积电制造厂和能力本地化。这就是我们在这里看到的。这基本上已经获得了批准。说得通。有了这些,我们就完成了这篇非常密集的以 DeepSeek 为中心的剧集。感谢您的收听。与往常一样,您可以访问说明以获取所有链接,访问 lastweekin.ai 或 lastweekin.ai 或 lastweekin.ai.com。

在网上也可以获得这些信息。与往常一样,我们感谢您的观看、分享、订阅,但最重要的是,感谢您的收听和在 Discord 上的聊天。所以谢谢您,并确保继续收听。

♪ ♪ ♪ ♪ ♪ ♪ ♪

♪ ♪ ♪ ♪ ♪ ♪ ♪

♪♪ ♪♪

谢谢。