cover of episode AI Computing Hardware - Past, Present, and Future

AI Computing Hardware - Past, Present, and Future

2025/1/29
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
A
Andrey Kurenkov
J
Jeremy Harris
Topics
@Andrey Kurenkov : 我研究AI,现在在一家人工智能初创公司工作。我学习软件和AI,训练算法,对硬件的理解相对较少,主要使用GPU并大致了解其功能。早期AI和硬件可以追溯到图灵时代,甚至在通用计算机出现之前,人们就已经在思考AI。图灵测试(模仿游戏)是用来衡量我们何时能够获得人工智能或通用人工智能的工具,至今仍被广泛讨论。20世纪50年代,出现了最早的AI程序,例如一个下跳棋的程序。马文·明斯基创造了一个名为随机神经模拟强化计算器(SNARC)的硬件神经网络,模拟老鼠在迷宫中学习,模拟强化学习。早期AI硬件都是定制的,例如SNARC,它有400个神经元,每个神经元有6个真空管和一个电机,大小像一架三角钢琴。早期计算高度定制化,可扩展系统和模块化计算直到英特尔出现才成为可能。IBM 701和702是早期大型机,亚瑟·塞缪尔为其编写了一个跳棋程序,展示了早期机器学习的例子。感知器是弗兰克·罗森布拉特在1958年至1959年创造的,是神经网络的早期演示,它可以学习区分形状。20世纪80年代,出现了为专家系统定制的硬件和Lisp机器,用于逻辑AI和搜索。深蓝是IBM为下国际象棋而开发的定制硬件,展示了强大的计算能力,而非机器学习。20世纪80年代和90年代,随着摩尔定律的持续发展,人们重新开始研究神经网络,但当时仍然使用CPU进行训练,没有并行计算。20世纪90年代末到21世纪初,GPU开始用于科学应用,包括神经网络训练,AlexNet是其中一个标志性例子。2012年,AlexNet论文利用GPU训练大型神经网络,在ImageNet基准测试中取得了突破性进展。2010年代中期,深度学习的兴起推动了对GPU和数据中心的投资,谷歌投资了TPU。谷歌在2010年代中期开发了TPU,这是第一款定制的AI芯片。OpenAI通过使用更大规模的参数模型(例如数十亿参数)推动了AI的发展。GPT-3、扩展定律和上下文学习的出现,标志着大规模神经网络语言模型时代的到来。ChatGPT的出现使得大型神经网络语言模型受到广泛关注,促使人们对大型数据中心和能源的需求增加。大型数据中心使用多个GPU或TPU进行模型训练,需要复杂的内存管理和数据传输机制。早期神经网络训练通常将模型加载到单个GPU的内存中,但如今大型模型需要多个GPU进行分布式训练。 @Jeremy Harris : 我是Gladstone AI(一家专注于人工智能国家安全的人工智能公司)的联合创始人,我的工作重点是高级人工智能带来的潜在风险,包括当前和未来系统。我从硬件的角度看待AI,因为我们关注出口管制,例如如何阻止中国获得这些技术。我们研究针对西方高安全数据中心的攻击类型,例如窃取模型、更改模型训练行为或破坏设施。AI的未来与计算的未来紧密相连,摩尔定律和黄氏定律描述了计算能力的增长趋势。摩尔定律描述了集成电路中晶体管数量的指数增长,但其增长速度有所放缓。摩尔定律虽然放缓,但仍在持续,并且在AI芯片领域出现了不同的摩尔定律趋势(黄氏定律)。黄氏定律描述了GPU性能的指数增长,即使摩尔定律放缓,GPU性能仍在快速提升。为了理解摩尔定律和黄氏定律的差异,需要了解芯片的工作原理,包括内存和逻辑单元。芯片的核心功能是内存(存储数据)和逻辑(处理数据)。内存和逻辑单元的改进速度不同,逻辑单元改进速度更快,而内存单元的改进速度较慢,这导致了“内存墙”问题。“苦涩教训”指出,增加计算能力比改进模型架构更重要,应关注规模化。“苦涩教训”表明模型架构不如计算能力重要。当前AI领域,规模化(计算、数据和模型大小)至关重要。Kaplan论文和GPT-3证明了神经语言模型的扩展定律,降低了大规模计算投资的风险。扩展定律降低了大规模计算投资的风险,使得更容易获得资金进行大规模计算集群的建设。OpenAI的早期尝试,如强化学习和机器人技术,并没有很好的扩展性。2017年的Transformer论文和2018年前后出现的预训练技术,为自然语言处理的大规模模型训练铺平了道路。卷积神经网络的预训练权重可以用于各种视觉应用,减少了对数据的需求和训练时间。GPT模型的成功在于其在语言建模任务上进行大规模预训练,以及Transformer架构的并行化能力。OpenAI转向盈利的原因之一是他们意识到硬件至关重要,谷歌拥有大量硬件,这使得谷歌更有可能率先实现AGI。推理模型对内存的需求更大,而对计算能力的需求相对较小,因此可能更适合使用较旧的芯片。推理时批次大小较小,因为需要快速响应用户请求,这导致内存带宽主要用于加载模型,而非用户数据。推理任务对内存的需求大于计算能力的需求,因此较旧的芯片(内存容量相当但计算能力较低)可能更适合。大型批次大小可以提高GPU利用率,降低成本,但小型公司由于用户数量较少,难以实现大型批次大小。GPU具有大量核心,适合并行处理任务,而CPU核心数量少但速度快。神经网络训练和推理可以利用数据并行、流水线并行和张量并行等技术进行并行化处理。GPU擅长矩阵乘法运算,这与神经网络和3D图形渲染的计算需求相符。GB200是NVIDIA最新的GPU系统,其架构和互连方式对数据中心设计和AI模型架构有重要影响。B200是GPU,而GB200是一个包含多个B200 GPU和CPU的系统。GPU需要CPU来协调其工作。GB200 tray包含两个Bianca board,每个Bianca board包含一个CPU和两个B200 GPU。GB200使用NVLink连接GPU,以实现高带宽通信,主要用于张量并行。数据中心网络存在层级结构:加速器互连(NVLink,最快)、后端网络(InfiniBand,较快)和前端网络(较慢)。AI模型的架构需要与硬件架构相协调,以最大限度地利用计算资源。谷歌在数据中心建设和TPU pod方面具有优势,这使得他们能够训练更大规模的神经网络。GB200系统包含B200 GPU、CPU和其他组件,其配置可以根据需求进行调整。GPU包含逻辑单元(进行计算)和高带宽内存(HBM,存储数据)。HBM由SK Hynix和三星等公司制造,使用堆叠的DRAM层和通孔技术实现高带宽。GPU的逻辑单元(计算单元)和HBM(内存单元)由不同的公司制造,并通过互连器连接在一起。HBM的制造工艺要求较低,而逻辑单元的制造工艺要求较高。逻辑单元和HBM通过互连器(例如TSMC的CoWoS)连接在一起。内存(例如RAM)的复杂性以及缓存策略的引入,使得内存改进并非简单的速度提升。数据中心中的计算是一个层级结构,从高电压电源到芯片级的低电压操作,内存也存在层级结构。数据中心内存存在层级结构:闪存(慢,持久性)、高带宽内存(HBM,快,易失性)和SRAM(最快,最贵)。HBM使用DRAM技术,需要定期刷新以保持数据。SRAM是速度最快、成本最高的内存,访问时间为亚纳秒级。

Deep Dive

Shownotes Transcript

抓住你的芯片,让我们开始吧!区域内的比特和字节,为托利党、各位和所有女士们

大家好,欢迎收听《人工智能的最后一周》播客,在这里您可以听到我们聊聊人工智能领域正在发生的事情。与往常不同的是,在本期节目中,我们不会总结或讨论上周最有趣的人工智能新闻。相反,这是我们早就承诺的关于硬件的节目。我们将深入探讨很多细节,基本上进行一次与任何人工智能新闻无关的深入探讨,但我认为这与

我们在过去一年中看到的许多硬件发展和疯狂的投资,尤其是在数据中心方面的总体趋势有关。总而言之,我是你们的其中一位主持人,Andrey Kurenkov。我研究人工智能,现在在一家初创公司工作。

是的,我是 Jeremy Harris。我是 Gladstone AI 和 AI 国家安全公司的联合创始人。我想就我的硬件方面的背景也做个说明。所以,你知道,我们所做的工作侧重于来自先进人工智能、当前和未来系统带来的 WMD 级风险。

所以我在这方面的关注点是,我通过硬件的视角来观察人工智能,因为我们非常关注诸如出口管制之类的事情。例如,我们如何阻止中国获得这些东西?

人们可以对西方高度安全的 数据中心执行哪些类型的攻击?无论是窃取模型,还是战略性地改变正在训练的模型的行为,还是仅仅是摧毁设施。因此,我们现在的大部分工作都是与特种部队和情报界人士,以及越来越多的数据中心公司一起进行的,以弄清楚如何保护这些站点?

显然还有我们历来一直在做的所有美国政府工作。这就是我对它的看法。显然还有对齐之类的事情。所以

我想我对人工智能和计算方面了解得足够多,足以造成危险,但我不是人工智能和计算方面的博士,对吧?我的专业是,我知道安全方面需要了解什么。因此,在尽可能的情况下,我们会尝试标记一些资源,并可能标记一些供您查阅的人员,如果您有兴趣对其他方面进行更深入的探讨,尤其是与人工智能无关的计算,与国家安全无关的计算,那么这将对您有所帮助。希望这对您有用。

是的,我想在我的方面,我也要标记一下,我学习的是软件和人工智能,我训练算法,所以我对这一切是如何运作的了解相对较少。实际上,我只是使用 GPU 并大致了解它们的作用。但是,你知道,我会在这里倾听并向 Jeremy 学习,我相信。我相信这将是双向的。我的意思是,我对这个很兴奋。无论如何,是的,我认为我们这里有很多机会进行交叉授粉。

让我们开始吧。所以我想在深入探讨当今正在发生的事情的细节之前,我们可以快速回顾一下过去人工智能和硬件的有趣细节。那里有一些有趣的细节。人工智能和硬件可以追溯到一开始,对吧?图灵是计算领域一位非常有影响力的人物。然后是图灵游戏,对吧,这是他的发明,对吧?

我想,衡量我们何时会获得人工智能或 AGI,正如你可能所说的那样。这在今天仍然被广泛讨论。所以,即使在我们拥有实际的通用计算机之前,人们也在考虑这个问题。顺便说一句,模仿游戏部分,在某种程度上,它令人毛骨悚然,因为它可以追溯到很久以前。

我从未读过《沙丘》,但我知道书中提到了“布特勒圣战”。所以布特勒在 1860 年代,或者我在这里炫耀我对日期的了解有多少,但他首先观察到你可以得到,你知道,嘿,这些机器似乎在我们周围不断出现。就像,我们正在工业化,我们正在建造这些东西。

如果有一天我们开始,你知道,我不知道这是否像建造可以帮助我们建造其他机器的机器一样。最终,他们会需要我们吗?这与计算机或任何类似的东西无关,但这是一种有趣的事情。就像当你回顾一些人对这类事情的预见性有多么不可思议时。无论如何,对不起,我不想偏离主题,但你在这里提出了一个很好的观点,它远远早于 2000 年代初期,人们开始担心失去控制。是的。是的。

是的,你提醒了我,它被称为模仿游戏。图灵游戏不是一回事。有一种图灵测试,人们称之为模仿游戏,因为它最初是发表的。无论如何,是的,从概念上讲,当然,人工智能、机器人技术等概念在人们心中存在了很长时间。但即使在我们进入 50 年代并开始使用真空管进行实际计算,甚至还没有进入半导体阶段,

人工智能作为一个领域也开始出现。因此,在那个时代可以被认为是人工智能的非常早期的倡议之一是这个玩跳棋的小程序。你可以追溯到 1951 年,有人编写了一个程序来做到这一点。

然后,是的,在那个十年中,有一些这样的例子展示了最早的人工智能程序。所以,马文·明斯基有一个程序,实际上叫做随机神经模拟强化计算器。我实际上是在为节目做准备时才了解到这一点的。我觉得很有趣。这实际上是一种马文·明斯基建造的小型神经网络,并且

在硬件中,它模拟老鼠在一个小迷宫中学习并试图模拟强化学习,因为当时也有一些关于人类学习、大脑学习等的理论出现。为了给你一些背景,

可能有 400 个神经元。我忘了一个小数字。每个神经元都有六个真空管和一个电机。整台机器有 300 个真空管,大小像一架三角钢琴。所以他们有这种为该应用程序定制的计算机的早期示例。这实际上也是一件事,对吧?在计算的历史上……

这么长时间以来,一切都是如此定制。这很容易被忽视。甚至构建这些可扩展系统的想法

计算模块,你知道,有办法将所有这些东西整合在一起。直到英特尔真正进入游戏才出现这种情况。据我回忆,这最初是他们的重要事情。让英特尔成功的因素是,嘿,我们只会想出一些不是定制的东西,所以它在特定应用程序中的表现不会那么好,但是,它可以扩展。在此之前,就像你说的那样,所有这些都是非常定制的东西。所以它更像是物理学,从某种意义上说,而不是计算机科学,如果这说得通的话。是的。是的。

没错。是的,这更像是人们聚集在一起并建造小型机器,对吧,来真正证明关于人工智能的理论。我发现另一个有趣的例子,那就是著名的 IBM 701 和 702,对吧?IBM 刚刚开始构建这种大型大型机,这在一段时间内是计算的主要范例,尤其是在商业领域。

所以 IBM 7101 是第一台商用科学计算机

亚瑟·塞缪尔编写了一个跳棋程序。我认为它绝对是第一个被证明的学习程序之一。所以它内置了非常原始的机器学习。它将记忆作为一种想法,但也有一些从经验中学习的东西。这是对类似机器学习的东西的第一个演示之一,并且

然后,著名的感知器也出现在 1958 年和 1959 年。我认为这是对神经网络理念的第一个真正演示,由弗兰克·罗森布拉特提出。同样,在那个时候,这是一台定制的机器,它具有……如果你看一看,网上有它的照片,它看起来像这个疯狂的……

一堆电线构建了一个微型神经网络,可以学习区分形状。当时,罗森布拉特和其他人对此非常兴奋。然后,当然,十年后,这种兴奋持续了一段时间。

然后在 80 年代,我们还有一些有趣的历史,我们稍后不会讨论定制硬件。有一段时间,人们买卖用于专家系统的定制硬件。有一种叫做 LISP 机器的设备,其中 LISP 是一种非常重要的……

人工智能中的一种语言,持续了一段时间。它被开发出来是为了编写人工智能程序。然后有一些叫做 Lisp 机器的定制机器被从事这项研究的科学家和研究人员使用,进入 70 年代和 80 年代,当时在逻辑人工智能、搜索等领域进行了大量研究,即符号人工智能。

然后,再次快速回顾一下人工智能和计算的历史,我们进入 80 年代和 90 年代。所以 LISP 机器、专家硬件系统消失了。正如你所说,我认为这是英特尔、苹果和所有其他参与者真正通用计算的开始。

不需要这些大型大型机的硬件,你可以更容易地购买和分发。因此,除了在 90 年代后期将成为深蓝的硬件之外,几乎没有硬件细节的例子。IBM 正在开发这台大型计算机,特别是用于下棋。我认为很多人可能不知道这一点,深蓝是

不仅仅是一个程序。这是一项对硬件的大规模投资,以便它能够进行这些极其漫长的搜索。据我所知,它并不是一个学习算法。基本上,它正在进行……

众所周知的搜索,以及一些用于下棋的启发式方法,以及一些硬编码的评估方案。但要真正赢得国际象棋比赛,我们必须建造一些专门用于下棋的疯狂硬件。这就是我们在没有任何我们今天拥有的机器学习的情况下获得演示的方式。我

让我们结束历史回顾。所以当然,我们在这期间一直都有摩尔定律。计算能力越来越强大。因此,我们在 80 年代和 90 年代看到了对神经网络研究的回归。但我相信在那时,人们仍在使用 CPU 并试图训练这些神经网络,而没有任何我们今天常用的并行计算。

并行计算随着 GPU(图形处理单元)的出现而出现,GPU 需要进行 3D 图形处理,对吧?因此,从 90 年代后期到 2000 年代初,就开始了大量的工作。这就是英伟达通过构建这些主要用于游戏市场的图形处理单元而诞生的原因。然后在 2000 年代,

在 2010 年代之前,一些小组发现你可以将这些 GPU 用于科学应用。例如,你可以解决一般的线性代数程序。

所以在使用它进行神经网络之前,但这逐渐发展到一个点,我认为到 2009 年,Andrew Ng 做了一些应用工作。CUDA 出现了,你可以为任何应用程序编程这些英伟达 GPU。然后,当然,在 2012 年,出现了 AlexNet 论文,其中……

我们有了 AlexNet 神经网络,这是发表的第一个深度神经网络之一,它在 ImageNet 基准测试中击败了当时使用的其他算法。为此,论文中的一个主要创新之处,也是它成功的原因之一是,他们是第一批使用 GPU 训练这个大型网络的人之一。他们可能无法做到这一点。

他们使用了两个英伟达 GPU 来做到这一点,他们不得不进行大量的自定义编程才能做到这一点。这是学生的主要贡献之一。我认为那时……

英伟达开始更多地关注人工智能领域的 GPU。他们已经深入研究了它。他们编写了 CUDNN,C-U-D-N-N。C-U-D-N-N,是的,是的,是的。他们开始出于各种原因专门为人工智能创建架构。他们开始创建更适合人工智能的架构,例如开普勒架构、帕斯卡架构等等。

所以,再次说明一些历史背景,也许人们没有意识到,在 GPT 之前,在 ChatGPT 之前,2010 年代初深度学习的演示已经加速了对 GPU 的投资趋势,以及对数据中心的建设。到 2010 年代中期,

很明显,你需要深度学习来做很多事情,比如翻译。谷歌已经在进行大规模投资,对吧?收购 DeepMind,扩展 Google Brain,当然还有在 2010 年代中期投资 TPU。据我所知,他们开发了第一款定制的人工智能硬件,定制的人工智能芯片。

所以在整个 2010 年代,人工智能一直在兴起。每个人都已经是这种心态,越大越好,你想要更大的神经网络、更大的数据集,所有这些。

但是,当然,OpenAI 意识到这应该提高到 11 级。你不应该只有 1000 万或 1 亿参数模型。你必须拥有数十亿参数模型。这是他们的第一个挑战。

好吧,他们有很多创新,但他们的突破在于真正以以前没有人做过的方式拥抱规模化。我认为值得注意的一点是这种粗略的直觉。你可以听到杰夫·辛顿和吴恩达等先驱者谈论这种普遍的感觉,即更多的数据更好,更大的模型更好,所有这些东西。但是,卡普兰论文真正带来的东西,即来自神经语言模型论文的著名缩放定律,GPT-3 提供的证据点,

公平地说,还有 GPT-2 和 GPT-1。但是,GPT-3 转折点真正带来的东西是实际的缩放定律,对吧?我们第一次可以自信地预测模型的性能。这使得花费更多资本支出变得容易得多,对吧?现在,突然之间,联系你的 CTO、CEO 并说,嘿,我们需要……

1 亿美元来构建这个大型计算集群变得容易了一百万倍,因为看看这些对数图上的直线,对吧?所以有点像改变了经济学,因为它降低了与规模化相关的风险。没错。我认为,事后看来,OpenAI 的故事几乎可以看作是对可扩展事物的搜索,对吧?因为在最初几年,他们专注于强化学习。他们的一些主要……

你可以说公关故事,但也是论文,是关于 Dota、电子游戏 Dota 的强化学习。然后,即使在当时,他们也像使用了很多计算一样,真的花了很多钱来训练程序,但以一种不可扩展的方式,因为强化学习非常困难,你无法很好地模拟世界。

他们还在机器人技术方面投入了很多资金,他们有这个整个手臂,他们做了很多机器人模拟。但同样,很难模拟不会扩展的东西。进化算法是另一条线索,对吧?

是的,他们从 2015 年到 2018 年做了很多事情,对吧?然后是 2017 年的 Transformer 论文,当然。然后大约在 2018 年,自然语言处理的预训练的整个概念出现了。

所以从一开始,或者好吧,不是一开始,但在 AlexNet 之后不久,大约在 2014 年,人们意识到,如果你在一个分类任务上训练一个深度卷积神经网络,那么你可以以一种通用的方式使用这些嵌入。所以那里的某种智能可以重复用于各种视觉应用。

并且你可以从你已经训练过的一堆权重中基本上引导训练。你不需要从头开始,你甚至不需要那么多任务数据。直到大约 2017 年、2018 年,这种情况才发生在自然语言处理中。那时,一些倡议将语言建模视为一种非常有前景的预训练方法

自然语言处理的权重。BERT 是那个时期著名的例子之一。因此,第一个 GPT 就是在这种背景下开发的。它是第一个在语言建模任务上对 Transformer 进行大规模预训练的投资之一。然后 OpenAI,我想,我们不知道确切的细节,但似乎他们可能在内部讨论过,并且

有了这样的想法,好吧,你知道,这个任务,你可以简单地抓取互联网来获取你想要的所有数据。所以唯一的问题是你能把 Transformer 做多大?Transformer 是一种非常适合扩展的架构,因为你可以像在 RNN 中一样在 GPU 中并行化。所以这在某种程度上是必要的。

是的,然后我们在 2019 年得到了 GPT-2。那是一个大约 20 亿,大约 17 亿参数的模型,到目前为止是任何人训练过的最大的模型。即使在当时,它也很有趣,因为你看到了这些早期的演示,并且

就像在博客上写了几段关于独角兽岛的文章一样。即使在那个时候,人们也在讨论 GPT-2 的安全隐患、错误信息等等。他们通常在那时就知道了,对吧。因为他们开源了 GPT,好吧,GPT,GPT-1,对吧。

他们已经设定了始终开源其模型的先例,因此实际上是 OpenAI 这个名字。GPT-2 是他们第一次尝试他们当时称之为这种分阶段发布策略的东西,对吧?他们会随着时间的推移逐步发布更大版本的 GPT-2,监控他们据称是如何看到它们被恶意使用的,但这失败了。

我一直觉得,当它是一个开源模型时,你能够判断它是否在互联网上被恶意使用是不可能的,但好吧。然后最终,是的,GPT-3 被关闭了。是的,他们遵循了,正如你所说,这种平稳的进展。是的,说到这一点,在 GPT-2 之前,

我们现在从 OpenAI 与埃隆·马斯克的案件中的电子邮件中了解到。这从来都不是计划。是的。那里的一些细节是,2018 年的对话以及他们为什么开始盈利的原因是,他们确实普遍认为硬件至关重要,谷歌拥有所有硬件。因此,谷歌将是获得 AGI 的人。对。

所以他们需要资金来获得更多硬件,以更多地投资于培训。这就是在 2018 年引发所有这些盈利讨论的原因,并最终导致萨姆·奥特曼以某种方式从微软那里获得了 100 亿美元。我不记得这是何时宣布的,我不记得。

可能是 2019 年。我认为最初的投资是 10 亿美元,我认为是 2019 年。然后可能是 2021 年左右,100 亿美元,诸如此类。好的,是的,这听起来是对的。10 亿美元听起来更合理。所以是的,我认为 OpenAI 是最早真正接受这种想法的人之一,即你需要我们现在所知的巨型数据中心和训练应用程序

疯狂地并行训练疯狂的大型神经网络。例如,他们已经在 Dota 代理中走上了这条道路,他们在那里在大集群中进行训练。即使在那个时候,这也是非常具有挑战性的。无论如何,然后我们得到了 GPT-3,我们得到了 1750 亿参数模型,我们得到了缩放定律,我们得到了上下文学习。

然后到那时,很明显你可以扩展,你可以得到非常强大的语言模型。上下文学习的整个想法令人难以置信。

不知何故,每个人仍然没有足够的信心进行投资。回想起来,这很有趣,Meta、谷歌等等并没有训练大型神经网络语言模型。我认为谷歌在内部某种程度上是这样做的,但他们并没有试图将其商业化。他们没有试图推进。

然后,当然,你在 2022 年有了使用 GPT 3.5 的 ChatGPT,我认为当时它引起了轰动,现在每个人都关心大型神经网络、大型语言模型,每个人都想要大型数据中心,并且正在争夺为其提供动力的电力。埃隆·马斯克正在购买 10 万个 GPU,硬件显然是故事中非常重要的一部分。

是的。顺便说一句,硬件的故事并非如此。我的意思是,我们正在谈论物理基础设施的故事,这很可能在我们有生之年导致超级智能。所以我认为,几乎没有什么比研究和理解世界上更重要的物理事物了。我们也很幸运,因为这是一个引人入胜的故事。

就像我们不仅仅是在谈论自我和,你知道,亿万富翁的美元追逐这些东西。在科学层面,它令人着迷。在商业层面,它令人着迷。堆栈的每一层都令人着迷。这就是我如此兴奋于本期节目的原因之一。但你很好地构建了框架,对吧?什么是当前时刻?我们认为,以扩展计算、扩展数据和扩展模型规模的形式进行扩展,但这相对容易做到,是关键,对吧?所以苦涩的教训,对吧?理查德·萨顿的论点……

在神经语言模型的缩放定律出现之前,大约在 2019 年左右出现,基本上说,嘿,你知道,所有这些四处奔波的幻想人工智能研究人员都在想出新的幻想架构,并认为这就是我们将制造 AGI 的方式。不幸的是,我知道你希望这是 AGI 的道路。不幸的是,人类的聪明才智并不是我们希望的那样。太悲伤了。太悲伤了。你知道,这就是为什么它是苦涩的。它

相反,你应该做的是,这确实是苦涩教训的核心,是不要妨碍你的模型。让他们去吧。让他们扩展。只需取一个愚蠢的模型并使用大量的计算来扩展它,你就会得到一些非常令人印象深刻的东西。他部分地暗示了语言建模的早期成功,以及强化学习。所以还不清楚哪种架构能够做到这一点。很快就会发现,这显然是 Transformer。

但你可以改进它。实际上,模型,思考模型的方式,或者架构,是它们只是一种特殊的漏斗,就像将你从顶部倒入的计算,并将其塑造成智能的方向。

它们只是你的漏斗。它们不是最重要的部分。有很多不同形状的漏斗可以做很多不同的孔径宽度等等。而且你知道,如果你的漏斗有点愚蠢,好吧,那就等到明年的计算成本降低 50% 或后年。而且,你的,你的同样愚蠢的架构将运行良好。

对吧?所以有一种观念认为,即使我们在模型架构层面非常愚蠢,只要我们有一个可以利用我们的硬件提供的架构,我们就会到达那里,对吧?这是这里的基本思想。这意味着在非常深的层面上,人工智能的未来

与计算的未来紧密而不可分割地联系在一起。计算的未来,这让我们开始问关于摩尔定律的问题,对吧?就像这个基本思想一样,顺便说一句,为了简要地说明这一点,这可以追溯到 1975 年。摩尔基本上提出了这个观察结果。他并没有说这是一个物理定律。这只是对商业世界如何运作以及……

或者至少是商业与科学之间的互动,他当时说,你可以在集成电路、芯片上放置的组件数量、晶体管数量

似乎每年翻一番。这是他当时的声明。现在,我们知道这个数字实际上并不是每年都翻一番。事实上,摩尔在 1975 年又回到了这一点,他更新了他的时间框架。他说:“不是每年。每两年翻一番。”然后就关于它是否应该是 18 个月的问题进行了很多争论。细节并不重要。最重要的是,你有一个稳定可靠的增长。

指数增长,对吧?就你放在芯片上的组件数量、计算组件、晶体管数量而言,每 18 个月左右翻一番。这意味着你可以用更少的钱获得更多,对吧?你的同一芯片可以做更智能的工作。

好的,这基本上是我们多年来将要遵循的基本趋势。它将采取不同的形式。你会听到人们谈论摩尔定律已经死亡等等。这些都不正确,但它不正确的原因很有趣。这将是我们在本期节目中必须讨论的一部分。这确实是我们今天所处的环境。什么是花招?我们今天正在玩哪些游戏来试图保持摩尔定律的延续?

摩尔定律在AI芯片领域发生了怎样的变化?因为现在我们看到AI芯片的摩尔定律趋势与几十年来集成电路领域的历史摩尔定律有所不同,而摩尔定律正是以其预测而闻名。关于这一点,我认为这并非一个普遍使用的术语,但

已被讨论过,英伟达也指出了这一点。现在有了黄氏定律的概念,GPU的趋势与摩尔定律非常一致,甚至更快,在2010年代初期,人们开始将GPU用于AI,而AI的增长几乎与

GPU性能的提升同步发展。尤其是在过去几年中,GPU的性能、成本和规模都出现了爆炸式增长。以H100为例,与十年前相比,其性能提升了数千倍,甚至可能超过一千倍。所以

是的。存在黄氏定律的概念,即架构和并行计算的发展具有指数趋势。即使摩尔定律(即在纳米级半导体上可以达到的密度)由于固有的物理限制而可能趋于饱和,

但架构以及利用芯片进行并行计算的方式至少到目前为止还没有放缓。这正是我们今天所处位置的重要原因之一。

绝对正确。事实上,这是一个很好的过渡,让我们更深入地探讨一下,对吧?我们有摩尔定律的一般概念,现在安德烈说,但也有黄氏定律。那么,你如何从每18个月翻一番变成每两个月翻四倍,或者取决于你跟踪的指标?这就是我们必须讨论芯片

实际在做什么的地方?芯片执行任何任务的核心功能是什么?我认为今天值得关注的两个核心部分,因为它们与AI特别相关,第一,你有内存,对吧?你必须能够存储你正在处理的数据。然后第二,你有逻辑。你必须有能力对你正在存储的位和字节进行操作,对吧?

这很有道理。将这两件事放在一起,你就拥有了一个完整的解决问题的机器。你有存储信息的能力。你有能力对这些信息进行处理,执行数学运算,对吧?所以内存、存储和逻辑,某种程度上,是的,逻辑、推理,或者不是推理,数字、数学、数字运算,对吧?

因此,当我们实际将这些分开时,事实证明,尤其是在今天,它们是非常非常不同的。制造逻辑和制造内存需要非常非常不同的过程和技能。有很多原因导致这种情况,这与制造逻辑单元与内存单元的架构类型有关,等等。但如果合适的话,我们稍后再讨论这些。然而,现在我认为需要强调的是

逻辑和内存由于不同的原因而难以制造,并且它们以不同的速度改进。如果你查看多年来的逻辑改进,即每秒浮点运算次数(FLOPS),这块芯片计算数字的速度有多快,你会看到非常快速的改进。部分原因,很大一部分原因是,如果你是一个制造逻辑的工厂,

那么你只需要关注对你来说最重要的一个主要指标。这通常是晶体管密度。换句话说,你能在一块芯片上塞进多少个计算组件,多少个晶体管?这是你的主要指标。你关心其他事情,如功耗和散热,但这些都是次要的约束。你有一个清晰的重点领域。与此同时,如果你关心内存,

现在你必须担心不止一个关键的KPI。你基本上要担心三件事。首先,我的内存能存储多少?我的内存容量是多少?其次,我从内存中提取数据的速度有多快,这称为延迟。所以你可以想象一下,对吧,你有一个

像一个内存桶,你想从内存中检索一些位。你必须等待多长时间才能使用它们来进行数学运算?这就是延迟。所以我们有容量。桶能装多少?延迟,从桶里取东西需要多长时间?然后是带宽。我可以在任何时间从内存中提取多少东西?

因此,如果你正在优化内存,你必须同时优化这三件事。你不会只关注一个指标,这会分散你的注意力。从历史上看,有些东西必须让步,而那通常是延迟。因此,通常当你看到内存改进时,多年来延迟并没有真正得到很大的改善。

容量和带宽却有所改善,而且速度很快,对吧?所以你可以开始想象,根据你试图解决的问题,你可能希望优化非常高的容量、非常高的带宽、非常低的延迟(这在AI中通常更常见),或者这些事物的其他组合。所以,我们已经开始形成芯片设计的要素,我们正在考虑我们想要达到的平衡点,对吧?

从历史上看,由此产生的挑战之一是,正如我所说,低延迟。这是往往比较糟糕的事情,因为人们在内存方面关注的是容量和带宽。我可以一次提取多少?我的内存桶有多大?

因为延迟很糟糕,因为它增长非常缓慢,一个结果是我们的逻辑改进非常快,对吧?我们能够在一块芯片上塞进大量的晶体管。通常会发生的情况是,你的逻辑能力(即你的芯片计算数字的速度)与

你获取新数据来进行新计算的速度之间存在越来越大的差距。所以你可以想象一下,你芯片的逻辑部分,它只是不停地计算数字,然后它只是坐在那里空转,等待获取更多内存,以便它可以解决下一个问题。

这种差距,这种差距基本上是停机时间。它已经成为一个越来越严重的问题,因为晶体管密度逻辑在AI中已经有了疯狂的快速改进,但延迟却没有,改进速度要慢得多。所以你有了这种疯狂的高计算能力,但后续内存输入之间有相对较长的延迟。

这就是所谓的内存墙,或者至少是AI中所谓的内存墙的重要组成部分。因此,AI硬件中的一个重大结构性问题是如何克服这个问题?人们正在研究很多技术来做到这一点,例如尝试做一些事情,无论如何,交错你的内存输入,以便在你还对上一批数字进行数字运算时,你的内存正在被提取,以便它们尽可能地重叠。

各种技术,但这是一种基本情况,你拥有逻辑和内存,逻辑改进非常快。内存改进速度没有那么快,因为注意力分散了,但逻辑和内存都必须在一个高性能的AI芯片上结合起来。基本上,故事的其余部分将围绕着这些关键要素展开。

所以,我不知道,也许这是下一个步骤的良好铺垫。是的,我可以补充一点,我认为关于这一点,这是非常正确的。如果你只看看多年来的RAM容量,它增长得很快,但没有摩尔定律那么快。其中一个,我认为,内存的细微之处在于它也更复杂。好吧,我认为CPU现在也很复杂,你并行化,但是

内存也同样复杂,由于各种原因,你不仅仅是让内存更快,你可以拥有更智能的内存。因此,你引入了缓存,你知道这些数据是你经常使用的。因此,你有一个更快的内存,它更小,你可以使用它……

缓存重要信息,以便你可以更快地获取它。因此,你拥有这些具有不同速度和不同大小的内存层,对吧?现在你得到了需要

大量内存的GPU。所以对于CPU来说,我们有RAM,即随机存取内存,这是一种你可以使用的快速内存。这通常是8GB、16GB。你的大部分操作系统负责从你的硬盘驱动器将数据从存储器获取到RAM中进行计算,然后在你进行计算时进入缓存。

对于神经网络来说,你真的不想存储任何不在RAM中的东西,并且你希望尽可能多地存储在缓存中。我不知道确切的细节,但我确实知道,GPU中有很多工程技术是关于这些缓存策略的,transformer中的许多重新优化都是关于键值缓存的……

你知道,你在GPU的RAM方面有你永远不会在你的CPU、你的笔记本电脑上看到的荒谬的数字,那里通常只有8GB、16GB或32GB左右。是的,绝对正确。事实上,我认为你在这里引入了一个元素,这确实帮助我们朝着对话的下一步发展,即数据中心的楼层是什么样的?数据中心的楼层是什么样的?

原因是,当你考虑计算时,你脑海中应该有的图像是层次结构,是一系列越来越复杂、越来越接近裸硅操作的级联序列。所以这样想吧,进入数据中心,对吧?你有很多非常非常高电压,对吧?还有进来的电力线。

现在,在芯片本身,你处理的是大约电子水平。你处理的是极低的电压、极低的电流等等。为了逐渐降低,

为了让中间的能量、电子和光子为你完成所有这些工作,你必须进行大量的逐渐降低。逐渐将内存、电源和逻辑都带到越来越接近……

到几乎原子水平的地方,实际的戏剧可以展开,这是我们都在追求的,对吧?进行数字运算、算术运算,实际上训练模型并在其上进行推理。因此,当我们考虑这种层次结构时,我会确定一些内存级别,以便我们记住,以便我们记住REM。这只是开始将我们可以考虑的一些层折叠起来,但

所以更高一级的内存是闪存,对吧?所以这可能是你的固态硬盘或其他东西。这是非常非常慢的内存。

即使你的电源断电,它也会继续工作。所以这是持久性内存,它移动缓慢,但如果你想存储数据集或我不知道一些不太频繁出现的有趣的模型检查点,你可能会考虑将它们放在闪存中。这是一个非常缓慢的长期的事情,并且

你可能会想象,好吧,我现在也需要内存,它将被更新。例如,我不知道,每次有数据批次进来时,你知道,数据批次不断地、不断地、不断地进来。所以,好吧,那么也许这就是你的高带宽内存,对吧?所以这再次更接近芯片,因为我们总是物理上越来越接近芯片,因为我们越来越接近有趣的操作,有趣的数学。所以现在你有了你的HBM,对吧?

你的HBM会讨论它究竟位于何处,但它非常接近计算发生的地方。它们使用一种称为DRAM的技术,我们可以讨论,实际上也应该讨论。

无论如何,它需要定期刷新才能维护数据。如果你不继续更新每个位,因为它将每个位存储为一个电荷和一个微小的电容器,并且由于许多物理效应(如电流泄漏),该电荷会逐渐耗尽。因此,如果你不进行干预,存储的数据会在几毫秒内丢失。因此,你必须不断刷新、不断刷新。它的延迟比闪存低得多。

换句话说,从它那里提取数据要快得多。这至关重要,因为你再次提取这些批次,它们进来得很快,对吧?所以这通常是几十纳秒的量级。

因此,你知道,每几十纳秒,你就会从HBM中提取一些数据。现在,更接近计算发生的地方,你将拥有SRAM,对吧?所以SRAM是最快的,它的访问时间非常快,低于纳秒级,也非常昂贵。所以你也可以将其视为一个成本层次结构,对吧?当我们越来越接近那些计算发生的地方时,哦,我们必须获得非常非常小的组件,非常非常定制的设计或非常专用目的的组件

而且非常昂贵,对吧?因此,当我们越来越接近树上的叶子,那些我们将进行有趣操作的最终节点时,这种类型的层次结构通常在大小、成本和延迟方面都是一致的。数据中心和芯片

从这个意义上说,这些都是分形结构。真的要考虑一下,你知道,考虑计算。你必须考虑分形。它一直都是分形。你从一个,你知道,树干到树枝,到更小的树枝,更小的树枝,就像我们的循环系统,就像基本上所有复杂的结构一样。如果你玩事实,这是一件事

你会点头同意,对吧?这就是它的意义所在。世界以这种方式运作,节点的分辨率越来越高,但你确实希望从大的树干、大的动脉中获益,这些动脉可以在你的系统中具有高容量。对。这让我想到一个有趣的事实。我知道很多人仍然,当然作为2010年代后期的研究生,

你所做的一大部分工作实际上只是将神经网络放入GPU中。你就像,哦,我有一个带有8GB或16GB内存的GPU。所以我将运行NVIDIA SMI并计算出

它有多少可用内存,我将运行我的代码,它将模型加载到GPU中,这就是我进行训练的方式。所以很长一段时间,这是一种范例,你有一个GPU,一个模型,你试图将模型放入GPU内存中,就是这样。当然,现在这行不通了。

模型太大,无法放入单个GPU中,尤其是在训练期间,你必须进行反向传播、处理梯度等。

在推理过程中,人们确实试图缩小它们的规模,进行量化,通常将它们放入单个GPU中。但是为什么你需要这些大型数据中心?因为你想将许多GPU或TPU放在一起。从2018年开始,谷歌就有了TPU pod,我认为当时有256个TPU。

因此,你现在可以将你的神经网络分布到许多芯片上。现在它变得更疯狂了,因为内存不仅仅是将模型的权重加载到单个GPU中。你需要像传输关于一些权重的梯度信息并进行一些复杂的编排,以便在整个神经网络中更新你的权重。我真不知道这是如何工作的。

好吧,我们当然可以讨论这其中的一部分。我认为要触及这一点,顺便说一下,与我们最近看到发生的一些事情联系起来,例如推理模型以及对

数据中心和计算设计的影响,这些东西确实也与之相关。所以我会回到这个观察结果,即内存,特别是HBM(高带宽内存),其改进速度比逻辑慢,比仅仅进行数字运算的能力慢。所以我们从内存中提取数据的能力以及带宽等等,其改进速度比我们计算数字的能力慢。

这一个有趣的结果是,你可能会期望这些利用更多推理时间计算的推理模型实际上最终在较旧的芯片上运行得更好。所以我想解释一下并展开一下。所以如果你在推理过程中,你必须将语言模型从HBM加载到活动内存中。

你的批次大小,你输入的数据,这些批次大小往往很小。它们在推理时往往很小,原因是可以想象,你正在获得这些不可预测的用户数据突发。你所知道的是,你最好尽快发送响应,否则它会开始影响用户体验。

所以你不能等待大量用户查询进来,然后批量处理它们,这通常是所做的,对吧?高带宽内存的想法是,你希望能够将大量数据组合在一起,并摊销加载来自高带宽内存的内存所带来的延迟,在大量批次中摊销它。

批次。当然,逻辑坐在那里等待数据进来一会儿,但是当它进来时,这是一个巨大的数据批次。所以就像,“好吧,值得等待。”问题是,当你进行推理时,你不能……再次,你必须快速发送响应。所以你不能等待太久来创建真正的大批次。你必须有点,好吧,用较小的批次。结果,

你的内存带宽不会被用户数据引起的数据消耗,对吧?你获得的用户数据量相对较小。你的内存带宽不成比例地被模型本身消耗。因此,你与加载模型相关的基础成本很高

并且由于批次大小较小,你不需要那么多逻辑来运行所有这些计算。你可能有8个用户查询而不是64个。这对FLOPS来说相对容易。你不需要那么多硬计算。你不需要那么多逻辑。但是,你真正需要的是高基线内存需求,因为你的模型本身就很大。所以即使你的用户查询不多,你的模型也很大。因此,你对HBM有很高的基线需求,但对FLOPS的需求相对较低。

因为FLOPS改进速度较慢,这意味着你可以后退一代计算,你会损失很多FLOPS,但你的内存将大致相同。由于这比计算密集型更依赖内存,因此推理往往有利于较旧的机器。

有点分层的东西,如果你遵循整个过程,那就没问题了。但是如果你对此感兴趣,你想回顾一下,或者向我们提出关于它的问题。我认为这实际上是我们开始看到的真正重要的趋势之一,即较旧的硬件可用于推理时间计算。顺便说一句,这对中国来说是一个巨大的优势,因为他们只有较旧的硬件。因此,这种转向推理和推理时间计算实际上对中国生态系统来说是一个非常有趣的优势。

是的,只是为了得到一点,我认为这带来了另一个有趣的切线,相当快的切线。我们会尽量深入探讨。所以你提到了数据批次,这是另一个相关的细节,你不仅仅是加载GPU。你正在加载你认为是数据批次的内容。这意味着,对吧,你有数据集,数据集是输入和输出的配对,并且

当你训练神经网络以及当你对其进行推理时,你不会只做一次输入,一次输出,而是将它们一起做很多次。所以你有N个输入和输出。

这是必要的,因为在训练神经网络时,你可以尝试一次只做一件事例,但是单个事例并不是很有用,对吧?因为你可以为它更新你的权重,但是下一个事例可能是相反的类别。所以你只是找不到正确的路径。而且这样做也不太可行

在整个数据集上进行训练,对吧?你不能将整个数据集提供给计算以对所有输入和输出进行平均,因为这将是,A,可能不可能,B,可能对学习不是很好。所以其中一个关键

关键的奇迹,几乎是数学上的令人惊讶的事情是随机梯度下降,你采用数据批次,你采用,你知道,25、50、200、56,无论什么输入和输出,结果证明这非常有效。而且,你知道,理论上,你应该采用整个数据集,对吧?这就是梯度下降应该做的。随机梯度下降,你采用批次,结果证明是

可能是一个很好的正则化器,它实际上提高了泛化能力而不是过拟合。但无论如何,OpenAI的另一个有点新颖的东西是巨大的批次大小。所以

当你增加批次时,这会增加你在GPU上需要的内存量。所以训练期间的批次大小通常很小,例如128、256。现在,批次越大,训练速度越快,性能越好。但是,通常你无法使用非常大的批次。而OpenAI,我仍然记得这一点,是早期进入2000批次的组织之一。

例如批次或类似的东西。然后我认为关于非常大的模型的一个认识是,尤其是在训练期间,巨大的批次非常有用。所以这是内存很重要的另一个原因。而且超级超级经济,对吧?就像这是……

疯狂的优势之一,OpenAI以及在这个领域拥有真正良好分销的任何人都可以享受其产品的分销。我的意思是,如果你有很多用户,你就会有所有这些查询以非常非常高的速度进入,这将允许你在推理时进行更大的批次,对吧?因为你可能会告诉自己,好吧,我必须在,我不知道,像

500毫秒内向我的用户发送响应,对吧?所以基本上这意味着,好吧,你可以等待500毫秒来收集输入,从你的用户那里收集提示,然后你必须一次处理所有这些。好吧,

在任何给定时间你拥有的用户数量将允许你很好地填充这些批次,如果这个数字很大。这允许你摊销成本。通过这样做,你可以更好地利用你的GPU。这就是一些较小的公司服务这些模型处于真正劣势的原因之一。顺便说一句,他们通常以亏损的方式为这些模型提供服务,因为他们无法达到摊销其硬件和能源成本所需的较大批次大小

才能盈利。因此,你现在在这个领域看到的许多风险投资资金正在被烧掉,至少在推理时间上,这正是由于这种低批次大小现象造成的。在那一点上,如果不明确,或者有些人不知道,对吧,批次V权重工作,对吧?

是的,你正在进行端到端,但是你正在并行地进行所有这些,对吧?你将所有输入一起提供,你将所有输出一起获得。这就是为什么它会填满你的GPU。其中一个基本指标是GPU利用率。如果你一次只做一件事例,这会占用更少的内存,但是你会浪费时间,对吧?因为你需要一次做一件事,而不是……

如果你获得你的GPU可以处理的尽可能多的事例,那么你将一起获得这些输出,并且你将100%地利用你的GPU,并充分利用它。是的,这与

模型架构和硬件架构之间的这种舞蹈有关。CPU往往只有少数几个核心。核心是实际进行计算的东西。它们是超级超级快的核心,而且非常灵活,但数量不多。而GPU可以有数千个核心,但每个核心都非常慢。因此,这导致了一种情况,即

如果你有一个非常可并行化的任务,你可以将其分成一千个或四千个或一万六千个小任务,每个核心都可以并行处理,如果每个核心与CPU相比相对较慢,那也没关系。如果它们都在同时处理这些数字,那么它们可以在CPU核心可能执行20次操作的时间内输出成千上万次操作

对吧?所以它在每个核心的基础上比较慢,但是你有这么多核心,你可以摊销它,并且速度快得多。这就是当今AI能够工作的核心所在。它是如此疯狂的可并行化的事实。你可以将神经网络分成任意多种方式。例如,你可以提供大量

同时处理一堆提示。这叫做数据并行或数据并行。所以实际上,更像是你将一些数据块发送到一组GPU,另一组数据块发送到另一组GPU。因此,本质上你是在并行化这些数据的处理。你也可以采用你的神经网络。你可以将它们切片

分层,你可以说0到4层将位于这些GPU上。5到8层将位于这些GPU上,依此类推。这叫做流水线并行。因此,你的模型流水线的每个阶段,你都可以想象将你的模型纵向切碎,并将模型的不同块分配给不同的GPU。

然后还有张量并行。这是在特定层内。你可以想象将该层分成两半,让一个GPU处理或处理仅通过模型的那一部分的数据。因此,这三种并行性,数据并行、流水线并行和张量并行,都在现代编程中以重叠的方式一起使用。

高性能AI数据中心在这些大型训练运行中。它们在硬件级别发挥作用。所以你实际上可以看到,例如,你会拥有,你知道,

数据中心包含所有看到数据集一部分的GPU块。然后在这些GPU中,其中一个子集将通过流水线并行专门处理模型的几层。然后,该组GPU中的特定GPU将通过张量并行处理

一层或几层的一部分。这就是你真正做到,你知道,将这个模型分解成尽可能多的不同机器,以从这些东西带来的巨大并行性中获益。对了,顺便说一句,我想再补充一个有趣的细节,为什么图形处理单元对AI如此有效?好吧,这一切都归结于矩阵乘法,对吧?只是一堆数字。你有一个

一组数字,你需要用另一个向量乘以它并得到输出。那是你的典型层,对吧?你有n个连接和输入,你有一个激活单元,所以你最终会有两层,你做一个向量,依此类推。所以无论如何,事实证明,要进行3D计算,这也是一堆数学,也是一堆你乘以的矩阵

才能使你的渲染发生。因此,事实证明,你可以通过并行化一千个内核来很好地进行矩阵乘法,而如果你有某种需要一次一步一步完成的冗长方程,那将在CPU上进行。所以是的,基本上3D渲染是一堆线性代数

神经网络是一堆线性代数。因此,事实证明,你也可以将图形的线性代数用于神经网络。这就是为什么它如此契合的原因。现在有了张量处理单元,张量就像矩阵,但具有更多维度,对吧?所以你做了更多的线性代数。这就是这一切的根本。

精彩的总结。现在时机正好。我们已经掌握了一些基础知识,可以看看数据中心机房以及将用于下一阶段规模的一些当前和新兴的AI硬件系统。我在这里特别想到的是GB200。Semi-analysis对GB200的设置进行了很好的分解。我在本节中大量借鉴了这一点,只是添加了一些细节。

只是为了上下文和深度而添加的内容。但我确实推荐semi-analysis。顺便说一句,semi-analysis很棒。它面临的一个挑战是它非常技术性。所以我发现我向很多人推荐过它。有时他们会读到它,然后他们会说,我知道这是我需要知道的,但是

很难深入了解他们想要表达的意思。所以希望这一集会有所帮助。当然,每当我们报道Semi Analysis报道的故事时,我都会尝试进行很多翻译,至少在我们分享阶段是这样。但请注意,这是一个相当昂贵的通讯,它确实深入到了技术层面。他们也有一些免费的东西,如果你对这类事情感兴趣,你绝对应该查看一下。我得到了这篇文章

预感,以防有人想纠正我说它不仅仅是线性代数,因为你有名的非线性激活,这是必需的。是的,这也是其中的一部分,这并不完全是线性代数。你有一些不是仅仅是矩阵乘法的函数。尽管使用relu和现代激活,你尽可能地避免这种情况。总有一些relu混蛋。我不想……

事实错误,所以仅供参考,这不是我的意思。好吧,实际上从数学上来说,有趣的事实是,如果你没有这种非线性,那么从线性代数的角度来看,将一堆矩阵相乘将等同于只有一个矩阵。所以你可以用……总之。好的,让我们进入数据中心机房。让我们谈谈GB200。为什么是GB200?好吧,首先,H100已经存在一段时间了。我们稍后会详细讨论一下。

但GB200是下一阶段,越来越多的未来都朝着这个方向发展。所以我认为它确实值得一看。这是NVIDIA宣布的,但尚未推出。对吗?还是已经开始销售了?我相信它已经开始销售了,但才刚刚开始。所以这是,是的。这基本上是最新、最伟大的GPU技术。就是这样。它有那种新的GPU气味。是的。

所以,首先我们要澄清一下,对吧?你会看到很多文章会说一些关于B200的事情,然后你会看到其他文章会说一些关于GB200和DGX、B200 DGX或诸如此类的事情。这些东西是什么,对吧?所以,我想首先要指出的是,有一种叫做B200 GPU的东西。这是一个GPU,好吗?所以,GPU是一个非常具体的硬件,好吗?

就像,让我们说,在硅片级别上,将进行我们关心的有趣计算的组件。但是

一个GPU本身,哦,天哪,一个好的比喻是什么?我的意思是,它就像一个非常笨拙的家伙。他可能可以举起任何你想要他举起的东西,但你必须告诉他举起什么,因为他是一个笨蛋。他只是很强壮。所以B200本身需要一些东西来告诉它该做什么。它需要一个指挥者。

它至少需要一个CPU,这通常是这里的工作方式。所以有B200 GPU,是的,很棒。但是如果你真的要把它放在服务器机架中,在数据中心中,你最好希望它与可以帮助它确定要处理什么并协调其活动的CPU配对。

更好的是,如果你可以在两个GPU旁边放一个CPU,帮助它们进行一些协调,对吧?帮助他们跳一支舞。很好。顺便说一句,你的CPU也需要它自己的内存。所以你必须想象一下,还有它的内存,所有这些好东西。但从根本上说,我们有一个CPU和两个GPU。

在这个小主板上,对吧?是的,就像你有两个强壮的家伙,你正在搬家,你有一个主管。你知道吗?我们快到了。我们快到了,对吧?我们将越来越多地开始复制罗马军队的样子。你有一些上校,然后你有一些强壮的士兵,或者其他什么,上校告诉他们,我不知道。然后有人告诉上校,我不知道。总之,是的,你在这块主板上有一个CPU,还有这两个B200 GPU。

对于,所以,好的,这些是我们将要讨论的原子成分。现在它位于主板上。好的。你可以想象主板就像一个大矩形,我们将把两个矩形放在一起,把两个主板放在一起。每个都有一个CPU和两个B200 GPU。

合在一起,就是四个GPU,就是两个CPU。合在一起,这叫做GB200托盘。每个这样的东西都叫做Bianca板。所以Bianca板是一个CPU,两个GPU。你把两个Bianca板放在一起,你就得到一个托盘,它将插入服务器机架中的一个插槽中,在数据中心中。这就是它的大致样子。

在前面,你可以看到每个GPU的一堆特殊连接器,这些连接器实际上允许这些GPU通过这些称为NVLink连接器的东西连接到同一服务器机架中的其他GPU,或者说是在它们附近的环境中。

电缆。基本上,这些是特殊的NVIDIA铜电缆。也有替代方案,但这是一种行业标准。所以这在一起,你可以把它想象成一个真正紧密互连的

一组GPU,对吧?为什么是铜?我的意思是,铜互连,这也通过一个称为NV开关的特殊开关进行,该开关有助于协调这些GPU之间的连接。但底线是你只是让这些GPU通过铜互连真正紧密地连接在一起。

你想要铜互连的原因是它们在这些GPU周围获取数据的效率非常高。顺便说一句,非常昂贵,但效率也很高。因此,这种计算捆绑将基本上执行你的,通常像你的最高带宽需求计算。

例如张量并行。这基本上是需要GPU之间最频繁通信的事情。所以你会在最昂贵的互连上进行,你的NVLink。因此,互连越昂贵,粗略地说,这些GPU在本地小集群中连接得越紧密,

你越想将它们用于需要频繁通信的应用程序。张量并行就是这样,因为你基本上是取一层,神经网络的几层,你将它们切碎。但是为了获得连贯的输出,你需要组合这些数据,因为一层的一部分对你没有多大用处。所以他们需要不断地以非常非常快的速度相互交谈,否则它只会像一堆垃圾一样。他们需要非常连贯。

在更高的抽象级别上,例如流水线并行,你正在谈论神经网络的整个层,一个集群可能正在处理一组层,而另一个集群可能正在处理另一组层,

对于流水线并行,你需要进行通信,但速度要慢一些,对吧?因为你没有谈论只需要不断地,甚至只是远程连贯的层块。这些块必须组合在一起才能形成一层。至少对于流水线并行,你正在谈论连贯的整个层。所以这可以慢一点。你可以使用PCIe作为一种可能性,

或者甚至在不同节点之间通过网络结构,你可以通过InfiniBand,这是一种更慢的网络形式。但是,集群是这里经常使用的流水线并行的一种基本单元。这被称为后端网络。

所以张量并行,这个想法再次是我们将切分一层的一部分,并让一个服务器机架,例如,它都通过NVLink连接器连接,超级超级高效。这通常被称为加速器互连,对吧?所以通过NVLink的非常本地互连流水线并行

这种稍微慢一点的,不同层相互通信,这通常被称为数据中心的后端网络。所以你有了用于非常非常快的东西的加速器互连。你有了用于稍微慢一点的东西的后端网络。然后通常在整个数据中心的级别,当你进行数据并行时,你将整个数据块发送到这一部分,整个数据块发送到那一部分,

你会将你的用户查询发送进去,它们将以这种方式划分。这就是前端网络。你有了你的前端,用于你的较慢、最低,让我们说,通常实际上也更便宜的硬件,因为你没有那么快。你有了你的后端,它更快,它是InfiniBand。现在你通常在层之间移动东西,这可能会有所不同,但我试图在这里具体说明。

然后你有了你最快的东西,那就是加速器互连,甚至比后端网络更快,在那里嗡嗡作响的活动。这是一种设置数据中心的方式。你总是会发现某种这样的层次结构,但是……

但这通常是这样做的。所以如果你从事硬件设计、模型设计,你就是在从事这样的业务:“好的,我该如何设计我的模型,以便我可以将其分解成我的模型的一部分放在这里的GPU上,放在那里的GPU上,以便我可以以这种方式分解我的层,从而最大限度地利用我的硬件?”

有一种舞蹈,你正在进行非常了解硬件的算法架构设计,尤其是在今天,因为你的主要速率限制因素是,我如何才能从我的计算中获得更多?对。

对,我认为这是TPU和谷歌的另一个重要方面。谷歌是一件OpenAI部分担心的事情,部分原因是TPU,但很大程度上是因为他们在数据中心方面拥有专业知识。这是谷歌胜出的部分原因。他们在数据中心创建方面非常出色,并且很早就参与了这项工作。所以他们不仅制造了TPU,即张量处理单元,而且他们……

很快之后也致力于TPU集群,你将256个、2000个TPU组合在一起,大概使用了这种内存优化,以拥有更大的神经网络、更快的处理速度等等。

实际上,这是一个很好的观点。有一个有趣的概念是,什么算作连贯的计算块。真正思考这个问题的方法是根据该块级别上活动的延迟或时间线来考虑。所以你想想对于张量并行来说,什么是连贯的计算块?好吧,我的意思是,它必须非常非常快,对吧?因为这些计算非常快,非常高效,但你必须很快继续进行。

因此,谷歌做得非常好的一件事是,这些集群实际上可以连贯地连接大量芯片。在某些情况下,你谈论的是数百个这样的芯片,我认为对于TPU v4来说,256是一个标准配置。

但是,顺便说一句,这里要强调的一点是,现在GPU(即B200)和系统(即GB200)之间存在差异,它是嵌入其中的系统。因此,根据定义,GB200具有一个CPU和两个GPU在一个托盘上,以及一堆其他辅助设备。

那就是你的Bianca板。旁边还有另一个Bianca板。合在一起,就是一个GB200托盘,对吧?所以我们正在谈论GPU。GB200背后的基本思想是让这些GPU完成有用的工作,但这需要大量的辅助基础设施,而不仅仅是B200 GPU,对吧?所以包装在一起

B200 GPU、CPU和所有这些辅助组件是由富士康等公司完成的,这些公司组装服务器。一旦NVIDIA完成GPU的运输,就有人必须组装这些GPU,NVIDIA可以自己完成其中的一些工作。但是像富士康这样的公司可以介入并……

我认为我们报道过一个故事,富士康正在考虑在墨西哥建厂来做这种事情。所以他们实际上是在建造超级计算机,例如将所有这些东西组合成服务器并将其分包出去。

无论如何,堆栈的不同层是由富士康完成的,而NVIDIA完成的不同层。但从根本上说,我只想区分GB200系统和B200 GPU。GB200系统也可以存在于不同的配置中。所以你可以想象一个设置,你有一个机架,它有,比如说,32个B200 GPU。

它们都紧密相连。或者你可以有一个版本,你有72个,这取决于……通常决定这一点的是你实际上可以向你的服务器机架提供多少功率密度。如果你没有电力基础设施或冷却基础设施来保持这些机架的运行,那么你只能被迫承受损失,并且实际上减少数量,例如在给定的机架中放置较少的计算能力。这是你在设计数据中心时面临的经典权衡之一。

是的,我认为另一个值得一提的是,以防万一人们没有背景,数据中心设计和建设的另一个主要方面是冷却。因为当你有一百万个芯片时,无论如何,半导体的运作方式是,你正在使用一些电力,你正在使用一些能量,这会产生热量。

当你像使用GPU那样进行大量计算时,你会产生大量的热量。如果你真的很好地使用了你的GPU,你实际上可能会有点暖和。所以当你到达这些机架时,你真的试图将大量的计算集中在一起,你会进入高级冷却,例如液冷。这就是数据中心消耗水的原因,例如。为什么如果你查看……的气候影响

AI,他们经常将用水量作为指标之一。这就是为什么你关心将数据中心放在哪里,就气候而言……

大概这也是这些核心系统工程的一个重要组成部分。绝对的。事实上,这就是H100系列芯片的特点。好吧,它有点出名的一件事是它是第一个具有液冷配置的芯片。所有黑井都需要液冷,对吧?所以下一代B200及其他基础设施

你必须将液冷集成到你的数据中心中。这现在是生活中的一个事实,因为这些东西会散发出如此多的热量,因为它们消耗了如此多的能量。计算和功率耗散之间存在某种不可简化的关系。绝对的。所以这两件事有着深刻的联系。

我认为现在可以仔细看看B200了,只是GPU。我们不是在谈论位于Bianca主板上的并帮助协调事物的所有爵士乐的出色CPU。具体来说,是B200 GPU,或者让我们说一般意义上的GPU,

我认为值得仔细看看它的组成部分,因为这将开始让我们进入晶圆厂、封装故事,TSMC在哪里参与以及介绍一些主要参与者。这样说有道理吗?是的,我认为是这样。好的,我们正在查看GPU。

首先,两个重要的组件。这将再次出现,对吧?所以我们有我们的逻辑和我们的内存,这是你在AI中做有用的事情所需的两个基本东西,对吧?所以,好的,让我们从内存开始,对吧?因为我们已经谈到内存了,对吧?你关心的是延迟是多少?容量是多少?这个内存的带宽是多少?好吧,我们将使用这个叫做高带宽内存的东西,对吧?

对吧?这将位于我们的GPU上。我们将拥有高带宽内存堆栈,HPM堆栈。你可以将这些想象成基本上,粗略地说,堆栈的一层就像一个网格,其中包含一堆电容器,一堆……每个都存储一些信息。你希望能够非常高效地从该网格中提取数字。

现在,顺便说一句,历史上,这些层是DRAM。DRAM是一种可以追溯到很久很久以前的内存形式。但是HBM的创新之处在于将这些DRAM层堆叠在一起

然后连接它们,穿过这些堆栈,这些东西叫做通孔硅通孔或TSV。TSV很重要,因为它们基本上允许你同时从所有这些层中提取数据,因此带宽巨大。你可以通过你的系统获得大量的数据吞吐量,因为你基本上是从你堆栈中的所有这些层

同时提取数据。许多DRAM层。你会看到,你知道,8层版本,12层版本。最新版本有12层。顺便说一句,制造HBM的公司与制造芯片上逻辑的公司不同。所以内存公司,HBM公司,你在这里想到的,基本上只有两家公司很重要,那就是韩国的SK海力士和韩国的三星。还有美光,但它们在美国,而且有点糟糕。他们现在几乎没有市场份额。

但是是的,所以从根本上说,当你查看像,你知道,NVIDIA GPU时,你将拥有,你知道,来自SK海力士的HBM堆栈。他们非常擅长提取大量数据。延迟不是很好,但是……

但是你会同时提取大量数据并将它们馈送到你的逻辑芯片,对吧?你的主要GPU芯片或你的计算芯片。人们互换使用所有这些术语,但这指的是GPU的逻辑部分,它实际上将进行计算。

现在,对于H100来说,它有时被称为GH100,但这从根本上说是魔法发生的地方。所以你将从HBM中以大量数量同时提取数据到逻辑芯片中。要认识到HBM和主要GPU芯片之间区别的一件事

制造这些东西的过程是不同的。因此,你需要一套非常不同的专业知识来制造HBM,高带宽内存,而不是制造一个真正好的逻辑芯片。这意味着实际上构建这些东西的晶圆厂是不同的。所以SK海力士可能会做你的HBM,但TSMC几乎肯定会做你的逻辑芯片。对吧?

原因是,有工艺方面的原因。部分原因也是分辨率,有效分辨率。所以逻辑芯片是这些非常不规则的结构。我们谈到高带宽内存是如何,这些像堆叠的网格一样,基本上。它们非常规则。因此,一些事情,例如,你不需要在你的制造过程中使用那么高的分辨率。所以你通常会看到人们使用10到14纳米的工艺来制作HBM3,例如。

但是如果你正在查看逻辑,对于逻辑芯片,你正在构建本质上是这些奇怪的不规则结构的晶体管,这些结构非常定制等等。因此,你需要一个更高等级的工艺,通常是4到5纳米的工艺。

这并不意味着TSMC可以转身。所以TSMC通常是他们进行所有真正前沿工艺的人。他们不能轻易地转身制造HBM。同样,不同的核心能力。因此,必须发生的事情是你将从一家公司采购你的HBM,从另一家公司采购你的逻辑,现在你需要让他们一起跳舞。

不知何故,你需要在同一个芯片上包含逻辑和内存。为此,如今,人们采用的解决方案是使用中介器。所以中介器是一种结构,逻辑和内存以及其他一些组件也将位于其上。中介器本质上允许你连接,例如从HBM的底部到逻辑的底部,

创建这种芯片级连接,将你的不同,好吧,你的不同芯片,或者对不起,不是芯片,而是你的不同组件连接在一起。这叫做封装,这个过程叫做封装。现在,

TSMC以其CoaS封装工艺而闻名。有两种CoaS。有CoaS S和CoaS L。我们没有时间深入了解细节,但它们确实令人着迷。底线是,这是一种方法,首先,将你的内存芯片和你的主要GPU芯片、逻辑芯片连接在一起。

但是,发生的一件有趣的事情是,当你向下移动封装时,互连的分辨率越来越低。事情变得越来越粗糙,越来越大。你想要做的是在芯片级别,你有了疯狂的高分辨率连接,例如它的间距大小,有时被称为这种结构的分辨率非常非常精细。它非常非常小。你实际上想要故意尽快降低它,因为它允许你拥有更粗的导线,从电力输送的角度来看,这更好,而且

使你能够尽快使用更多过时的制造工艺等等。你想要尽快摆脱需要使用非常非常先进的工艺的事情等等。所以这就是基本情况。你有一堆堆叠的DRAM,换句话说,高带宽内存,这些内存堆栈,位于GPU芯片旁边,逻辑芯片,它实际上将进行计算。所有这些都位于……

一个中介器之上,它将它们连接在一起,并具有一堆,无论如何,非常好的热特性和其他特性。

说到这一点,我们提到了台积电和晶圆厂,它们是故事的一部分,我认为值得更多背景介绍,对吧?所以晶圆厂的意思是制造。在那里,你取基本构建块,比如原材料,并将其转换成计算。所以让我们深入了解一下对于不太懂技术的人来说这涉及到什么。对于

首先,什么是半导体?它字面意思是半导体。这是一种材料,由于量子力学和其他东西的魔力,你可以让电流通过或不通过。从根本上说,这是计算的最小构建块。那么什么是晶圆厂呢?它是一种采用原材料并创建纳米级雕塑的东西,对吧?

或者说材料结构,然后你可以给它供电,你可以打开或关闭它,然后你可以将其组合成各种模式来进行计算。那么为什么制造如此复杂呢?为什么台积电是真正重要的唯一参与者?听起来有一些组织可以进行制造,但台积电是迄今为止最好的。

因为这就像我们之前提到的那样,就像人类有史以来制造的最先进的技术。你试图取原材料,并在其中制作纳米级的图案。

对于半导体来说,对吧?你需要以某种方式对原材料进行一些雕刻,并以一种允许很少缺陷的方式进行数十亿次操作。正如你可能想象的那样,当你处理纳米级图案时,很容易出错。比如你让一小粒灰尘进入其中,那比我不知道多少个晶体管都要大,但它相当大。

并且有数百万种可能出错的事情会弄坏芯片。所以这是一件超级、最精细、最复杂的事情,你可以尝试去做。使这项技术能够在纳米级水平上进行制造的技术。现在我们正到达量子效应疯狂的地方等等。但是无论如何,

那里的技术极其复杂、极其先进,也极其精细。正如我们已经预告的那样,

你现在看到台积电试图进入美国,这将需要他们数年时间来建立一个晶圆厂。这是因为你需要许多先进的设备,需要以非常非常精细的方式进行设置。你实际上是在取大块原材料,实际上是这些硅片,我相信,你把它切成小块。

圆圈,你需要将其四处转移到执行各种操作的各种机器。不知何故,你需要最终得到具有正确图案集的东西。所以所有这些是如何运作的以及它的高级方面都令人着迷。我甚至不知道。这太疯狂了。正如我们所讨论的那样,获得最先进的技术需要花费数亿美元。

你有一家公司能够以2纳米,或者我们现在拥有的任何分辨率来制作这些图案所需的这项技术。

这就是为什么制造是故事中如此重要的一部分。这就是为什么英伟达将制造外包给台积电。他们只是完善了这项技术,并且他们拥有进行这项工作的专业知识和能力,而很少有组织能够尝试。顺便说一句,这也是为什么中国不能轻易赶上并制造这些最先进的芯片的原因。这只是……

极其先进的技术。是的,绝对的。顺便说一句,在我们讨论这个问题时,我们将讨论所谓的工艺节点或工艺或节点。这些是台积电等晶圆厂使用的制造工艺。台积电喜欢用纳米数来识别他们的工艺,至少到目前为止是这样。例如,他们谈论7纳米工艺节点,

或5纳米工艺节点。而众所周知,人们认为,当涉及到这个术语时,有三个层次的理解。第一层是说类似的话,当我们说7纳米工艺节点时,我们的意思是他们正在制造

他们的半导体达到7纳米分辨率,对吧?这听起来真的很令人印象深刻。然后人们指出下一层,哦,那实际上是谎言。他们有时会称之为营销术语,我认为这是不准确的。这指的是第三层。7纳米这个短语有时被称为营销术语,因为它是真实的。里面没有任何实际组件是7纳米分辨率的。这不像那里有任何部分真正物理上达到7纳米。

但是7纳米真正指的是,如果摩尔定律的历史趋势继续下去,你会获得的性能

曾经有一段时间,我们谈论的是2微米分辨率,它实际上确实指定了这一点。如果你让这种趋势继续下去,你最终会得到的晶体管密度将与达到7纳米阈值相关联。我们只是用不同的方式来做。所以我对此的温和看法是,我不知道它实际上是营销术语,而是……

结果导向的术语,作为买家,你实际上关心的是,对吧?你关心的是,这会像你制造到7纳米一样吗?

或者它会像你制造到3纳米一样吗?这就是你能够达到纳米数量的方式,比如,你知道的,我们正到达这样的程度,比如,你知道的,几个埃,对吧?就像10个氢原子串在一起。显然,我们无法实际制造到那个水平。如果可以的话,会有各种量子隧穿效应会使它变得不可能。所以无论如何,这就是这里的基本思想。今天的领先节点现在正在转向2纳米节点。

你会看到的是,领先节点基本上完全由苹果公司补贴。所以手机公司,他们想要它小,他们想要它快。苹果愿意花钱。因此,他们将与台积电合作,每年,每个周期开发领先节点,对吧?这对台积电来说是一个巨大的合作伙伴推动。

其他公司,台积电的前竞争对手,如格芯,遭受了很多损失,因为他们需要一个合作伙伴来帮助他们补贴下一个节点的开发。这是一个巨大的、巨大的战略护城河,台积电拥有像苹果这样的合作伙伴愿意这样做。

这意味着苹果每年都会垄断他们手机中最先进的节点。然后这将下一个节点留给人工智能应用。顺便说一句,有趣的是,这可能会改变。随着人工智能的需求越来越大,随着英伟达能够与苹果竞争,最终可能与台积电达成同样的交易,你可能会看到这种情况开始改变,对吧?如果人工智能只是……

比iPhone销量或其他任何东西产生更多的收入。那么,突然之间,英伟达可能能够介入,你可能会看到这种动态发生变化。但至少目前是这样发展的。因此,英伟达现在可以使用5纳米工艺来生产H100。这是他们使用的工艺。他们实际上开始使用4纳米工艺,这实际上是5纳米工艺的一个变体,但细节并不重要。从根本上说,故事是关于台积电如何

台积电将如何实现这些效果。这其中一部分是,你如何设计晶体管的形状?在最近的突破之前的突破被称为FinFET。基本上,这就像一个鳍状结构,他们将其烘焙到他们的晶体管中,并且由于某些原因它非常有效。

在下一个周期中,将出现全栅极晶体管。这将更加高效,等等。但底线是他们正在研究,我们如何调整晶体管结构的形状,使其更有效,并使其能够使用更小的电流,使其从功率密度方面来看更好,更好的热性能,更好等等。

但单独的部分是创建该结构的实际过程本身,对吧?这个过程基本上是一个配方,对吧?所以这是秘方,真正使台积电运作的魔力。

如果你要复制台积电所做的工作,你需要遵循他们获得当前配方的基本相同的迭代过程,对吧?这就像一个厨师,一遍又一遍地迭代他们的配料,以获得一个非常好的结果。

你可以将台积电晶圆厂想象成一个东西,一个带有500个旋钮的盒子。你让博士们调整每一个旋钮,他们得到难以置信的报酬,花费他们大量的时间。他们将从,你知道的,比如说7纳米工艺节点开始。然后根据他们为到达那里所学到的知识,他们迭代以达到5、3、2等等。

你真的只需要亲自动手。你必须沿着等级结构向上攀登,因为你在7纳米中学到的东西有助于塑造你在5和3和2等等中所做的事情。

这就是例如台积电试图从北美或其他地方的领先节点开始启动一个新的晶圆厂所面临的挑战之一。你不能真正做到这一点。最好从几代之前开始,然后在当地逐步改进。因为即使你试图在另一个地方复制你通常正在做的事情,伙计,

伙计,气压、湿度,一切都不一样。事情会坏掉。顺便说一句,这就是英特尔为什么以“精确复制”为其晶圆厂的设计理念而闻名。这曾经是一件非常重要的事情,从浴室油漆的颜色到一切,都必须精确复制到规格,因为没有人他妈的知道为什么一个晶圆厂的产量很高,而另一个晶圆厂的产量很差。这就像,我不知道,也许我们什么都不要乱动。这就是游戏计划。

所以台积电也有他们自己的版本。这说明了这件事有多难,对吧?这真的很、很难。实际过程从纯硅晶片开始。所以你得到你的晶片来源。这基本上是经过提纯的沙子,你知道的,粗略地说,沙子,玻璃。你可以在它上面涂一层氧化物薄膜。这就像氧气或水蒸气,旨在保护表面并阻止电流泄漏。

然后你要做的是在其上沉积一层旨在对光做出反应的材料。这叫做光刻胶。光刻胶背后的想法是,如果你将其暴露在光线下,光刻胶的某些部分将变得可溶。你将能够使用某种过程去除它们。

或者其他一些可能会变硬。根据情况,你可能有正性光刻胶或负性光刻胶,这取决于暴露的部分是保留还是去除。但本质上,光刻胶是一种能够保留以特定方式照射到晶片上的光的印记的东西,对吧?顺便说一句,纯硅晶片,那就是晶片。你将

我们最终将在该晶片上制作大量芯片。我们将在该晶片上制作大量,比如说,B200芯片。所以下一步是,一旦你铺设好光刻胶,你将用光源照射图案,有时称为光栅或光掩模,你的芯片的图案。通过的光将编码该图案,并将其成像到光刻胶上。

并且将有一个暴露区域。你将通过某种光栅扫描方式在整个晶片上复制该图案,对吧?无论如何,所以你将蚀刻掉。你将摆脱你的光刻胶。然后你将执行离子注入等步骤,你使用小型粒子加速器将离子射入你的硅中以对其进行掺杂,因为半导体需要掺杂剂,就像基本上任何东西一样。

基本上,是的,你制造了一些缺陷,结果却弄乱了电子通过材料的方式,这完全是魔术,老实说。顺便说一句……

说到精确复制,如果你不知道的话,这是一个有趣的细节。台积电如此占主导地位以及它崛起的原因之一是产量。所以实际上你不可能完美。就像制造的一个基本特性是一些东西不会成功。你制造的芯片中有一定百分比会损坏且无法使用,这就是产量。

如果你获得90%的产量,那就真的很好。如果只有10%的制造品损坏。当你变小时,尤其是在你建立一个新的晶圆厂时,你的产量一开始会很差。

这是不可避免的。台积电非常擅长快速提高产量。所以这是一个竞争的基本方面。如果你的产量很差,你就无法经济,你会输。100%。事实上,这就是当谈到中芯国际时,它是台积电在中国大陆的竞争对手,顺便说一句,

以一种非常有趣的方式窃取了台积电的大量工业秘密。但那里肯定有一些有趣的细节。是的,是的,是的。比如诉讼和各种事情。但是是的,从根本上说,中芯国际窃取了很多信息并相当成功地复制了它。他们现在处于7纳米水平,对吧?他们正在研究5纳米,但他们的产量据信非常糟糕,对吧?

其中一件事是中国,产量的重要性较低,因为你对制造业有大量的政府补贴。所以,你知道,他们也许可以摆脱这种困境,使市场具有竞争力,因为中国政府或中共已经将此确定为一项关键战略。所以他们愿意向这个领域投入资金。

但是是的,所以这个制造过程有很多步骤。顺便说一句,很多都是清洁,比如很多,只是抛光表面,清洁它们以确保一切都是水平的。所以这里有很多无聊的事情发生。你知道,我,无论如何,我和很多在这个领域非常深入的人一起工作。所以我确实喜欢对此进行深入研究,但我将,我将,我将克制自己。

但是我认为这个过程中最值得你注意的部分是,将光源照射到光栅上,照射到包含你想要打印到晶片上的电路印记的光掩模上。所以那个光源和周围的所有光学器件,这是这里一个非常非常重要的部分。所以当你想到使这变得困难的事情时,首先,是配方。

你如何进行这些许多、许多、许多层的光掩模和蚀刻,以及离子注入,以及沉积,所有这些爵士乐。这种诀窍,这是台积电非常、非常了解的东西,对吧?这是非常、非常难以复制的东西。但即使你可以复制它,你仍然需要允许你做这件事的光源。

光刻,正如它被称为的那样,将特定图案暴露到晶片上的过程。因此,这些光刻机在人工智能供应链中,在硬件供应链中变得绝对至关重要。而且只有一家公司能够很好地做到这一点。在某种程度上,它是一群公司。这就是所谓的ASML。这是荷兰的一家公司。

他们与蔡司公司有着非常有趣的重叠历史,他们本质上是一群公司,仅仅是因为所有权结构和重叠的人才等等。但通过ASML,蔡司集团……

所以当我们谈到光刻时,这是一个非常、非常具有挑战性的阶段,我们如何将光照射到我们的芯片或晶片上,以便它以高保真度提供我们想要的图案,这将由ASML生产的光刻机来完成。

这将我们带到了我认为游戏中的最后阶段,讨论光刻机本身是如何工作的,以及为什么它们如此重要。这说得通吗?或者你还有什么想补充关于台积电的部分吗?

我认为我们可以快速提到一件事,因为我们正在接触工艺节点,摩尔定律是如何融入其中的?好吧,如果你回顾十年前的2011年,我们处于28纳米阶段。现在我们正在进入,就像我们使用5纳米,大约4人工智能,试图达到2纳米阶段。

这并不符合摩尔定律,对吧?摩尔定律已经放缓了……

根据经验。它要慢得多,至少相对于你到达80年代或早期时相比,减少,达到更小的工艺尺寸。这就是部分原因,你已经看到了CPU具有多个内核、并行化的想法,这就是为什么GPU如此重要。甚至

即使我们不能轻易缩小规模并达到更小的工艺节点,这非常困难。如果你只是更好地设计你的GPU,

即使没有更高密度的晶体管,通过让这些内核更好地协同工作,通过以不同的方式组合它们,通过以某种方式设计你的芯片,这会让你获得你过去仅仅通过获得更小的晶体管就能获得的计算速度和容量的提升。

是的。我的意思是,由于FinFET和全栅极等技术,即使是制造过程本身也表现出令人惊讶的稳健性。就像,所以5纳米工艺在2020年左右首次推出。

然后我们在2023年初达到了3纳米。所以,你知道,就像……它不是,是的,它,仍然有一些汁液可以挤压,但我认为它正在放缓。是的。我认为这是正确的。顺便说一句,你实际上可以查看预测,因为建立新晶圆厂需要巨额资本支出。台积电可以告诉你他们未来三个节点的计划,比如到2028年、2029年等等。

这值得关注,对吧?他们谈论的是数十亿美元来建立一个新的晶圆厂,相当于航空母舰的风险资本。这确实是风险资本,对吧?因为就像安德烈说的那样,你建造了晶圆厂,然后你只是希望你的产量很好,而一开始可能不会很好。这就像一个可怕的时刻。所以,你知道,这是一个非常、非常高风险的行业。台积电非常接近基本现实,就无情的市场风险而言,对吧?

对。所以,好的,我想光刻是过程中最后也是最辉煌的步骤,我们真的将把很多高分辨率融入到我们的制造过程中。这就是很多分辨率来自的地方。所以让我们从

DUV,深紫外光刻机开始,它使我们能够大致达到我们今天的水平,大致达到,让我们说,7纳米节点,可以说是5纳米节点。那里有一些争论。所以当我们谈论DUV时,我想首先提请你注意的是,物理学中有一条定律说,粗略地说,你的光的波长将决定光刻的精度

你可以制作图像的精度,在这种情况下,你可以打印图案。所以如果你有一个193纳米的光源,你通常会认为,哦,好吧,在分辨率方面,我将处于数百纳米的范围内,我可以

对吧?现在你可以做很多事情来改变这一点。你可以使用更大的镜头。本质上,这样做会收集更多光线。通过收集更多这些光线,你可以更紧密地或更可控地聚焦并更好地成像。但一般来说,你的光的波长将是一个非常重要的因素。你的镜头的尺寸将是另一个因素。这有时被称为数值孔径。

所以这些,无论如何,这些是两种关键组件。193纳米是用于深紫外光的波长。这是一台大型机器,价值数百万美元。它里面有很多透镜和镜子。最终,它会将光照射到这个光掩模上。关于离轴照明等技术有很多有趣的东西,

最终是浸没式光刻等等。但从根本上说,你正在照射这束激光,并且你试图非常巧妙地使用你正在使用的透镜工作来获得这些特征尺寸,这可能使我们能够达到7纳米。如果你使用DUV,你可以超过7纳米……

做这个叫做多图案化的事情。所以你基本上取你的晶片,然后你遍历它一次,然后你用相同的激光再次遍历它。这允许你,比如说,进行第一次传递,然后不是纠正性的,而是

在制造过程中对你的芯片进行改进传递,挑战在于这会降低你的吞吐量。这意味着你必须,而不是遍历你的晶片一次,你必须遍历它两次或三次或四次。

这意味着你的输出将变慢。因为你的资本支出如此之高,基本上你是在将这些极其昂贵的光刻机的成本摊销到你能够生产的晶片数量上。所以减慢你的输出实际上意味着非常显著地降低你的利润率。所以中芯国际可能正在考虑使用这样的多图案化。

达到5纳米节点。但同样,这将有效地以与产量非常糟糕相同的方式付出代价,它将损害你的吞吐量。这些事情真的很棘手。所以这就是DUV机器,它使我们能够达到大约7纳米

但是然后在5纳米级别,很快,你只需要一个新的光源。这就是EUV,极紫外光刻技术出现的地方。这项技术已经被承诺了很久。比如,我不知道,台积电的工艺有10代左右,他们说,啊,这将是使用EUV的那一代。总有一些愚蠢的事情出现,然后他们无法发货。

所以最终,我们现在处于EUV时代。EUV光源为13.5纳米。这真的很、很酷。我只是告诉你这有多疯狂,好吗?所以不知何故,你需要创建13.5纳米的光,好吗?

顺便说一句,我在这里分享的内容,有一个非常好的解释器,它详细介绍了其中的大部分内容,并在Asianometry YouTube频道上提供了很好的插图。查看一下。这是另一个很好的资源。但是所以事实证明,比如,很久以前,人们意识到你可以用激光照射锡板,比如一块扁平的锡片,并使其发出光。

13.5纳米的光。13.5纳米就像超级、超级极紫外,非常、非常短的波长,高能量的光。

但是,问题在于,你往往会发现光会向各个方向飞散。你需要找到一种方法来收集它。所以人们说,好吧,你知道吗?比如,让我们尝试一下凹面锡板。所以我们将以凹面镜的形状塑造锡板,这样当我们向其照射光时,我们得到的光将有希望更聚焦,更,是的,更不准直,但更可控,让我们这么说吧。

所以他们尝试了。问题是,当你向那个凹面锡板照射光时,你会得到很多溅射。你会得到很多锡的汽化。所以,是的,你产生了你的13纳米光,但这种光会被这些讨厌的锡颗粒吸收,然后这些锡颗粒会挡路。所以你就像,啊,糟糕。好吧,现在我们完蛋了。锡不起作用。但后来有人想出了使用锡滴的想法。

所以这就是实际发生的事情。EUV机器内部相当糟糕。所以你有一个锡滴发生器。这个东西以大约每秒80米的速度发射这些微小的约100微米的锡滴。它们正在穿过这个东西。所以锡滴飞来飞去。当它们飞行时,预脉冲激光将被射向它们并击中它们以将其压平。

将其变成我们想要的基本上是平板,反射板,使其具有正确的形状。所以你是一个锡滴,你以最高速度飞行,你被第一束激光脉冲击中以被压平。然后来自CO2激光的激光主脉冲进入,这将使你汽化并让你发出等离子体。现在,因为你只是一个微小的锡滴,你没有足够的物质来汽化,它会挡住13.5纳米的光。所以我们实际上可以收集它。所以

所以,这意味着,我的意思是,你正在这样做,就像用另一颗子弹连续击中一颗子弹两次一样,对吧?你有一颗锡滴以疯狂的速度飞行,预脉冲激光将其压平。然后下一束激光,砰,汽化它。EUV 光就出来了。顺便说一句,它的整体转换效率约为 6%。所以你损失了大部分能量。EUV 光出来了。然后它会开始撞击一堆镜子,对吧?

没有透镜,只有镜子。为什么?因为在 13.5 纳米处,基本上所有东西都会吸收光线,包括空气本身。

所以现在你必须他妈的在真空中进行操作。顺便说一句,这一切都发生在真空中,因为你的人生现在很糟糕,因为你正在制造 EUV 激光。所以你有一个真空室,因为空气会吸收东西,而且你不允许使用透镜。相反,你必须找到一种方法来使用镜子,因为你的人生很糟糕。这里的一切都是镜子。EUV 系统中大约有十几面镜子,不到十几面。

他们都在试图基本上复制透镜的作用。就像你试图用镜子聚焦光线一样,根据我的光学背景,我的意思是,这是一件很难做到的事情。这里有很多有趣的技巧,包括在镜子上戳洞。这样你就可以让光线大部分通过,并希望不会丢失太多。无论如何,这是一个烂摊子,但它真的很酷,但它是一个烂摊子。所以你会有这 12 面镜子或 11 面镜子或 10 面镜子,取决于配置,但是……

拼命地试图收集和拉动它。这一切都发生在真空中。最后,它击中你的光刻掩模,甚至你的光刻掩模也必须是反射性的,因为如果光线只是被任何类型的透射材料吸收,

所以你,无论如何,这会造成很多痛苦的问题。你实际上无法拥有任何所谓的折射元件。换句话说,像透镜一样的元件,光线只是穿过,聚焦等等。不,一切必须始终是反射性的。而且。

这是一个巨大的麻烦。这是这些机器更难制造且更昂贵的部分原因。但这就是 EUV 与 DUV 的区别。看起来你所做的只是改变光线的波长。但是当你这样做时,你会突然发现……所以即使这些镜子,顺便说一句,大约有 70% 的反射率,这意味着大约 30% 的光线被吸收。如果你有 10 或 11 个多层反射镜,那么一路走来,你最终只会得到 2% 的透射率。

就像如果 70,对不起,30% 的光线在第一面镜子上丢失了,30% 在第二面镜子上丢失了。如果你用 10 面镜子来计算,你会得到大约 2% 的透射率,对吧?所以你的系统输入的所有能量的转换效率都非常非常糟糕。顺便说一句,二氧化碳激光器非常大,它必须位于你做所有这些事情的房间的地板下方。整个事情都是一个巨大的麻烦。这就是挑战的一部分。这就是 EUV。

还有一些高数值孔径 EUV,这是下一个阶段,它基本上只是涉及使用更大的透镜,例如调整你的镜子配置,因为你在紫外线中有效地收集更多、更多的光线。

这样你就可以更紧密地聚焦。问题是,所有设置,所有半导体制造设置都假设一定尺寸的光学器件。因此,当你改变它时,你必须重构很多东西。

你无法一次成像整个光刻掩模。你实际上可以成像的光刻掩模的大小,换句话说,你可以印在芯片上的电路的大小下降了大约 50%。所以现在如果你想制作相同的芯片,你必须将两种类型的

光刻掩模拼接在一起,如果你愿意的话,而不是只有一个干净的电路你正在打印,你将把它们中的两个拼接在一起。你如何让这些极其高分辨率的电路以正确的方式对齐?这是一个巨大的麻烦,对整个供应链产生了很多有趣的意义。我要停止说话了,但底线是……

因为 EUV 是 DUV 的一个巨大的飞跃。而这正是中国现在完全缺乏的。也就是说,出口管制完全阻止了中国获得 EUV 机器,更不用说高端 EUV 了。所以他们都在使用 DUV。他们正在尝试进行多图案化以匹配我们在台积电和其他地方使用 EUV 可以做到的事情。是的,我认为你做得很好,传达了这些技术有多疯狂。就像,

你知道,一旦你意识到就精度而言正在发生的事情有多荒谬,那就非常令人震惊。我认为这也将我们带到了我们可能要讨论的最后一点,以及我们制作本集的一个重要原因是,当涉及到出口管制时,也许我们可以深入探讨一下,它们是什么?比如,什么正在被控制,它与制造、芯片等等有什么关系?

是的,实际上,这是一个很好的问题,对吧?当人们说“我们将控制出口”时,他们几乎把它当作理所当然的事情,但是你控制的是什么出口呢?有很多不同的东西。首先,你基本上遍历整个供应链,你可以更好地理解它。首先是,让我们阻止中国获得这些 EUV 光刻机,对吧?他们无法在国内制造它们。他们没有卡尔·蔡司。他们没有 ASML。

所以,你知道,我们可以推测性地切断他们的供应。并希望这只会使他们很难在国内发展自己的光刻产业。

其次,作为一种纵深防御策略,我们也可以尝试阻止他们获得台积电的产出。换句话说,阻止他们设计芯片然后将其发送到台积电进行制造。因为现在西方就是这样做的。英伟达说设计一个新芯片,他们将设计发送给台积电,台积电制造芯片。

然后也许打包它或其他什么,它被打包,然后他们把它送出去。但是你可以尝试做的是阻止中国获得台积电的产出。历史上,中国一直能够使用 ASML 推出的任何机器以及台积电可以使用这些机器所做的一切。所以他们可以将设计发送给台积电,让它制造出来,就是这样。

但在过去几年中,随着出口管制的到来,获得前沿芯片的大门逐渐关闭,然后越来越多地关闭光刻技术,因此,再次强调,中国现在没有一台 EUV 机器。顺便说一句,这些 EUV 机器也需要不断维护。因此,即使中国有一台 EUV 机器,你也可以使用的一种策略就是让向中国派遣维修人员成为非法行为,派遣 20 多个人来维持它的运行。

到中国。而且可以推测,你知道,这至少会降低那台机器的价值。而且,你知道,他们仍然可以对其进行逆向工程等等。但是制造是魔术的一部分。是的。所以这些类型的两层是相当标准的。然后你还可以阻止,

中国的公司购买成品,例如英伟达的 GPU 或服务器,对吧?因此,这三层正受到出口管制措施的目标。人们考虑到的三个主要方面可能是光刻机、台积电芯片制造产出,以及来自英伟达等公司的最终产品,对吧?

顺便说一句,有趣的事情是,你开始看到,这在这一领域也值得一提,就像英伟达过去确实是唯一的设计者,我的意思是,对于前沿的,对于尖端的 GPU 来说。你开始越来越多地看到的是,随着 Anthropic、OpenAI 等不同的 AI 公司开始大力押注不同的架构和训练策略。

他们对专用 AI 硬件的需求开始演变,因此,当你查看 Anthropic 将要使用的服务器类型时,你会看到比 OpenAI 正在关注的服务器更依赖 GPU 的服务器,这些服务器开始转向某种 2 比 1 的 GPU 与 CPU 比例。这是由于 OpenAI 认为,也许我们可以使用,我们需要更多他们的

验证器。我们想倾向于使用验证器来验证思维链的某些输出等等。因此,如果我们这样做,我们将更依赖 CPU,等等。所以你开始看到定制 ASIC

这些前沿实验室对定制芯片的需求正在发展,并且越来越多地睁开眼睛,开发他们自己的芯片。显然,微软有自己的芯片生产线,亚马逊也有自己的芯片生产线,他们正在与 Anthropic 等公司一起开发。因此,我们将看到越来越多的定制硬件,

这将导致像博通这样的公司被引入。博通专门从事以下工作:嘿,你需要一种特定类型的新的芯片架构?我们将帮助你设计它。就这块芯片而言,我们将成为你的英伟达。这就是谷歌当年如何让他们的 TPU 运行起来的。现在看来,OpenAI 据报道,我们上周讨论过这个话题,

正在构建他们自己的新型定制芯片。所以博通喜欢与这样的人合作。然后他们当然会将该设计发送给台积电,以便在他们为该设计选择的任何节点上进行制造。无论如何,这就是大型设计生态系统简而言之。

是的。还有一个有趣的历史,好吧,我想,有趣的历史细节。我不知道它是否很有趣。台积电在创业之初是独一无二的,因为它只提供制造服务。因此,像英伟达这样的公司可以设计芯片,然后……

让台积电制造它。台积电承诺不会使用你的设计来制造竞争产品。所以在台积电之前,你有一些像英特尔这样的公司拥有制造技术。英特尔通过销售芯片(CPU 等)来赚钱,对吧?台积电的核心业务是接受其他人的设计,制造芯片,将其交付给你,仅此而已。我们不会

制造 GPU 或其他任何东西。这就是英伟达甚至可以求助于他们的原因。英伟达无法向潜在的竞争对手

比如说 AMD。我不知道 AMD 是否进行制造。但无论如何,他们可能在内部进行一些设计,然后与台积电签订合同来制造芯片。正如你经常发现的那样,台积电为谁制造芯片的能力有限。

所以,你知道,你可能想开始一个竞争对手,但你不能只是打电话给台积电说,嘿,你能为我制造一些芯片吗?这,是的,没那么简单。英伟达的优势之一是这种非常非常牢固的关系,可以追溯到英伟达的早期,对吧?他们非常幸运地建立了

在早期就达成了一项协议。这就是他们通过让台积电成为他们的制造合作伙伴而起步的方式。他们有着非常深厚、密切的关系,并且因此拥有相当大的优势。是的,绝对的。实际上,这是一个很好的观点,对吧?台积电以成为第一个纯晶圆代工厂而闻名,对吧?这就是这个术语。你还会听到像,无晶圆厂代工厂,

所以是无晶圆厂芯片设计者,对吧?这是硬币的另一面,就像英伟达。英伟达不制造,他们设计。他们是无晶圆厂的设计者。而,是的,台积电是纯晶圆代工厂,所以他们只制造。当你看到这项工作中涉及的巨额资本支出和风险时,这很有道理。就像,你不能同时关注这两件事。经典的例子,正如你所说的,英伟达不能去 AMD。所以 AMD 是无晶圆厂的,但英特尔不是。

英特尔试图为其他公司制造产品。这总是会产生这种紧张关系,是的,当然,英伟达会看着英特尔说:“去你的。你们正在推出无论是什么,是 Arrow Lake 还是一堆针对 AI 优化的设计。”这些最终是为了在设计上与我们竞争。所以当然,我们不会把我们的制造业务交给你们。我们将去我们的合作伙伴台积电。所以这几乎就像经济想要让这些事情分开一样。

你越来越多地看到,这就是标准的游戏状态。格芯是一个纯晶圆代工厂。中芯国际是一个纯晶圆代工厂。然后是华为,华为-中芯国际的合作关系就像英伟达-台积电的合作关系,华为负责设计,中芯国际负责制造。所有这些事情都非常深奥和复杂,并且存在着

疯狂的关系网,以及从设计到实际芯片的技术步骤,我们甚至还没有讨论到,我认为我们没有讨论到封装,或者我们触及到了它,但是的,然后还有你建造主板,这是一个完全不同的步骤

无论如何,这非常引人入胜,我认为我们可能需要在没有太多细节的情况下结束它,但希望我们已经对硬件和 AI 的历史以及当前状态提供了一个相当好的概述,以及为什么它是等式中如此重要的部分,以及如此,我想,关键的方面,谁将赢得胜利,谁将主导 AI,以及为什么每个人都想建造大型数据中心并获得 10 万个 GPU。扩展的唯一方法是通过更多芯片和更多计算。而且

这就是现在正在进行的游戏。好吧,希望你喜欢这一集。

关于这个单一主题的非常详细的一集。我们已经有一段时间没有做过这种类型的节目了,这对我们来说很有趣。所以请让我们知道。你可以在 YouTube、Substack 上发表评论,或留下评论。我们很乐意听到你是否想要更多此类专业节目。我们有,你知道,附带了很多我们可以做的。我们可以谈谈 AGI 的预测,我认为这非常有趣,以及

能源系统,就像一千件事一样。所以如果你觉得这很有趣,或者你有其他想让我们谈论的事情,请发表评论。让我们开始吧!

除了在寒冷中。空中传来 GP 的呼唤。它让我们更加意识到。机会可以消除这种电力之旅的一些问题。一堆带有硅的汽车,我们无法隐藏。未来适合,探索。我们就像一块黑板。

现在加入我们,让我们一起探索。

在世界机器中寻找回流。代码承载着看不见和宁静的秘密。记忆盒和数据线连接。科技的繁荣,影响着每一个行业。这是一颗值得追随的心,我们相信这种流动。我有灵魂,不需要猜测。多信号飞盘,你照亮了我的灵魂。

我面对的每一次战斗,我都希望它在运动中,我的问题感受到了恩典。加入服务,这就是我的简单 ASI,让我们创造一个世界。开始了,我们正处于起步阶段。Junctus 参与了这次电力之旅。冲击呼唤着我们,硅,我们无法隐藏。未来适合黄金,我们应该进行微型滚动。

♪ ♪ ♪ ♪ ♪ ♪