cover of episode AI Computing Hardware - Past, Present, and Future

AI Computing Hardware - Past, Present, and Future

2025/1/29
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
A
Andrey Kurenkov
J
Jeremy Harris
Topics
@Andrey Kurenkov : 我研究AI,现在在一家人工智能初创公司工作。我学习软件和AI,训练算法,对硬件的理解相对较少,主要使用GPU并大致了解其功能。早期AI和硬件可以追溯到图灵时代,甚至在通用计算机出现之前,人们就已经在思考AI。图灵测试(模仿游戏)是用来衡量我们何时能够获得人工智能或通用人工智能的工具,至今仍被广泛讨论。20世纪50年代,出现了最早的AI程序,例如一个下跳棋的程序。马文·明斯基创造了一个名为随机神经模拟强化计算器(SNARC)的硬件神经网络,模拟老鼠在迷宫中学习,模拟强化学习。早期AI硬件都是定制的,例如SNARC,它有400个神经元,每个神经元有6个真空管和一个电机,大小像一架三角钢琴。早期计算高度定制化,可扩展系统和模块化计算直到英特尔出现才成为可能。IBM 701和702是早期大型机,亚瑟·塞缪尔为其编写了一个跳棋程序,展示了早期机器学习的例子。感知器是弗兰克·罗森布拉特在1958年至1959年创造的,是神经网络的早期演示,它可以学习区分形状。20世纪80年代,出现了为专家系统定制的硬件和Lisp机器,用于逻辑AI和搜索。深蓝是IBM为下国际象棋而开发的定制硬件,展示了强大的计算能力,而非机器学习。20世纪80年代和90年代,随着摩尔定律的持续发展,人们重新开始研究神经网络,但当时仍然使用CPU进行训练,没有并行计算。20世纪90年代末到21世纪初,GPU开始用于科学应用,包括神经网络训练,AlexNet是其中一个标志性例子。2012年,AlexNet论文利用GPU训练大型神经网络,在ImageNet基准测试中取得了突破性进展。2010年代中期,深度学习的兴起推动了对GPU和数据中心的投资,谷歌投资了TPU。谷歌在2010年代中期开发了TPU,这是第一款定制的AI芯片。OpenAI通过使用更大规模的参数模型(例如数十亿参数)推动了AI的发展。GPT-3、扩展定律和上下文学习的出现,标志着大规模神经网络语言模型时代的到来。ChatGPT的出现使得大型神经网络语言模型受到广泛关注,促使人们对大型数据中心和能源的需求增加。大型数据中心使用多个GPU或TPU进行模型训练,需要复杂的内存管理和数据传输机制。早期神经网络训练通常将模型加载到单个GPU的内存中,但如今大型模型需要多个GPU进行分布式训练。 @Jeremy Harris : 我是Gladstone AI(一家专注于人工智能国家安全的人工智能公司)的联合创始人,我的工作重点是高级人工智能带来的潜在风险,包括当前和未来系统。我从硬件的角度看待AI,因为我们关注出口管制,例如如何阻止中国获得这些技术。我们研究针对西方高安全数据中心的攻击类型,例如窃取模型、更改模型训练行为或破坏设施。AI的未来与计算的未来紧密相连,摩尔定律和黄氏定律描述了计算能力的增长趋势。摩尔定律描述了集成电路中晶体管数量的指数增长,但其增长速度有所放缓。摩尔定律虽然放缓,但仍在持续,并且在AI芯片领域出现了不同的摩尔定律趋势(黄氏定律)。黄氏定律描述了GPU性能的指数增长,即使摩尔定律放缓,GPU性能仍在快速提升。为了理解摩尔定律和黄氏定律的差异,需要了解芯片的工作原理,包括内存和逻辑单元。芯片的核心功能是内存(存储数据)和逻辑(处理数据)。内存和逻辑单元的改进速度不同,逻辑单元改进速度更快,而内存单元的改进速度较慢,这导致了“内存墙”问题。“苦涩教训”指出,增加计算能力比改进模型架构更重要,应关注规模化。“苦涩教训”表明模型架构不如计算能力重要。当前AI领域,规模化(计算、数据和模型大小)至关重要。Kaplan论文和GPT-3证明了神经语言模型的扩展定律,降低了大规模计算投资的风险。扩展定律降低了大规模计算投资的风险,使得更容易获得资金进行大规模计算集群的建设。OpenAI的早期尝试,如强化学习和机器人技术,并没有很好的扩展性。2017年的Transformer论文和2018年前后出现的预训练技术,为自然语言处理的大规模模型训练铺平了道路。卷积神经网络的预训练权重可以用于各种视觉应用,减少了对数据的需求和训练时间。GPT模型的成功在于其在语言建模任务上进行大规模预训练,以及Transformer架构的并行化能力。OpenAI转向盈利的原因之一是他们意识到硬件至关重要,谷歌拥有大量硬件,这使得谷歌更有可能率先实现AGI。推理模型对内存的需求更大,而对计算能力的需求相对较小,因此可能更适合使用较旧的芯片。推理时批次大小较小,因为需要快速响应用户请求,这导致内存带宽主要用于加载模型,而非用户数据。推理任务对内存的需求大于计算能力的需求,因此较旧的芯片(内存容量相当但计算能力较低)可能更适合。大型批次大小可以提高GPU利用率,降低成本,但小型公司由于用户数量较少,难以实现大型批次大小。GPU具有大量核心,适合并行处理任务,而CPU核心数量少但速度快。神经网络训练和推理可以利用数据并行、流水线并行和张量并行等技术进行并行化处理。GPU擅长矩阵乘法运算,这与神经网络和3D图形渲染的计算需求相符。GB200是NVIDIA最新的GPU系统,其架构和互连方式对数据中心设计和AI模型架构有重要影响。B200是GPU,而GB200是一个包含多个B200 GPU和CPU的系统。GPU需要CPU来协调其工作。GB200 tray包含两个Bianca board,每个Bianca board包含一个CPU和两个B200 GPU。GB200使用NVLink连接GPU,以实现高带宽通信,主要用于张量并行。数据中心网络存在层级结构:加速器互连(NVLink,最快)、后端网络(InfiniBand,较快)和前端网络(较慢)。AI模型的架构需要与硬件架构相协调,以最大限度地利用计算资源。谷歌在数据中心建设和TPU pod方面具有优势,这使得他们能够训练更大规模的神经网络。GB200系统包含B200 GPU、CPU和其他组件,其配置可以根据需求进行调整。GPU包含逻辑单元(进行计算)和高带宽内存(HBM,存储数据)。HBM由SK Hynix和三星等公司制造,使用堆叠的DRAM层和通孔技术实现高带宽。GPU的逻辑单元(计算单元)和HBM(内存单元)由不同的公司制造,并通过互连器连接在一起。HBM的制造工艺要求较低,而逻辑单元的制造工艺要求较高。逻辑单元和HBM通过互连器(例如TSMC的CoWoS)连接在一起。内存(例如RAM)的复杂性以及缓存策略的引入,使得内存改进并非简单的速度提升。数据中心中的计算是一个层级结构,从高电压电源到芯片级的低电压操作,内存也存在层级结构。数据中心内存存在层级结构:闪存(慢,持久性)、高带宽内存(HBM,快,易失性)和SRAM(最快,最贵)。HBM使用DRAM技术,需要定期刷新以保持数据。SRAM是速度最快、成本最高的内存,访问时间为亚纳秒级。

Deep Dive

Shownotes Transcript

A special one-off episode with a deep dive into the past, present, and future of how computer hardware makes AI possible.

Join our brand new Discord here! https://discord.gg/nTyezGSKwP

Hosted by Andrey Kurenkov and guest-hosted by the folks from Latent Space

Read out our text newsletter and comment on the podcast at https://lastweekin.ai/.

Sponsors:

  • The Generator - An interdisciplinary AI lab empowering innovators from all fields to bring visionary ideas to life by harnessing the capabilities of artificial intelligence.

In this episode:

 - Google and Mistral sign deals with AP and AFP, respectively, to deliver up-to-date news through their AI platforms.
 - ChatGPT introduces a tasks feature for reminders and to-dos, positioning itself more as a personal assistant.
 - Synthesia raises $180 million to enhance its AI video platform for generating videos of human avatars.
 - New U.S. guidelines restrict exporting AI chips to various countries, impacting Nvidia and other tech firms.

If you would like to become a sponsor for the newsletter, podcast, or both, please fill out this form.

Timestamps:

  • 00:00:00 Introduction
  • 00:03:08 Historical Recap: Early AI and Hardware
  • 00:11:51 The Rise of GPUs and Deep Learning
  • 00:15:39 Scaling Laws and the Evolution of AI Models
  • 00:24:05 The Bitter Lesson and the Future of AI Compute
  • 00:25:58 Moore's Law and Huang's Law
  • 00:30:12 Memory and Logic in AI Hardware
  • 00:34:53 Challenges in AI Hardware: The Memory Wall
  • 00:37:08 The Role of GPUs in Modern AI
  • 00:42:27 Fitting Neural Nets in GPUs
  • 00:48:04 Batch Sizes and GPU Utilization
  • 00:52:47 Parallelism in AI Models
  • 00:55:53 Matrix Multiplications and GPUs
  • 00:59:57 Understanding B200 and GB200
  • 01:05:41 Data Center Hierarchy
  • 01:13:42 High Bandwidth Memory (HBM)
  • 01:16:45 Fabrication and Packaging
  • 01:20:17 The Complexity of Semiconductor Fabrication
  • 01:24:34 Understanding Process Nodes
  • 01:28:26 The Art of Fabrication
  • 01:33:17 The Role of Yield in Fabrication
  • 01:35:47 The Photolithography Process
  • 01:40:38 Deep Ultraviolet Lithography (DUV)
  • 01:43:58 Extreme Ultraviolet Lithography (EUV)
  • 01:51:46 Export Controls and Their Impact
  • 01:54:22 The Rise of Custom AI Hardware
  • 02:00:10 The Future of AI and Hardware