73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

2024/9/5

张小珺Jùn｜商业访谈录

Frequently requested episodes will be transcribed first

Chapters

Shownotes Transcript

今天这集是我和广密【全球大模型季报】第4集。这期2024年Q3季报，提前和大家见面。

我们正进入的9月会是AGI的一个大月，**OpenAI造势已久且绝密的项目“草莓（Strawberry）”将在不久后揭开它神秘的面纱。**此外，Anthropic也会推出Claude 3.5 Opus，这两个模型将是AGI进程是否顺利的关键风向标。

这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。

本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移，self-play RL（强化学习）开启了新赛道。**大部分人还没意识到，在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后，多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上：self-play RL（自博弈强化学习）。只不过，这个范式转移还未形成共识。**Self-play RL到底是什么？它如何有别于传统路径？它能成为继续Scaling Law的一把神奇钥匙吗？

这集节目是关于self-play RL的一篇高质量科普，也希望为大模型从业者带来方向性的启发。

除了self-play RL，我们着重探讨了硅谷一级市场的明星赛道（Coding、视频生成、通用机器人），以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态，并且能持续给大家带来启示。

本集是《张小珺Jùn｜商业访谈录》和《海外独角兽》)的串台节目。

我们的播客节目在腾讯新闻首发)，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：） 坏的推演猜测，GPT-5不乐观；好的推演猜测，RL开启新赛道

- 02:30 语言模型预训练的范式或许遇瓶颈，模型scaling边际效益开始递减

- 05:21 为什么不一定能支持模型在GPT-4o基础上大幅跃升？现在处于“真空死亡地带”？

- 06:43 我最担心的是，纯靠语言模型的经典Scaling Law /Pre train这个物理规律遇到瓶颈，或者在更大参数比如2-3T以上的情况下开始失效了

- 09:37 如果scaling law在模型变大的过程中不work，现在有三条潜在路径：1、多模态尤其是视觉（但还没有证据说能从视觉模态训练涌现智能能力）；

- 2、10万卡集群（但10万卡集群充分互联的难度比预期难，可能是全人类最难的项目之一）；

- 3、强化学习self-play RL（这是范式级别的大转变！）

- 12:53 如果我是AI公司CEO，我会200%资源all in RL这条路

- 13:40 概念解释：Reinforcement Learning，简称RL，中文强化学习（Ilya用一句话概括强化学习：让AI用随机路径去尝试一个新任务，如果效果超出预期，就更新神经网络的权重让AI记得多使用成功的实践，再开始下一次尝试）

- 19:05 代码和数学可以变得很强，能不能泛化到更多领域没有证据

- 22:39你也可以把语言和预训练比作人类基因组，携带着人类几千年进化的基因，强化学习RL就是人类成长的一生

- 24:55 必须很聪明的模型才能有能力做self-play RL的探索

- 27:07 Anthropic Claude 3.5是这一波标志性的产品，他们不搞Sora/搜索，主线是RL；业内少数人意识到RL的重要性是最近两个月

- 28:35 硅谷明星公司现阶段的资源投入？1-2家公司把RL当作最高优先级

- 28:56 2024年9月OpenAI和Anthropic即将要发布的，什么值得期待？

- 29:42 AGI范式大转移之下，还会有GPT-6和GPT-7吗？（可能明年会看到很小的模型比今天GPT-4o要聪明非常多，一个期待是实现AGI不一定需要巨量参数的模型）

- 30:33 新范式的困境和卡点

- 32:52 Character.AI出售给Google预示AGI竞赛上半场结束，下半场开始，创始人Noam从Google进入self-play RL下半场

- 34:36 新范式下，还需要那么多GPU吗？很多人关心英伟达股价

- 37:06 AGI范式转移只在最核心的researcher中有共识，几百人，还没扩散

- 38:55 Claude 3.5 Sonnet显著提升，带动了编程工具Cursor的火爆出圈

- 40:08 OpenAI在造势的草莓、Q，猜测背后都是强化学习RL*

- 41:55 国内公司应该应该all in 200%跟进RL

- 42:44 语言模型和RL是乘级关系

硅谷AI一级市场的四个明星赛道

- 45:12 硅谷的AI赛道：围绕LLM周边有3-4个圈，搜索、代码Coding、视频、机器人

**1、Coding：**在硅谷出现了4-5家独角兽（Devin、Augment 、Magic、Poolside，都已经20-30亿美元估值），最近编程工具Cursor出圈

- **2、视频：**这个赛道诱人，但格局不稳定、决胜窗口长

- **3、通用机器人：**想赌具身领域也有个OpenAI，现在是基础科学突破的问题，没看到在机器人领域的“通用泛化能力”出现

- 57:00 美国通用机器人的明星项目（Pi、The Bot是业界公认最头部的项目，除此之外融资金额很大、声量也比较高的是Skild AI、Figure AI）

- 58:31 国内vs硅谷机器人：硅谷投robot foundation model一个大脑，像Andorid；在国内投整机，OV和小米

- 01:01:56 LLM->多模态->具身智能->世界模型，这是AI发展路径

- 01:05:54 LLM vs 移动互联网，叙事逻辑是什么？哪些明线与暗线？

01:07:04 有没有可能，今天不做强化学习的公司未来都跑不出来

- 01:08:05 站在现在，重新评论一下中国LLM？“月亮和六便士”

OpenAI和科技巨头

- 01:12:37 OpenAI

- 1、有点浪费技术领先的红利，产品没接住

- 2、联合创始人Greg Brockman、John Schumann离职

- 3、Ilya离开应该是bet on两个路线（多模态/强化学习，大概率是RL）

- 01:17:10 Q*和草莓和RL应该是一件事，草莓是代号，RL是方法

- 01:18:07 回答红杉美国合伙人 David Cahn发布最新文章《AI’s $600B Question》

- 01:20:00 在2024年Q3，AI叙事还有哪些非共识？

- 01:22:45 Character.AI之后，哪些AI公司还会被收购？做个预测

- 01:23:38 2000年互联网hype破灭后只留下Amazon一家公司，今天AI hype如果破灭了，谁是下一个Amazon?

- 01:24:24 AGI第一幕是科技巨头受益，第二幕还没完全展开

【全球大模型季报】系列

2023年：口述全球大模型这一年：人类千亿科学豪赌与参差的中美景观)

2024年Q1：和广密聊AGI大基建时代：24 Q1全球大模型前沿手记)

2024年Q2：口述全球大模型这半年：Perplexity突然火爆和尚未爆发的AI应用生态)

【更多信息】

联络我们：微博@张小珺-Benita)，小红书@张小珺jùn)

更多信息欢迎关注公众号：张小珺

73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

张小珺Jùn｜商业访谈录

Chapters

语言模型预训练的范式或许遇瓶颈？

为什么GPT-4o基础上大幅跃升不乐观？

强化学习self-play RL：范式级别的大转变？

Reinforcement Learning（强化学习）是什么？

语言和预训练比作人类基因组，强化学习RL就是人类成长的一生？

Anthropic Claude 3.5是这一波标志性的产品，他们不搞Sora/搜索，主线是RL？

硅谷明星公司现阶段的资源投入：1-2家公司把RL当作最高优先级？

AGI范式大转移之下，还会有GPT-6和GPT-7吗？

硅谷AI一级市场的四个明星赛道：Coding、视频、通用机器人？

美国通用机器人的明星项目：Pi、The Bot是业界公认最头部的项目？

LLM->多模态->具身智能->世界模型，这是AI发展路径？

OpenAI和科技巨头：Ilya离开应该是bet on两个路线（多模态/强化学习，大概率是RL）？

Shownotes Transcript

PodQuest PodQuest Podcast Discovery Engine

73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4 01:27:01 Share

张小珺Jùn｜商业访谈录

Chapters

语言模型预训练的范式或许遇瓶颈？

为什么GPT-4o基础上大幅跃升不乐观？

强化学习self-play RL：范式级别的大转变？

Reinforcement Learning（强化学习）是什么？

语言和预训练比作人类基因组，强化学习RL就是人类成长的一生？

Anthropic Claude 3.5是这一波标志性的产品，他们不搞Sora/搜索，主线是RL？

硅谷明星公司现阶段的资源投入：1-2家公司把RL当作最高优先级？

AGI范式大转移之下，还会有GPT-6和GPT-7吗？

硅谷AI一级市场的四个明星赛道：Coding、视频、通用机器人？

美国通用机器人的明星项目：Pi、The Bot是业界公认最头部的项目？

LLM->多模态->具身智能->世界模型，这是AI发展路径？

OpenAI和科技巨头：Ilya离开应该是bet on两个路线（多模态/强化学习，大概率是RL）？

Shownotes Transcript

PodQuest PodQuest Podcast Discovery Engine

73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4