cover of episode EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

2024/10/11
logo of podcast OnBoard!

OnBoard!

AI Deep Dive AI Insights AI Chapters Transcript
People
E
Eric Li
K
Kimi Kong
M
Monica
Topics
Monica: 本期节目解读OpenAI于9月12日发布的O1模型,该模型结合强化学习和思维链技术,在处理物理、数学、编程等复杂问题时,展现出与该领域博士生相当的能力,标志着新范式的开始。 Eric Li: 重点关注大语言模型的后期训练推理和多智能体系统。蒙特卡洛树搜索(MCTS)是提升逻辑推理能力的重要方式,主要应用于生成高质量推理数据和优化推理路径。流程监督数据主要用于模型的后期训练,而非预训练阶段,以提高RL训练效率。 Kimi Kong: 强化学习在机器人控制和大型语言模型评估中都有应用。关注reward model的定义和高质量数据的获取,认为Cursor是一个令人印象深刻的项目。 苏辉:从微信AI到国内一线互联网公司大模型负责人,见证了LLM研究的演变过程,关注Allen Zhu的物理语言模型工作,认为其实验设计严谨,值得学习。 Cage: 关注语言模型推理能力的上限,认为语言模型的Chain of Thought(CoT)未来可能演变为AI自己发明更高效的形式化逻辑语言。

Deep Dive

Key Insights

为什么OpenAI的O1模型被称为新范式的开始?

O1模型通过结合强化学习和思维链技术,在处理复杂问题(如物理、数学、编程)时表现出色,甚至达到博士生水平,被OpenAI CEO Sam Altman称为新范式的开始。

强化学习如何提升大语言模型的逻辑推理能力?

强化学习通过奖励机制,帮助模型在推理过程中自我优化,选择更优的推理路径,从而提升逻辑推理能力。

O1模型在哪些方面表现出色?

O1模型在处理复杂问题(如数学、编程、物理)时表现出色,甚至能与该领域的博士生水平不相上下。

为什么O1模型在简单的数学或常识问题上表现不佳?

O1模型在处理简单问题时,可能会使用过于复杂的推理方式,而没有选择更高效的解决方案,这可能是模型能力或训练方式的局限。

O1模型在工具使用任务中可能面临哪些挑战?

O1模型在工具使用任务中可能面临工具选择不当、推理路径复杂、以及如何高效调用工具等问题。

什么是Chain of Thoughts (CoT)和MCTS?

Chain of Thoughts (CoT)是一种通过逐步推理来解决问题的技术,而蒙特卡罗树搜索(MCTS)是一种用于规划和搜索最优路径的算法。两者在O1模型中可能被用于提升推理能力。

强化学习在大语言模型中的应用经历了怎样的演进?

强化学习从最初的RLHF(基于人类反馈的强化学习)逐渐演进到更复杂的推理任务,如O1模型中的自我优化推理路径,强化学习在大语言模型中的应用越来越重要。

O1模型是否可能是单一模型还是多代理系统?

根据嘉宾的讨论,O1模型更可能是单一模型,而非多代理系统,尽管未来可能会出现多代理系统来进一步提升推理能力。

游戏数据对大语言模型训练有什么价值?

游戏数据可以为大语言模型提供丰富的推理和决策场景,帮助模型在复杂任务中提升推理能力,尤其是在开放世界游戏中,模型可以通过与环境的交互学习到更多推理策略。

为什么Google的RL研究没有先于OpenAI发布O1?

Google的RL研究虽然早于OpenAI,但可能缺乏大规模的资源投入和系统性的整合,导致O1模型由OpenAI率先发布。

Chapters
本期节目深入解读OpenAI于9月12日发布的O1模型。该模型结合强化学习和思维链技术,在处理复杂问题上达到博士生水平,引发了业界广泛关注。节目邀请了来自Google DeepMind、Google Cloud和国内一线互联网公司的大模型专家,对O1模型的技术细节、能力来源和未来潜力进行深入探讨。
  • OpenAI O1模型结合强化学习和思维链技术,处理复杂问题能力达到博士生水平
  • 来自Google DeepMind、Google Cloud和国内一线互联网公司的专家参与节目讨论
  • 节目探讨O1模型的技术细节、能力来源、未来潜力及对行业的影响

Shownotes Transcript

你们期待已久的最硬核干货的OpenAI o1模型技术解读来了!上个月最值得关注的事件,或许就是9月12号OpenAI o1模型的发布了,大家对这个新的模型翘首以待许久,OpenAI CEO Sam Altman 也称之为新范式的开始。经过强化学习(Reinforcement Learning)并结合Chain of thoughts 思维链技术,o1在处理物理、数学、编程等复杂问题时,甚至和该领域的博士生水平不相上下。OnBoard! 的嘉宾,不会让你失望!

Hello World, who is OnBoard!?

强化学习如何给大语言模型带来新的逻辑推理能力这?这种能力的来源、实现方式和未来潜力又是怎样的?o1带来的“新范式”会对行业有怎样的影响?

这次的嘉宾都是有实际训练LLM经验的一线研究员。这场三个多小时的解读,相信会给你不一样的视角!其中两位就来自 RL 绝对高地的 Google, 也是AlphaGo, alphafold, alphageometry 等一系列世界领先的RL工作的发源地。他们都分别在RL和MCTS(蒙特卡洛树搜索)领域有长期的研究和实践经验。另一位嘉宾则是在互联网大厂从LLM预训练到RLHF都有一手经验。中美视角的综合,碰撞出很多火花。这个嘉宾阵容对o1的猜想和解读,相信会让你直呼过瘾。

这次的探讨会涉及很多技术细节,嘉宾长期的海外工作学习,难免穿插英文,不接受抱怨。Enjoy!

PS 本期录制时间是2024年9月27日 嘉宾介绍

**Kimi Kong,**Research engineer @Google deepmind, 他在 Stanford 读书期间就接触强化学习,从机器人到现在的大语言模型,对强化学习的理论和使用的沿革有非常系统的理解。

**Eric Li **(返场嘉宾!),Research scientist @Google Cloud, PhD @Caltech。大家都猜测 o1 将蒙特卡洛树搜索 (MCTS) 应用到了LLM,是提升逻辑推理能力的重要方式之一。Eric 就发表了多篇LLM和MCTS结合的论文,绝对的专家。

苏辉,前微信AI研究员,现国内一线互联网公司大模型负责人。

**Cohost: Cage,**原字节的数据科学家,现拾像科技研究员,公众号“海外独角兽”撰稿人

OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

02:36 嘉宾自我介绍,MCTS 科普,为什么对LLM+RL新范式很重要; Cursor 为何值得关注,Physics in LLM from Allen Zhu, 语言对推理能力的价值

20:25 对o1发布有什么印象深刻的地方,数据的重要性和难点

40:16 如何拆解o1能力提升的来源?如何重新训练一个o1?

56:10 为什么复杂的o1 却解决不好简单的数学或常识问题?

60:16 o1 用于 tool use 的任务,可能有什么挑战? 对agent 产品有什么影响?

66:46 如何看待agent 数据集难收集的问题?

68:38 什么是 Chain of Thoughts (CoT)和MCTS? 对o1的作用跟以前CoT做法有什么不一样?MCTS 在LLM推理中可能有什么作用?

83:07 什么是强化学习(RL)?在LLM中应用RL是怎样的演进过程?

89:35 RL和self play 其他领域,比如机器人,有怎样的应用?跟在LLM的应用有何异同?

93:45 RL, CoT, self-play 之间是怎样的关系? 真的可以无上限提升LLM推理能力吗?

106:56 o1 有可能是单一模型还是 multi-agent system?

119:11 LLM和游戏有什么相互影响?为什么玩游戏的能力对LLM 很值得关注?游戏数据对LLM训练有什么价值?

126:54 Google 很早就开始 RL 相关研究,为什么 OpenAI o1先出来了?

133:16 o1 新范式的出现,对于追赶者来说意味着什么?更容易还是更难?

141:43 要追赶 OpenAI o1, 最容易被低估和高估的是什么?

143:48 对未来的展望:未来1年和3年,预期AI领域会发生什么?

我们推荐的内容

- OpenAI: Scaling Laws for Reward Model Overoptimization)

- Cursor

- Allen Zhu: Physics of Language Models)

- Language is primarily a tool for communication rather than thought)

- OpenAI: Improving mathematical reasoning with process supervision)

- InstructGPT

- OpenAI PRM 800k 数据集)

- Let's Verify Step by Step)

- Anthropic: Constitutional AI: Harmlessness from AI Feedback)

- RLAIF

- OpenAI Hyung Won Chung: "Don't teach. Incentivize.")

- Toolformer

- Chain of thoughts

- DDPM

- DPO

- PPO

- Sergey Levine: Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actorT Haarn

- AlphaGo

- AlphaGo-Zero

- AlphaZero

- MADDPG (Multi-Agent Deep Deterministic Policy Gradient (MADDPG), from OpenAI paper "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments")

- AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training)

- Reasoning with Language Model is Planning with World Model)

- Chain of Thought Empowers Transformers to Solve Inherently Serial Problems)

参考文章

- openai.com)

- openai.com)

- OpenAI’s Strawberry and inference scaling laws)

- 海外独角兽:LLM的范式转移:RL带来新的 Scaling Law)

- 张俊林:Reverse-o1:OpenAI o1原理逆向工程图解)

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考,与听友们互动。喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

***最后!快来加入Onboard!听友群,****结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。****添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。***期待你来!