cover of episode 75. 和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角

75. 和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角

2024/9/18
logo of podcast 张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

AI Deep Dive AI Chapters Transcript
People
吴翼
前OpenAI研究员,清华大学交叉信息研究院助理教授,边塞科技创始人,专注于强化学习和人机协同。
Topics
吴翼详细解读了 OpenAI 最新发布的 O1 模型,认为其代表着 AGI 研究进入了一个新的阶段,即从预训练转向基于强化学习的后训练。他指出,预训练模型的数据挖掘潜力逐渐减少,而强化学习可以挖掘新的潜力,使迈向 AGI 的梯子往上加了几节。他认为 O1 模型的核心在于其通用能力和解决复杂问题的能力,尤其是在长逻辑推理方面。O1 模型的推理能力提升是通过强化学习的奖励模型设计、高效探索和合适的 prompt 选择实现的。强化学习的关键要素包括奖励模型、搜索与探索策略以及 prompt 设计,这三者缺一不可。吴翼还讨论了强化学习的泛化性、与人类学习过程的异同、以及如何通过强化学习来提升模型的推理能力并减少幻觉。他认为,提升模型的推理能力有助于减少模型的幻觉,因为强化学习可以帮助模型学习因果关系,而不是仅仅学习数据间的相关性。他还分析了强化学习的算力成本问题,以及如何通过调整推理时间等方式进行平衡。吴翼认为,O1 模型的发布证明了强化学习的潜力,为 AGI 研究带来了新的动力。他同时对 Scaling Law 的极限充满好奇,并相信全能的大统一模型最终会实现。他认为垂直模型的出现需要时间,短期内难以超越通用模型,但长期来看仍存在机会。最后,吴翼分享了他对 OpenAI 文化、组织模式以及强化学习未来发展的看法,并介绍了他目前在边塞科技从事的工作。

Deep Dive

Chapters
吴翼,边塞科技创始人、清华叉院信息研究院助理教授,同时也是前OpenAI研究员,从技术视角解读了O1模型,并分享了OpenAI内部视角。他认为,O1模型的推理能力提升是基于强化学习,预训练的“金矿”正在枯竭,强化学习开启了新的“金矿”,让AGI的梯子又多了几节。
  • O1模型的推理能力比之前版本有明显提升,但还不是最终版本。
  • OpenAI在用户使用端进行大规模推理出乎意料。
  • 强化学习是未来AGI发展的重要方向,它开启了新的“金矿”。
  • 强化学习的三要素:reward model、搜索和探索、prompt。

Shownotes Transcript

上集节目,广密在OpenAI o1问世之前,准确地预言了代号为“Strawberry”(草莓)的项目走向,以及它背后暗示的AGI范式已经转移,强化学习开启了新赛道。

这集节目录制在o1问世之后,我第一时间和边塞科技创始人、清华叉院信息研究院助理教授,同时也是前OpenAI研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了o1模型,并且分享了只有内部视角才能看见的真实的OpenAI。 我们的播客节目在腾讯新闻首发),大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)

  • 01:50 2019年在OpenAI做研究员
  • 03:04 那个年代所有PHD都希望去Google Brain和DeepMind
  • 03:46 OpenAI o1-preview初体验,很意外在用户使用端做这么大规模的推理
  • 07:20 pre-training(预训练)能挖的金矿越来越少,以强化学习为基础的post-training(后训练)是另一个大金矿,使迈向AGI的梯子多了几节
  • 09:00 o1-preview版本是GPT-3时刻,到没到ChatGPT时刻要看正式版本
  • 10:33 o1应该核心关注两个要点和背后的技术原理
  • 13:54 强化学习能否探索出Scaling Law有希望,但很复杂
  • 15:06 强化学习三要素:reward model+搜索和探索+prompt,每一块都很难
  • 16:42 2014年开始,UC Berkeley集体转向,押注强化学习
  • 19:36 RL算法的演进:从DQN(Deep Q-Network)到PPO(Proximal Policy Optimization)
  • 23:45 相信会带来通用能力而不是垂类能力提升
  • 24:47 长文本是实现AGI的第一步,推理能力是第二步
  • 29:57 通过o1-preview能反向复原哪些技术细节?
  • 34:00 reward model不太可能有一个单独的小组闭着眼睛训练,是耦合的
  • 38:30 思维链、安全、幻觉和算力
  • 41:25 为什么这么项目叫“Q*”?后来又叫“草莓”?梗都很有意思
  • 49:49 o1不代表垂直模型,依然相信会出现全能的大统一模型
  • 57:57 关于Scaling Law,2019年OpenAI内部讨论的细节
  • 01:00:26 2019年的OpenAI处于“闭着眼睛挖矿的状态”
  • 01:03:20 OpenAI当年如何做管理:搞大新闻、发博客,KPI是博客关注量
  • 01:10:28 2020年离开OpenAI后悔吗?

o1发布前的预言单集:AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4)

【更多信息】

联络我们:微博@张小珺-Benita),小红书@张小珺jùn)

更多信息欢迎关注公众号:张小珺