Home
cover of episode E5 LLM 范式迁移:OpenAI o1,Self-play RL与 AGI 下半场

E5 LLM 范式迁移:OpenAI o1,Self-play RL与 AGI 下半场

2024/9/14
logo of podcast Alignment

Alignment

Frequently requested episodes will be transcribed first

Shownotes Transcript

本节目是全球投资平台拾象科技和开源研究平台「海外独角兽」共同出品的声音栏目。 作为海外独角兽和「张小珺商业访谈录」的第四期串台,拾象科技 CEO 李广密和商业作者张小珺的围绕 AGI 发展路径展开了猜想,self-play RL 是新的 scaling law。

这期讨论录制于 2 周前,随着今天凌晨 OpenAI o1 模型的发布,我们的猜想得到验证,LLM 正式进入了 self-play RL 范式时代。

o1 的发布只是 AGI 下半场的开始,我们也相当期待接下来 Anthropic Claude 3.5 系列新模型的发布,Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的风向标。

作为关注 AI 最前沿的团队,我们围绕 self-play RL) 也已经发布了多篇研究,本期内容是一篇高质量科普,关于 RL 和合成数据会如何帮助模型升级?基于 LLM 的 RL 和 self play 和以前的 RL 有什么不同?模型的 Reasoning 能力提升后会带来什么新机会?等等关键问题都可以找到最完整的答案。

点击查看本期对谈的文字内容)

▫️延伸阅读▫️

LLM 新范式:OpenAI o1,self-play RL 和 AGI 下半场)

LLM 范式转移:RL 带来新的 Scaling Law)

OpenAI联创:RLHF是超级智能的秘密武器)

草莓模型即将发布,如何参与新一轮 AI 上涨周期?)

  • *更多信息欢迎关注公众号:*海外独角兽

▫️AGIX 指数▫️

AGIX 指数)是拾象设计的追踪 AGI 科技革命的指数,是我们在全球科技上市公司中精选出的“高 AI 纯度”公司的组合。AGIX 指数是定位 AI 进程的坐标,也为投资者)捕捉 AI-alpha 提供了一个价值工具。