E5 LLM 范式迁移：OpenAI o1，Self-play RL与 AGI 下半场

2024/9/14

Alignment

Frequently requested episodes will be transcribed first

Shownotes Transcript

本节目是全球投资平台拾象科技和开源研究平台「海外独角兽」共同出品的声音栏目。作为海外独角兽和「张小珺商业访谈录」的第四期串台，拾象科技 CEO 李广密和商业作者张小珺的围绕 AGI 发展路径展开了猜想，self-play RL 是新的 scaling law。

这期讨论录制于 2 周前，随着今天凌晨 OpenAI o1 模型的发布，我们的猜想得到验证，LLM 正式进入了 self-play RL 范式时代。

o1 的发布只是 AGI 下半场的开始，我们也相当期待接下来 Anthropic Claude 3.5 系列新模型的发布，Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的风向标。

作为关注 AI 最前沿的团队，我们围绕 self-play RL) 也已经发布了多篇研究，本期内容是一篇高质量科普，关于 RL 和合成数据会如何帮助模型升级？基于 LLM 的 RL 和 self play 和以前的 RL 有什么不同？模型的 Reasoning 能力提升后会带来什么新机会？等等关键问题都可以找到最完整的答案。

点击查看本期对谈的文字内容)

▫️延伸阅读▫️

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场)

LLM 范式转移：RL 带来新的 Scaling Law)

OpenAI联创：RLHF是超级智能的秘密武器)

草莓模型即将发布，如何参与新一轮 AI 上涨周期？)

*更多信息欢迎关注公众号：*海外独角兽

▫️AGIX 指数▫️

AGIX 指数)是拾象设计的追踪 AGI 科技革命的指数，是我们在全球科技上市公司中精选出的“高 AI 纯度”公司的组合。AGIX 指数是定位 AI 进程的坐标，也为投资者)捕捉 AI-alpha 提供了一个价值工具。

E5 LLM 范式迁移：OpenAI o1，Self-play RL与 AGI 下半场 01:23:40 Share

Alignment

Shownotes Transcript

E5 LLM 范式迁移：OpenAI o1，Self-play RL与 AGI 下半场