EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

2024/10/11

OnBoard!

AI Deep Dive AI Insights AI Chapters Transcript

People

Eric Li

Kimi Kong

Monica

Topics

Monica: 本期节目解读OpenAI于9月12日发布的O1模型，该模型结合强化学习和思维链技术，在处理物理、数学、编程等复杂问题时，展现出与该领域博士生相当的能力，标志着新范式的开始。 Eric Li: 重点关注大语言模型的后期训练推理和多智能体系统。蒙特卡洛树搜索(MCTS)是提升逻辑推理能力的重要方式，主要应用于生成高质量推理数据和优化推理路径。流程监督数据主要用于模型的后期训练，而非预训练阶段，以提高RL训练效率。 Kimi Kong: 强化学习在机器人控制和大型语言模型评估中都有应用。关注reward model的定义和高质量数据的获取，认为Cursor是一个令人印象深刻的项目。苏辉：从微信AI到国内一线互联网公司大模型负责人，见证了LLM研究的演变过程，关注Allen Zhu的物理语言模型工作，认为其实验设计严谨，值得学习。 Cage: 关注语言模型推理能力的上限，认为语言模型的Chain of Thought(CoT)未来可能演变为AI自己发明更高效的形式化逻辑语言。

Deep Dive

Key Insights

为什么OpenAI的O1模型被称为新范式的开始？

O1模型通过结合强化学习和思维链技术，在处理复杂问题（如物理、数学、编程）时表现出色，甚至达到博士生水平，被OpenAI CEO Sam Altman称为新范式的开始。

强化学习如何提升大语言模型的逻辑推理能力？

强化学习通过奖励机制，帮助模型在推理过程中自我优化，选择更优的推理路径，从而提升逻辑推理能力。

O1模型在哪些方面表现出色？

O1模型在处理复杂问题（如数学、编程、物理）时表现出色，甚至能与该领域的博士生水平不相上下。

为什么O1模型在简单的数学或常识问题上表现不佳？

O1模型在处理简单问题时，可能会使用过于复杂的推理方式，而没有选择更高效的解决方案，这可能是模型能力或训练方式的局限。

O1模型在工具使用任务中可能面临哪些挑战？

O1模型在工具使用任务中可能面临工具选择不当、推理路径复杂、以及如何高效调用工具等问题。

什么是Chain of Thoughts (CoT)和MCTS？

Chain of Thoughts (CoT)是一种通过逐步推理来解决问题的技术，而蒙特卡罗树搜索（MCTS）是一种用于规划和搜索最优路径的算法。两者在O1模型中可能被用于提升推理能力。

强化学习在大语言模型中的应用经历了怎样的演进？

强化学习从最初的RLHF（基于人类反馈的强化学习）逐渐演进到更复杂的推理任务，如O1模型中的自我优化推理路径，强化学习在大语言模型中的应用越来越重要。

O1模型是否可能是单一模型还是多代理系统？

根据嘉宾的讨论，O1模型更可能是单一模型，而非多代理系统，尽管未来可能会出现多代理系统来进一步提升推理能力。

游戏数据对大语言模型训练有什么价值？

游戏数据可以为大语言模型提供丰富的推理和决策场景，帮助模型在复杂任务中提升推理能力，尤其是在开放世界游戏中，模型可以通过与环境的交互学习到更多推理策略。

为什么Google的RL研究没有先于OpenAI发布O1？

Google的RL研究虽然早于OpenAI，但可能缺乏大规模的资源投入和系统性的整合，导致O1模型由OpenAI率先发布。

Chapters

本期节目深入解读OpenAI于9月12日发布的O1模型。该模型结合强化学习和思维链技术，在处理复杂问题上达到博士生水平，引发了业界广泛关注。节目邀请了来自Google DeepMind、Google Cloud和国内一线互联网公司的大模型专家，对O1模型的技术细节、能力来源和未来潜力进行深入探讨。

OpenAI O1模型结合强化学习和思维链技术，处理复杂问题能力达到博士生水平
来自Google DeepMind、Google Cloud和国内一线互联网公司的专家参与节目讨论
节目探讨O1模型的技术细节、能力来源、未来潜力及对行业的影响

Shownotes Transcript

欢迎来到 Onboard 真实的一线经验走新的投资思考我是 Monica 我是高宁我们一起聊聊软件如何改变世界大家好欢迎来到 Onboard 我是 Monica 你们期待已久的最硬核最干货的 OpenAI O1 模型技术解读来了

上个月最值得关注的事件当然就是 9 月 12 号 OpenAI O1 模型的发布了大家对于这个模型可谓期待已久而 OpenAI 的 CEO Sam Altman 也称之为新范式的开始通过结合强化学习,reinforcement learning 和 trainer thoughts 的思维链技术 O1 在处理物理、数学、编程等等非常复杂的问题时甚至能达到该领域博士生不相上下的水平

我想这段时间大家也看到了不少分析、猜测和解读也希望能真正理解强化学习如何给大语言模型带来新的逻辑推理能力这种能力的来源、实现方式和未来潜力又是怎样的会对行业有怎样的影响?Monica 这次就邀请到了非常重磅的嘉宾来做了一场三个多小时的解读相信会给你非常不一样的视角和启发

这次的嘉宾最重要特点就是都有实际训练大模型的一线经验其中两位就来自 reinforcement learning 的绝对高地的 Google 也是 AlphaGo、Alpha4 等一系列世界领先的强化学习工作的发源地 Kymicon 是 Google DeepMind 的 research engineer 他在 Stanford 读书的时候就接触强化学习从机器人到现在的大语言模型对于强化学习的理论和使用的严格有非常系统的理解

我们的返场嘉宾 Eric Lee 是加州理工的博士生在 Google Cloud 作为研究员大家都猜测 O1 将蒙特卡罗数搜索 MCTS 应用到了 LM 是提升逻辑推理能力的重要方式之一 Eric 就发表了多篇 LM 和 MCTS 结合的论文同时还有苏辉在国内的互联网公司负责大模型训练从预训练到 RHF 都有过一手的经验同时我们还邀请到了 Vicko Holtz

凯茲,他在 O1 出现之前的几周就写出了 LM 和 LL 侵犯式的猜想和解读他们的公众号海外独角兽的文章也非常值得大家关注这次探讨会涉及很多技术细节而嘉宾长期在海外工作学习也难免穿插英文我们就不接受抱怨了尽量把涉及到的概念和文章都写在 shownotes 中方便大家的深入理解准备好你的小笔记 Enjoy

邀请几位嘉宾做一个自我介绍跟大家简单介绍一下你的呃过去的经历你是怎么开始进入到 LM 或者说呃这个强化学习这个领域的当然了我们这个老规矩是有一个这个 fun fact 就是除了欧万之外啊最近你看到了一个比较有意思的 project 或者一篇 paper 可以跟大家分享一下好那我就从我们的今天的返场嘉宾呃 Eric 开始吧 Eric

Hello 大家好我是 Eric 我现在是在 Google 做 LM 相关的研究然后我主要是主要是做一些 LM 的 post training reasoning 还有 multi agent 相关然后我开始做 LM 应该是大概两年前那个时候我们

instruction tuning 这个概念刚出来布局然后我们在做一些 flang 相关的一些模型主要就是去 scale up 这个 instruction tune 的数据去看看对模型会有什么样的影响然后我做 RL 主要是从去年开始在 Google 内部做 Palm2 以及 Gemini 的时候去做 RL 相关的一些研究和工作

然后一个最近比较有意思的 paper 我觉得最近有一系列 paper 都非常有意思是 LM 加 MCTS 我觉得这一块就是把 planning 融入到做 LM 的 reasoning 是比较很 promising 的一个方向

那正好这个 MCTS 也是我们后面要讨论的一个一个话题对于对这个对这个名字还不是那么了解的 Eric 正好可以在在这里跟大家简单的介绍一下 MCTS 是一种就门特卡罗数搜索是一种比较经典的搜索算法它最经典的还是之前就是 Google Demand 做一些夏威夷相关的一些

AI 的项目的时候广泛的用到被大家知道然后在 LM 的 reasoning 这一块我观察到蒙德卡罗数搜索这个方法主要其实是用在两个方面一个是去产生更好的高质量的合成的 reasoning 的数据另一个就是在 influence 的 time 的时候能够把 planning 也能够

融入到你做 reasoning 的步骤中去可以考虑到把 MCTS 用来去用来去优化你的你的 reward 优化你的这个 reasoning 的路径我觉得这两个都是非常有意思的一些方向

我们自己最近留一个 paper 是用 MCTS 的方法去帮助做一些去标注一些 process supervization 的数据因为大模型做 reasoning 的时候它会有时候有一些 reasoning step 会

可能会犯错误但是让人类去标注这些每一个 resonance step 的错误和正确性是非常消耗资源的我们就是用 NCTS 加一些门德卡罗的估计然后去优化这个方式然后提出一些完全不用人

来帮助职用靠 ai 能够拿到一些啊 feedback 和 annotation 我也会把今天嘉宾提到的这个 project 还有 paper 的链接都放在 show notes 里呗哎我多问一句啊那大家都说如果要继续提升 resonance 能力要加入这个 multi step 的数据他主要是在可以用于这个 pre-training 还是在 post training 的阶段

对它主要在 post training 中会起到一些作用比如说在 RL 的过程中如果只是比较经典的 RLHF 的话最终可能只有在最后你才能知道这个一个答案是正确还是与否的然后你需要依靠模型自己去判断我可能是在整个推理的过程中哪几步出错了或哪几步其实是推理的非常的正确但是有了这些

process civilization 的 data 的话你其实可以能够让模型更好的去学它的 value function 可以更好的在二的过程中知道其实就更更淡思的知道哪一个 reasoning step 是错的哪一个 reasoning step 是对的这样能够提高训练二二的效率嗯嗯的确 mcs 在在 lm 的训练中包括他有没有用的 or 也是大家这个经常讨论的一个话题后面会请 eric 来跟我们一起来讨论好的那下一位 uh kimmy

首先非常感谢 Monica 今天的邀请我是 Kimi,中文名叫孔令杰我是斯坦福的机械和计算机双硕士不过我至今依旧没有 claim 我的 CS 的 degree 这样我就可以赖在斯坦福再去读个 part-time 的 G.U. business school 我其实是一个 robotic spy training 做 control theory 出身的

我主要做的是这个 states based model 但是不是现在大家俗称的 Mamba 的 states based model 是纯 control theory 的这个 states based model 然后只是 Mamba 就是一脉相承的这个经典的 control theory 的那些东西

然后我做其实 AIML 是非常偶然的一件事情就是我在斯坦福的时候当我的这个机械科毕业的时候我非常偶然认识了这个 Stefano Amati 然后他当了我几年 advisor 然后我当时正要在上他的这个 publicity graphic model 和 deep genital model 的课然后当时非常偶然的是

应该是 2016 年,那年雨下特别大,没有人去上课,有一天上课的时候,只剩下我一个人在教室里,然后 somehow 我就跟 Stefano 认识的非常熟了,Stefano 就非常 encourage me to explore learning approach to solve robotic control problem,我就跟 Stefano 开了句玩笑话,我就说 if you write me a recommendation letter,I will apply for a CS degree,luckily Stefano write me a rec and then I got Stanford again,

for 我自己第二个的这个 CS degree 所以说大家不要轻易翘课每一节课都说上有惊喜不要不要不要轻易翘课虽然那是一节 video recording 的课我非常清楚的记得我那天是迟了两分钟我走进了教室 stephano 一点迷茫觉得今天要给大家上网可能突然发现来了一个人啊他非常的开心 but anyway 啊 it's a fun side story 然后我其实是一个纯的这个 robotist 和这个 reinforcement learning 出身的人

在之前的话我是在 2016 年在 Microsoft 时期然后毕业之后在 AWS 和 Monica 是同事我主要是在 AWS 的时候立了过两个项目一个是一个 distributed simulation 的项目是帮助这个 Amazon 的 robot 怎么用这个分布式的方式来更多的这个搜索更多的这个采集数据来增加这个二维码训练的这个速度

同时我有立得过一个就是 Metal Image 是 CV 相关的一个项目然后在那个之后我在 2023 年初

就是 Google massive layoff 的前一周加入 DeepMind 我在 Google 主要做刚开始的时候是帮 Google 用二维码做一些这个 forecasting 的一些 task 然后后来这个 so far 的 LM hype 主要在做之前是 Gemini 的 AutoEvo 讲白了就是用 LM 来 evaluate 这个大家心存说他的 performance 是好还是不好这样是更 scale 的 solution 最近主要是在做这个 agent

帮这个 Google 的 S department 用 agent 的方式来增加他们的广告点击率

说到这个 paper 和 project 的话我觉得我最近非常 inspired 把一篇非常老的 paper 这篇 paper 叫 scaling law for reward model over optimization 是大概 2021 还是 2022 年的时候 open-end 的一篇 scaling law paper 但这篇 scaling law paper 跟别的 scaling law paper 不一样的是它是 focusing 在 reward model 的 scaling 当大家现在在做 RR 的时候其实一个非常 mysterious component is reward modelhow you define 个人 model nobody know

所以我觉得在我读那篇 paper 的时候其实给了我非常多的灵感项目的话其实我最近非常迷 cursor 这个我每天从 Google 下班之后我用 cursor 我觉得我用 cursor 一天大概在家里三小时敲出来代码在 Google 可能敲一个礼拜的所以我还是觉得这个东西是一个非常 mind-blowing 的事情我好奇啊就是你做也是一个资深程序那你觉得你用 cursor 会替代掉你用那个 copilot 吗 DHL copilot

我觉得 Cursor 比 Copilot 做的一个好的 feature 叫 composer 就是你可以直接用一个 chat 的 imperface 来 stifle 的一个完全没有任何 file 的 project 我觉得这一点是 Copilot so far 做不到的我的 VS Code 已经删掉了我可以稍微说几句 Cursor 如果对观众不太知道的话其实 Cursor 讲白了它的骨架是一个 VS Code 的 fork 因为 Microsoft 的 VS Code 是一个开源的项目

然后它底层其实接了各种不同的大模型比如说 Cloud 3.5 比如说原来的 O1 然后他们最近又接入了这个 Upload 这个这个 4O 然后他们最近也接入了 O1 我觉得它跟这个 Copilot 相比唯一

唯一的好处是 Kobalyi behind the scene 我估计原来接的是一些比如说微软基于 MACO OpenX FANTOM 的一些小的模型或者后来接入了这个 FOOL 但是对他来讲成本 cost 非常大他一直没有把自己最好的模型拿出来以至于这个 Cloud 可以非常容易把最好的模型比如说 Cloud 3.5Cursor 可以把最好的比如说 Cloud 3.5 各种不同的模型

的模型接进来我觉得这个相当于而言是一个对于 VS Code 的优势我觉得另一点它相当于做了一些更基于 AI Programming 的一些对于 VS Code 的界面的优化吧

我刚刚说了一个我非常迷的一个 feature 叫 composer feature 它可以帮我非常快的 skype 一个 project 出来 which is so amazing 就比如说我想写一个对于一个这个 machine learning engineer 的话有可能我的前端已经非常不好了我这个很多年不做 backend 也做的非常不好了但我希望 quickly 用几个 backend 手搓一个比如说那个 chrome plugin 的话我完全就可以用 cursor 我可能一两个小时都可以做出来了 which is like impossible

对于对于可能可是我想稍微关注 ai 这个领域的朋友应该最多能感觉到他的这个出圈大家简单介绍吧可是其实应该是 22 或者 23 年就成立的一公司他们应该就拿了 open 爱的这个最早的这个方顶把整个这个口顶的这个 process 能够很好的融入到从你的从你的 chat 然后到 coding 然后再直接放到你的这个 id 里面去 run 整个 process 都在都在他们新做这个 id 里面他们再换了新的

这个 model 了以后不能从这语言的理解还从 coding 的能力上有了一个极大的一个呃一个提升然后在最近爆火然后也是最拿到了这个 a c c 的啊新的一笔融资估值应该是呃 4 个亿美金而很有意思的是他们应该两个创始人应该是这个 mit 的 00 后呃创建了

也很久没有没有人想过 ide 还是一个重新可以做的一个事情所以从我就从一个投资人角度我觉得还是挺感慨呃 ai 这一波里面的这些呃年轻人用 as 怎么能够做出很多 ai native 的一些产品好非常谢谢 kimmy 的分享苏辉也可以跟大家自我介绍一下嗯好的莫妮卡

大家好我叫苏辉然后在恰比出来之前的几天时间我在就微信的 ai 做一些 dialogue system 包括呃就波尔时代的一些啊 research 工作那个时间点大概从就是两个里面渐渐的独往就是 lrm 的 research 过渡然后后来就恰比出来之后呢就是来加入创业的大军的大潮呃创业过一段时间然后后来因为一些原因现在在大厂里啊就是负责一些大模型的一些方向包括模型的训练也包括一些啊

前沿的一些 research study 或者说一些比较创新型的应用的探索我对 IR 的话也是从在早期的就是 IRShift 的那些工作开始 follow 起来然后后来包括见证了从可能从

就是各种 Rule Model 的设计的变化包括各种训练范式的变化然后各种 XTO 的一些迭代然后到如今会在一些应用场景上就是打过模的探索强化一些些的路径的方式然后找到就是从用户的反馈到模型的迭代的一个比较好的一个路径最后一个说我觉得是有

是吃亏了因为之前本来我也想说 coso 这个这个想因为我我其实用 coso 用的也非常多也是感觉呃基本上有点离不开了状态然后不过呃因为前面嘉宾也说了然后我可以提一个 research project 或者说一些

我最近比较我觉得非常好的应该是艾伦朱的 physics or LRM 工作它是一个系列然后从去年开始到最近然后其实它跟艾尔的关系没有那么强但是他在 reasoning 的 part 做了比较多的一些我认为相对 solid 的一些实验和一些结论然后

虽然说他的实验规模比较小在一些小的规模上但是是非常扎实的可控实验的一个过程很多 research paper 我认为在当今都应该向他学习这种工作方式然后并且我觉得可以 follow 他的工作其实研究一下 reasoning 包括跟现在就是 Chain of thought 的关系然后包括跟

通过 IR 是如何去提升其实沿着他的这个工作脉络是非常好的一个开始对我也在这里就把这个工作推给给一些刚刚进入这个比如说 LM 或者是 Reasoning 方向的研究者

你为什么会觉得说这个是值得大家学习的一个研究方法因为有些做 research 的方式是比如说基于一些 GBT4 或者说一些某个特定版本的模型或者某个 series 一个系列的模型然后呢这里做出来的 research 结论其实我有时候欠缺一些

一些严谨的基础吧比如说你可能是因为受制于这个这些模型它的就是数据数据的格式或者说数据的组成部分但是你其实是对你来说是一个非常黑盒的一个环境然后你后面得到的结论很可能因为而且你的测试数据很可能也不一定是啊就是在他的训练过程中你并你完全不知道他是否有过一些偶合所以你很多时候的结论是我认为是不够扎实的所以他其实是从

涉及了一个相当于一个完全可控的环境基本上从数据到结构都是自己比如说训练数据也是完全是自己合成的那它的难度或者是它的逻辑其实你都是完全自己自如可控的最终能够得到一个什么样的实验结果就取决于你的数据你在做研究的时候你就会排除掉一些数据的干扰对

而且因为他也比较相对严谨的在做一些 scan 的工作然后你其实在某些 size 上的变化然后推导一些比较好的结论当然可能有它的计算资源的一些限制所以并没有做到特别大但是如果有计算资源的团队是可以 scan 到一个比较大的规模去验证并且去提出自己的一些理论的实验设计

大家应该可以感觉到我们今天邀请的几位嘉宾的确都在这个领域嗯就有很深的这个研究和实践的这个历史所以我想今天的讨论应该会给大家很多启发那最后这个我们的 co-host cage 也可以跟大家介绍一下哎哈喽感谢毛金茶邀请 co-host

我现在是在石像立的 AI 技术相关的投资研究,然后在石像我们是研究 AI 的海外图教授。比如说我们最近是在 OE 发布之前写了一篇叫做 LOM 的范式转移,RL 带来新的 stealing law,然后这篇文章是对 RL 草莓技术路线做了比较多的分析和预测。

感觉整个 OE 发出来之后还是挺符合当时的一些分析和预期的然后在加入石像之前呢我是在字节做了 Data Scientist 在 CMU 做过 NLP Research 当时是在 Bird 最火然后 GPT-2 发布的时候做过一些 Bird 啊然后 VAE 结合的文本分析说到 Fun Fact

就是最近我关注,之前写文章的时候关注 LM+NCTS 的 paper 比较多,分享一篇不太一样的 paper,就是之前看过 Nature 有一个认知科学的文章,它和 OE 能量能力上限的还挺相关的,就是这篇文章叫做 Language is primarily a tool for communication rather than thought.

这篇文章想表达的意思是说语言可能不直接带来人类的思考推理 reasoning 等力只是一定程度的去反映出

你的思想然后去做文化传播极端的例子就是失语症的患者也有完整的逻辑推理能力那么投射到今天我们聊的 OE 啊 RL 这条路线上很多就是一个 implication 就是语言会多大程度反应和压缩我们的思考推理过程这可能取决决定了未来像 RL 这条技术路线 LM 未来的一个能力上限还挺有趣的在这里分享一下

非常有趣的一篇文章所以你觉得如果说假设这个是对的就是的确这个就是我们抽用语言来去做这个 re-signing 的话对我们的这个模型的这个 chaining 的方法需要怎么样的数据都会有挺大的这个影响或者说给我们提供了新的思路对不对

是的,我觉得如果人类语言并不是推理最好的形式,这个是挺有可能的。那么很可能现在我们看到 OE 的 COT 是英语的,接下来可能这个 COT 是 AI 自己发明出一套更高效的形式化逻辑语言来做整个 chain of thought,我觉得这样可能对 AI 未来的他们之间的沟通会是更高效的。

非常棒,自我介绍的环节都有很多惊喜的地方,而且我觉得也是在我们整个 structure 之外能够让大家有一些更前瞻的感受到我们邀请的这些优秀的嘉宾都是在每天关注的这些前沿的一些进展,所以我觉得非常有意思。好,那我们这个言归正传的就是今天的这个主题,OpenAI 的这个 O1 的发布。

问一问几位嘉宾你们在看到了这个欧万的发布以及自己去尝试了以后你的作为最一直在这个领域工作的这个这个资深的研究员你们的一个印象是怎么样的然后有哪些让你印象比较深刻的地方我自己玩了欧万之后的我的感觉主要我觉得一个是在研究上面的首先这个

这个整体的大思路我觉得是非常有意思就是他们真正的就去提出来并且实现了就去 skilling up the inference time 然后提出这个东西可能会对 Rezeny 有更好的效果的提升然后实际情况下呢我觉得我也试着用 O1 我觉得它让我很 surprise 一件事情就是说

对于任何一个 reasoning 的问题你会发现它的

thinking process 里面他会自己的会有不同的思维或者推理的模式在里面比如说他会自己考虑我应该要 think step by step 还说我要去 critic 我自己的前面的一些思考错误的地方就我感觉这种自己能够去决定我应该怎么去做下一步思考这个能力感觉非常的有意思

这是我感觉在之前的一些比如说 GBT4 这些模型中是没有看到的但其实这个在 O1 的这个它展示出来的这个逻辑推理的过程都是还比较有限你觉得它藏了哪一些东西你是希望它能够 review 出来给大家的

其实这里面我觉得和刚才一个嘉宾讲的也很类似我自己也不太确定一件事情是他藏的那些 thinking process 是人类可读的还是人类不可读的那我的

我能想象比如说之前关于 Chain of Thought 的相关方向有很多 paper 会研究会发现其实你确实 Chain of Thought 的这个长度越长那对模型的表现会越来越好

包括也有些尝试是说我去真正加一个 special token 就是 sync token 然后会发现这个也能够让模型就是思考的更多它的 performance 也会更好但这些 sync token 对人类来说是不太知道它背后到底讲的是什么意思所以我的感觉是这个 sync process 如果它是可读的话我相信

他应该会有很多自己的一些想法不只是说我要下一步的推理模式我要做什么模式我觉得可能甚至会有我为什么会选择下一步我要做自我反思或者为什么我要选择下一步我开始解决我开始去把这个问题去分解成三个字问题等等这些更

偏原思考的这种范畴有哪些做得不是很好的地方确实我自己尝试了一些比如说有一个经典的例子就是算 strawberry 里面有多少个字母那我自己换了一些别的区计算发现在这方面其实有些确实欧万还不能达到非常高的准确率

但是我觉得这个是可以接受的如果它只是一个 LM 不是一个系统的话我觉得有些事情确实也不需要让 LM 去做比如说做一些计算器的计算等等这些所以我可能会更关注于它内部的这个 reasoning pattern 能够有一些又很有意思的表现

Erica 聊到了这个测试这个 strawberry 里边有多少个 R 听众也会好奇啊就是为什么大家总喜欢用这个问题来去测这个 LM 我我自己认为这个问题其实并

并不需要强求让 LM 能够去做到因为这背后也包括了本身它内部实现 LM 的实现的原理它怎么去做 tokenizer 等等这些所以我会觉得这种这些事情可能 by nature 如果有些 to use 这些去做可能是更自然的事情但是

但其实这些但其实比如说数一个单词没有多少个 R 这些事情我觉得对于人类来说你会发现可能给人的一两个 example 就能够做得很好但是有时候给 LM 一些两三个 example 它也不一定能做得很好

所以这是一个比较简单的测试就是 LM 能不能够知道我们自己的一些 input 到 output 的这种 mapping 然后去了解理解背后的原理性的东西这是一个比较简单的测试的方法

但是我觉得更 scientific 来说我觉得作为在一些数学或者 coding 或者一些很难的比如说量子物理等等这些上面的一些测试可能是更好地能够看出来模型它的 reasoning 的 performance 到底怎么样

非常感谢艾瑞德这个记载那那 kimmy 呢这个引用那个 terence 陶就是那个 uca 的那个数学 professor 说的一句话吧他就说 the experience sent roughly on parwas trying to advise a mediocrebut not completely incompetent

graduate student 我觉得在某些方面我觉得欧万对我还是非常有经验的比如说在我原来用 cursor 做 cloud 3.5 的时候经常他会给我写出来 buggy code 然后我就去跑一遍然后说 ok error message 然后我就把它贴回去然后 cloud 3.5 说 oh i'm sorryok i made this mistake when you're finding code 他可以帮我把之前错误的东西

帮我 fix 了,eventually 可以跑得好。在我用了 Owen 的时候,其实它更多时候其实可以非常 smooth,有一个 path 可以帮我把 code 写出来。这个东西就相当于涉及到了 behind the scene,就是说如果它这个 code 写错了之后,它能怎么把它 self correct 回来,就像刚刚两位嘉宾说的这个 reasoning token 这个事情。我觉得让我觉得非常有意思的一点是,就是怎么来定义 reasoning token,就是它是不是有一个 expressive reasoning token,还是一个 implicit reasoning token。

whatever 就是如果我们去看这个 01 preview 我觉得这让我感觉到是那个那个 Math 的那个 example 就你可以看他在 solve 一个 Math 问题的时候我觉得 Math 和 coding 其实 opr 还是比较比较相似的在很多方面但如果你看那 Math 的问题他可以写写写说哦我要这样然后他说哦 alternatively

Let's consider this.然后他又做了一些东西,他说,Oh, actually alternative,let me consider this.我觉得他在不断地去 self-refine 他自己的一个,一个,一个 synchro 的过程,which sounds to me is pretty fascinating,这样就不需要我 human in the loop 去 correct 很多 mistake 了。其实就是说欧万我觉得好的方面,不过这个欧万不好的方面就是说这个怎么来定义,就是一个非常 somehow 是 medical graduate,对吧?

我觉得你应该在网上看到很多这个网友就是拿这个欧万问了一个非常有意思的问题就是说 how to install 这个什么哭打还是啥来着我忘了然后这个那个网友晒出的东西就是说这个东西 sink for 27 hours 想告诉你说 i don't know 他这个训练数据非常 focus on 的方面他的表现还是非常惊艳的但在另一些方面其实他还有很多的局限我非常期待他们未来的工作可以去 further address it 你觉得还有哪一些局限是希望在可能下一个版本里面看到的

我觉得就是说这个几方面吧就是怎么样让他的数据的 coverage 更多怎么让他的数据的 evaluation 的方式可以更 scalable 他有一篇我对 OpenAI 的这个工作让我非常 fascinating 就很多年前的一个叫 PRM 的工作叫 ParProcess Reward Model 他们不是 reward 整个 end-to-end 的 sequence 而 reward 每一个 subsequence 也是 OpenAI 的另一篇 paper 叫 Let's Verify Step-by-Step

我觉得 OpenAI 应该是花了非常多的时间去 invest 怎么来做数据这个方面他们具体的工作我不知道了我觉得这个对于不论是 Google 还是 Astrophic 或者 whatever 的这些公司其实 the fundamental recipe is all about how can youcurate a lot of high quality dataand then it's about how you define high quality 你需要一个 scalable way to filter out high quality data

然后你你 fuel 的 hardcore data 的时候很多时候你给他标 reward signal 的时候你需要一个 scale of a way to not just give a sparse reward 这个不是像数学问题说 OKeventually it's right or wrong 但是对于很多的问题其实是没有一个 close solution 的你非常难去 evaluate 的这个东西是一个好还是坏的事情这样的话你怎么可以 define 一个 systematic way to actuallyscale

去 label high quality data 我觉得这是个非常我觉得 fascinating 的问题但是说如果这个问题可以被解决我可以期待这些 raising the task 可以有再往上一个质的水平的配乐你也提到就是 OpenAI 就放出了很多跟数据相关的这些工作那你觉得说就是要要训练出 O1 这样的这个 model 你觉得需要怎样的一些跟以前我们训练 LM 不一样的这个数据获得和处理这些数据有哪些难点

我觉得这是一个非常好的问题如果我们 take a step back,OpenAI 刚发布第一版,当 OpenAI 刚发那个 instruction GPT paper 的时候当很多年前 Google 还非常 focus on 做 high quality 的 SFT 的数据的时候然后这个 instructor GPT 见走偏锋说我要做这个 preference 的数据其实 fundamentally 不论你是做 SFT 还是做 RHF 的 preference data

都需要非常好的数据但是这边的一个 tricky 的点在于 preference 的 high quality 的数据其实是比 SFT 的 high quality 数据好做的

所以说他们的第一个 trick 是用了一个叫 smart 的方式来可以更加 highly scalable high quality 的数据是一个 preference 的数据我觉得这是他们的第一个的这个让我觉得非常惊艳的地方然后你可以做了这个 preference 的数据了但是这个 sparse preferencesparse preference 的意思就是说你只有把这个 conversation 结束之后你只是说对于整个 entire conversation 你觉得这是好还是坏

但是这个的话就是说如果中间有很多 intermediate staff 的 reasoning 你其实没有办法就是说对其实中间的每一个 intermediate staff 来做打分

然后欧盘就说,OK, let's continue our work, what else can we do to actually curating this preference data, but also preference data with the fine-grained reward,他们就做了一个 let's verify step by step, 说我们怎么能 verify 这个 preference data, not just by the final rating, how can we actually verify for the intermediate step,然后他们在做 let's verify step by step,他们做了这样的一篇,他们其实发了一个数据集,

叫 PRM 800K 就是一个 Verify Intermediate Step by Step 的数据机然后我觉得其实这一套研究的思路就被他们一脉相承到了今天来做这个这个这个 O1 的这个过程但是 Fundamentally 我觉得我们要解决的方式是怎么用一个 Scaleball 的方式来标注一些 High Quality 的数据但是说这些 High Quality 数据不一定要是一个 SFD 的数据这些 High Quality 数据可以是个 Preference 的数据或者说有可能某一天我们有比

标 preference 数据更容易标出来 high quality 的数据可以让这个 scalene law 再做一个 10x 或 100x 的这个在数据方面的这个 scalene law 那我觉得这个模型又可能又可以达到一个新的值方面的费用

刚刚 Timmy 提到 stayable 我想讨论一下就是当时那个 instructivity 出来的时候 Anthropity 有一篇 paper 叫做 constitutional AI 他们就是用 RL from AI feedback 那么放到欧文这个领域的话我们比如说要有高质量的 reasoning tokens 这样整一个数据如果我们今天去复签欧文有多少会是人类的高质量标注然后有多少未来能借助 AI 慢慢地做好

我觉得是这样的,人类标注其实可以用不同的方式来使用最 straightforward 的方式是 direct preference optimization 大家在做 RHF 的时候说这个 train reward model 太复杂了然后我在最后 train RHF 的时候我要用 PPO 不但要有现在的模型在我的 memory 里面我之前的模型在里面,it's too complicated, let's just train DPO, let's just do direct preference optimization

大家做 DPO 的时候这个好处在于其实我不需要这个机械的数据如果人标了一些数据我这些人标数据是可以直接用来做 train 我觉得这是最直接的一种用法第二种的用法就是说如果你需要用 RO AIF 来给你来标你的 preference 数据那你这个 AI 的模型 come from where rightit's actually checking an aircraft you want a model can you know do good work to

to help you to read high quality databut before that you actually need to train a high quality model, right?This is like a chicken and egg problem

所以大家会做的事情是说 OK 我先用人来标一些数据然后我把人标的数据来 train 一个 reward model 那我有了这样的一个 reward model 之后就是说有别的数据它其实没有 preference 我们用人的方式来像人一样来标它其实然后这样的标的方式其实相当于说是一个 R-A-I-F 的方式来给这个模型 preference feedback 但是这个 R-A-I-F 就有可能又有它的 potential 的问题就会导致这个东西叫 reward hacking 对吧就是说 OK 就是

就是这个作为一个人而言他给我的不一样的这个 response 我有可能非常 systematic 的去 analyze 我说 ok 我知道这是好这是不好但比如说你现在 train 了一个模型非常 care about safetyright so if i'm asking a unsafe question the model will just not response youand then from a reward model perspectiveyou knowi might just say okay if you do not response to me that's just a good thingthen this is a really bad scenarioright 有可能你问了一个问题 it should response youbut

而語言模式可能會被這個虛擬模式的背景破壞所以我覺得歐洲戰爭是一個非常有趣的題目我們需要花更多時間投資如何訓練虛擬模式我覺得這其實是一個基礎的部份如何更加篩選 RHF 訓練或 RAIF 訓練

关于我使用欧网的一些例子因为我之前很喜欢除了 Liqo 的这种周赛的题去贴之外我会测一个那种复杂场景下的旅游问题我所谓的复杂场景就是指你很可能是一个家庭然后你还要去

进行一些跨国的旅行然后你可以贴一些然后我的 prompt 一般会贴一些这个你买了机票的时间啊然后有一些景点然后基本上之前在测试 GPT-4 的时候他有的时候他会给出一个看上去还可以但是其实你去仔细看里面的一些行动细节你会发现他比如说他根本没有照顾到我这段路程的时间在车程上的时间导致我这天可能就

奔波于车程其实我在景点的时间非常少然后这种细节上我就是他并没有考虑特别好但我其实我这次又测了一遍欧网然后我觉得其实让我非常的 impressive 因为有一个细节就在于他甚至还考虑到了我从

因为我当然我我经常会选择就因为我觉得北京和这个纽约是就是模型学的最多的两个城市可能至少在这个旅游攻略里面都不会少然后他会考虑到我到了那边的时差的问题然后就这种呃就是他会换算好这个时间你但是已经是几点了那你应该先休息然后再怎么样然后然后判断好一些让我在我看来就是有点像一个贴心的这种如果你真的请一个呃这个

低特要他可能会跟你说的一些比较 detail 的东西然后还会考虑到一些不同地区比如说中因为美国跟国内他这个博物馆休息的关闭的时间是不太一样的然后这种就看上去就非常很细节的设计会让你觉得还是蛮就是蛮不

然后从这个 case 里面如果我们只说 leetcode 这种周赛这种题确实反映的是它的代码和这种比较直接的数学推理可能是他强化学习里面非常好去定义 reward 的方式可是我觉得泛化到这个场景就是在至少在这种就是我就理不上可能

如果说不是因为泛化过来的能力我觉得是很难做到的其实我倾向于这个是他从其他的就是比较好我觉得要么两种一种是他找到了一种比较好定义通用类型的啊 reward 的一些方式就是通用任务上的 reward 的 reasoning 的效果也能够去给比较好的反馈而另外要么就是我在这仅仅是学像 code 和 math 这种强 reasoning 的方向上我也能够泛化到这个场景至少我

从结果上看是它泛滑到了一定的程度

就是像你所说的 travel planning 这种我日常需要做的一些相对复杂的一些工作这个里面所需要做的 recenting 跟我们这个什么 coding 数学体验做这个 recenting 有什么不一样就比如说我觉得你刚才所说这个东西应该是一个比如说一个特别好的私人秘书特别好的这个 travel agency 去做的特别好的 EA 或者这个这个秘书它不需要是一个 IOA 的这个金牌对吧它不需要懂 coding 就怎么理解这个这两个能力之间的一个

这个这个转换呢

我觉得就说大家对 reasoning 的一个定义吧就是可能比如说你做 code 或者 math 这种 reasoning 那你是在解一个明确的一个问题然后中间我们有这个思考过程那其实是推理过程但这个往往是逻辑严谨并且是基于符号学去做的然后但是还有一大量的 reasoning 其实是基于你的 common sense 就是你的你在你对这个世界的常识的认知去做的一个推导我举个例子比如说现在

现在在下雨那你可能去卖伞可能是一个很好的生意那这是一个其实那那在下雨天做什么生意会更好那其实是一个 reasoning 的过程其实你需要知道啊你可能对这个世界里常识有一些比较通用的了解并且你还能泛化出一些那也许以前没有人在我我只是退一步说如果以前没有人在下雨天卖过伞的话你可能同一些其他的啊

就是商业的方法然后你发话到了这个场景 OK 我应该卖他就卖他更好这样的一个我认为其实也是属于瑞德年的范畴里的所以这个旅游这个场景呢更贴近我刚才指的这种

因为他要考虑到的事情其实是有逻辑顺序关系的比如说我获得一个好的舒适的体验我就应该考虑到比如说一个大家族里面可能如果老人他的体力不行我就应该规划什么样的一个全设计其实以前往往大家都会用一个比较复杂的 agent pipeline 去做这个事情而且有需要大量对业务理解或者说你自己去制定一些规则

在 prompt 里面去设计但现在他能够很好的理解我要舒适其实我就意味着我不应该去花大量的时间比如在周吹老顿上对吧这个是就是 common sense 的 reasoning

呃 resonate 这一块的能力在欧安上的一个你一个提升他的就是主要的来源可能有哪几个方向如果你要就做一个呃拆解的话你觉得可能是在我们之前这个 lm 训练的这种范式中加入了哪几个你觉得比较重要的 component 让他有了这这样的一个呃能力

如果我去信个 OI,我会怎么做这件事?可以这么说。这个 OK,我就把门弄不进去吧。我也不知道,我并不知道他们怎么迅出来。如果我 guess 的话,我觉得是这样的,就是我估计我已经说了非常多遍,我觉得 it's all about data,right?就是如果你可以看,不是 reasoning,非常 fundamental 的能力,其实这个大约模型做得非常好。

为什么大圆模型在这方面做得好其实这些数据是非常 available 的你可以理解成 stack overflow 就是一个 question to code 的一个问题 wikipedia 是一个 general QA 的问题这些数据 it's so accessiblethe quality is so high 你可以非常说这个 wikipedia page 被点了多少次这个 stack overflow 的这个 link 被人 upvote 多少次 it's very easy to figure out what is the high quality data set

You can just pre-train them in, you can align it 所以这个模型在这些 performance 上是其实非常 straightforward 的就非常好,是不出意外的然后说到 reasoning 这件事情就是说首先怎么 define reasoning 对吧然后但是说就是说最关键的是怎么能有 reasoning 的数据就比如说 if you treat the entire internet as a public data set 我如果问 Vonica 正好问题你觉得什么数据集是个非常好的 reasoning 的数据集你会觉得你会去哪里找这个东西

我们刚刚说了 question answer 我们就是 wikipedia 是非常好的 question answer 对吧 stackle flow 写码的人就知道这是非常好的一个 question 就 code it 其实我也并不知道什么是个非常好的 reasoning 数据局面你并不知道去哪里找这个东西就是 ML paper 对吧 there are a lot of other reasons 我想说 reddit 啊知乎问答那是感觉非常的 noisy 对吧 that's a good oneI think 我觉得知乎上其实有一些比较比较不错的

这种比如说网这种这种 AIML 的这种做的科普的东西我觉得 OK 那 might be a good raising data set 但其实 fundamentally 其实这种非常常逻辑念的 raising data set 其实 not publicly available 的对吧那其实我们相当于说要做的是一个幻影思路的怎么来产生这些数据我个人就是我个人的 battle 是其实很多的这些都是 synthetic generate 出来的

通过了各种不同 sensitivity 的方式 generate 出来,通过不同的 future 的方式把好的 future 留下来。比如说写一个数学题,3x+5=100,求 x=多少。你有可能就问 LM 说,OK,我知道这个结果有可能 x=,我忘了我刚才说了什么,我就 assume 这 x=50,是个正确的结果。你会说 OK,你问这个 LM,这是这道数学题我想解的,这是我有的结果,请你 help me reasoning through step by step。

因为你已经知道 ground truth 是什么了相当于这个 LM 其实是在你 force 它的情况下它把它的 reasoning 完全 expressly 告诉你但是然后你可以说 ok 你知道结果是谁如果它 reasoning 到最后它这个东西出来的结果不是谁那你就说 ok this is a bad reasoningI don't want it 你有可能就是说跑这个如果你知道 ground truth 你有可能跑个 100 次对吧然后你把它中间你觉得最好的 high quality 的一些东西通过 either heuristic 或者一个 reward model 什么的方式把它 future 出来

或者你完全不知道什么是对的什么是错的那你可以通过一个 self-consistent 的方式把它 fusion 出来其实我觉得更多的 raising 的数据节是通过这样的 synthetic 的方式来 force 这个 LMUKnow you must reasonthen tell me what you're thinkingstep by step 然后把它不好的数据去掉把它好的数据留下来其实我觉得更多时候 raising 的这个能力是会不断地 distillate 出来的就好比就是说我这个 PhD 对吧我现在在写 paper 你有可能你干的事你先读了很多人的 paper

然后你要干的事情说 OK 我来想想 reasons 这些 paper 我都读了我大家有什么 idea 然后 eventually you come with your own idea 我觉得它是一个不断的吸收消化的过程只是 LM 的话我们要 force 他说 OK 你必须消化他告诉我你怎么去消化这些知识的过程然后我们把这些数据再反过来 trade 给 LM 让他有一个更加就是 reasoning 而不是说反过来指着给你图一个答案的这个过程这是我的就是个人的一些看法我也非常希望听一听别的嘉宾的一些想法

我追问一句,因为这一类的数据它的形态也跟我们原来很多这种 one show 的这种形态不一样嘛,那去这种数据的这种训练方法上,你会猜想有什么难点?现在 language model 就是两种训练方法,你 either 就是传 SFT 或者是 RHF,我觉得这个 DPO,Direct Preference Simulation,我觉得其实越来越泛化成,其实跟 RHF 没有特别大的区别了。

你可以选 SFT 如果你能非常的知道你所有的 Beta 都是非常非常非常好的我觉得 SFT totally fine 但是就像我刚开始说你很难 generate 出来非常 high quality 的 SFT 的 Data set 你有可能这个东西说 OK 我有这两个结果这两个可能都不是我特别想要但我觉得 A 比 B 稍微好一点然后这个你可以用这个 A 的 trajectory 通过 2L 的方式把这模型往好的地方推一点点说 OK 我更 prefer AOK 你看到 A 这种结果

你更倾向做 A 一点,但有可能 A 不是最好的,但请你不要倾向于做 B,然后这个模型说 OK 通过这个 step,I know a little bit better,A is a better solution,OK 那你现在基于之前的 base 模型,你有一个 step better 的模型了,你通过这个模型,你有一个 step better 的模型的时候,你再把同样的 query 再版模型一遍,说 OK 我知道你 do one step better now,

Given 这个问题,请你再给我 reason 一遍,你会拿到两个 preference 的数据,你说我这次觉得这个 A 跟 B,这次有可能 B 比 A 好一点,但这次的 B 和 B 比 A 好,但这次的 B 不但比 A 好,这次的 B 还比上一次的 A 也好。相当于说你可以把这个模型的 frontier 再往前推一下,然后通过不断演化这个 iteration 的方式,加上 reasoning 的方式,让这个模型慢慢具有更强的 reasoning 的能力。

就是就是放在满足的是一个我觉得是一个更多的是一个二维这个就像刚刚我就说后面你想讨论一个 topic 了这就是 self play 的一个 idea 最近也大家也看到了很多对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对

我并不知道这个 Alpha Geometry 的这个 base 模型是啥,我希望可能不是,就像刚刚前一位嘉宾说的,就是说你必须其实要有非常强大的 base 模型,你才能有这个在某一个 specific domain 更好的 performance,如果你的 base 模型不行,其实也是就是 domain specific 问题,是很难做到的。

然后说到你刚刚说的其实如果你可以在一个就是其实你造一个懂明 safety 的问题其实相当于是更简单的吗对吧你可以用个更 specified reward model 来训如果你可以训一个懂明 specific 的模型如果你觉得这个数据的 cord 也是好的话你完全可以用他的数据来反补一个更 generalized 的模型这是我自己的一些一些个人的想法很有启发啊那跟 Eric 你有什么补充吗

对,我自己觉得主要的两点还是数据和强化学习这两块数据方面我会觉得从 O1 的 reasoning 这么好的表现来看我觉得

很可能我们需要很多的数据是关于对 reasoning preference 的数据和 Kimmy 刚才讲的就是 process 的 reward model 然后 reasoning reward model 是很相似的在这里就是说我觉得如果有一个很好的 O1 model 那我怎么去训练得到一个很好的 O1 model 我觉得就是我应该要去

让在数据层面我应该希望他的 reasoning step 是更加 make sense 的和更加高效的甚至是更加 optimal 的所以说我会觉得

设计一个 reward model 去帮你去评判那些 reasoning step 哪一个更好哪一个不好这是最重要的一件事情然后如果有了这样一个 reward model 那么从那么 data 的 synthetic 合成 data 这一块就会相对比较好的去解决因为

就包括我们刚才一开始也讲了一些 MCTS 这些基于这些 reward model 然后来去产生一些更好的合成数据那这些就可以结合在一起去产生更高效的更高质量的 reasoning 的数据然后

而我自己是比较相信模型产生的 resonance 数据是远远大于人类的因为如果你让人类和模型都做一些题目的话你会发现人类大多数生成的内容都是毫无逻辑可言的但是模型其实相对是会遵循一些的逻辑性的

所以我觉得合成数据很可能是能够 O1 训练出来的一个主要的因素然后另一个第二块我是觉得强化学习的重要性是更加凸显了我看到最近 OpenAI 一个研究员他也分享了一个他自己的 presentation 是 Don't teach insensitive

就说更多的是说我不是再去像以前比如两年前 Google 还是非常强调 SFT 非常强调 instruction tuning 这一套思路但现在我们发现因为

LM 太强大了所以说我去真正的去教他怎么去做 reason 是非常难的一件事情而且也不是最优的一件事情因为人类的很多的 reasoning 可能都不是一个最优劫但是反而我更多的是应该是利用 R 的思路就是让模型自己去探索你应该怎么去推理这件事情我只是告诉你最终的结果是好还是不好我去奖励你还是

惩罚你我觉得这样的话模型它自己能够 figure out 可能比人类更好的一些 reasoning 的思路我觉得这是一个我感觉 O1 给我的感觉就是 RL 它的重要性是更加的被强化了而不是说在以前我们 traditional 那个 instruct GPT 里面 RHF 更多的是做一些 alignment 或者 safety 这些相关的事情这是我的一些看法

是不是就有点像大家发现这个 AlphaGo 自己下着下着其实比其实它产生了一些人类的这个哪怕顶尖的棋手都没有想出了一些这种做法我觉得现在的 LM 是有这个能力的比如说很简单我们

我们大家在做 RHF 的时候一个非常头疼的问题就是 reward hacking 的问题为什么会有 reward hacking 其实就是你的模型它的能力特别强它能够甚至找到你 reward model 里面的一些不完美的地方去利用这些 trick 然后去提高自己的获得的 reward 但其实它并不是

只是因为你 reward 不完美但并不是他发现了真正能够做得更好的所以说如果你有一个很好的 reward model for reasoning 那么我相信你的 LM 是能够有那个能力自己去找到一个更好的 reasoning path 等于是让他自己去优化这个过程那感觉整个 AI 的我觉得整个 AI 这个行业我们

非常明显非常 common 的一个 pattern 就是 AI 能够代替我们很多的人类自己设计的一些模型的 architecture 或者自己设计的一些 workflow 然后它能够去 automatically 去 optimize 这些所以我觉得这也是一个很好的一个例子

那我在最后追问你一个句子,那如果说我不需要模型去学习我的这个 step,怎么理解跟这些 multi-step data 之间的关系呢?是不是说其实如果我有个特别好的 reward model,我其实就并不需要这么多的 multi-step data?

对这里面是相互关联的就是 multi-step data 的前提如果它能 work 的前提是说你对每一个 renew step 你的一个判断你所谓的对它的 reward 给它的一个打分的判断是非常可靠的那如果你有这一步的话那这种比较 dense 的这些 reward 是非常对你的 I/O 的 train 是非常有用的但是我觉得这个 O1 给我的一种

感觉就是说在做一些 reasoning 的时候我们不需要去用 sft 去告诉模型你应该比如说解一个题目的时候就刚才一位嘉宾提了比如说 3x + 5 = 100 你不需要先算 100 - 5 = 3x 你可能直接去带一些公式或者你可能有些别的更好的一些的方法直接就能解出来这个题目

不需要就是说用人类去写自己的 reasoning step 去就是教给他如何做 reasoning 而是更多的是去对他的每一个 reasoning step 或者一个整体的 reasoning path 做一些评判而已不要去尝试教模型怎么去推理而是说只是对他的推理做一些奖励激励那苏辉听听你的什么 feedback

其实我觉得有一个还蛮就是呃就是比较重要的一个方式方法就是他解决了一个至少我们之前很多人在做呃

MTCS 和 RM 结合的时候会发现就是这个强化学习你在用的时候就是关于这个力度的一个问题吧就是你到底是比如说你是以 token 为力度去做还是做以比如说一个 sentence 或者说某一个或者说以 step 为单位或者这样去做一个反馈其实我我看了很多关于他 Chain of thought 中的一些例子吧我发现还是有一些明显的就是

就相信一些分其实没有分割符在他这个他因为 summarize 出来我们只能在 opi 就是他官网上给出过完整的那个强有操作的例子然后有一些例子里面会有很明显的一种语气词就是很像我们人类在聊天过程中会啊

做一些停顿或者说你我不知道大家有没有在做一些题的时候脑子里自己在想我是不是可以在这里划根线好像也不太行然后但是就停顿一下然后加了一两个语气词因为你要嗯一下然后这些词我在就是它的完整的强欧不错的词里面看到了然后我会觉得还挺神奇的因为这个某种意义上来说是相当于把你脑海中的

就像是自己跟自己聊天的那个声音给搬到了这个就是 Channel 5 搜索的里面去然后我会觉得这里面可能有一些人类标注的影子在就是我们很可能是他很可能是通过一些方法获取了一批非常高质量的就是 Channel 5 搜索大量的数据然后并且把它以

就是他的 action 是比较的切的比较比较开的就是你是一 step 的位单位去切的然后让模型的学到就是我是以这种方式去啊就是我去摸摸个 step 去然后我去给 reword 模的反馈一次啊一次就是好不好然后我再去

是不是要去进行比如说回朔或者 reflection 这样的一些动作然后这个其实相当于他把这个条路给做 work 了然后我看到的至少我看到的他的前后措施的例子能够让我觉得是他是按照这条路线走通明的那其实给很多人一个比较强的应该是信心吧就是沿着这条路去走应该是至少能够做到这样的一个程度我觉得还是蛮重要的对

我们前面也提到就是你不需要用这个大模型来去解一个特别简单的这个数学问题如果你问他一个特别简单的数学问题的时候这个模型似乎用非常非常复杂很绕的这个方式来去解这个是为什么呢然后那如果说这个模型有很强能力他知道这个这个一个很简单的比大小或者说加减的一个数学题或者一个简单推理其实不需要这么用用他最

这个 info 最高的这种方式那为什么他不会自己去找说哎那我就用一个计算器的方式来去解决就就好了这这个是一个模型能力的问题还是说他只是一个呃这种 tool use 这种可能偏呃 engineering 的一些问题呢

我看到欧盟出来的时候我第一反应是他为什么以这种形式给大家见面因为某种意义上来说因为其实欧盟自己也展示了他在有一些任务上比如说 tax writing 什么的其实在比较上是略输于比如 for 欧的表现的他在强推的这些场景都是完胜的然后

我比如说很多同学会去试一些比较在我看来就是可能还比较内乎的一些问题然后让欧望去解决其实没有必要用这个模型去解决对吧但大家都会去去做这个尝试当时我觉得如果你是 deliver 一个好的产品的话其实你应该 deliver 的一个是一个比如说你做过一个 root lm 的一个策略

比如说我认为一些需要强退的模型我才走欧网而不需要走强退里的我可能就用 fo 或者 fo mini 就能把这个问题解决了那可能对于一个用户界面来说感知比较弱的我并不需要去感知我调用了哪个模型对吧我其实我只要解决我的问题就好而且付出的 token 有比较的少那

强的问题我就让这个欧望去解决然后弱的问题我可能就不需要强推的我让这个 fo mini 去解决那我我认为这个其实对如果 opi 想做是一个非常非常简单的事情但他没有这么做因为我后来我想明白他可能还是比较因为在这个就 opi 他跟别的比如说做 pipeline 的或者说那种

产品的逻辑不太一样它其实这是纯纯的 modal service 的一个就它每次 deliver 一个产品就是 deliver 一个新的 modal 所以我现在不管你 query 适不适合用欧网解决我都用一套逻辑去解决你所以不管你是问的一个简单的问题还是很复杂的问题它都会用欧网这个模型然后欧网的模型又是它的训练整个训练逻辑又是强

推理环境下训练出来的所以即使是遇到一些非常简单的问题他还是要走很复杂的前后措施去解决这个问题对

然后在这个过程中他并不着急的就是跟之前的他的一些比如说 tour use 或者说一些像其实虽然我们也知道他是一个多模他其实应该是欧望也是一个多模态模型但是也并没有那么强的去宣传这件事情然后也没有在用户界面上非常好的体现出来然后我觉得其实这些他都是可以被就是结合进去的就是某种意义上说就是我们现在体验到比如说

比如说荷尔发布之后就完整版的 4 欧的表现其实跟欧网后面的各种事情其实都可以被集成进去包括 tour use 但是他这个阶段他并并不并不想再做这个事情他只是想 show 一下我欧网这个强 rhythmic 模型到底是个什么样的模型苏辉说的这个我特别同意就是因为我自己也用他回答了一些很简单的问题但他会想想 42 秒然后给我一个非常简单的回答

所以我的一个感觉就是 OpenAI 有点 research 和产品有点分离了,咱们一开始那个还聊到 Tourist,感觉如果是 Tourist 做这个事情的话,可能就是前面先给一个问题,我先把问题打好之后 at,对吧,然后 at 的时候就是他会自动给我补全一下,到底是 at01 还是 at40,那么可能他就能找到更准确的模型来负责这个问题。

但我觉得这个 model routing 应该是 OpenAI 接下来一定会去做的方向因为这样对我们的使用体验会更好一些从去年大家开始讲 agent 的这个概念的时候就就会提到这个这个 to use 直到现在我们其实并没有看到就是这个呃这种比较通用的 agent 能够做的很好大家觉得说其实核心是一个就是这个 Foundationmodel 的这个推理能力的这个问题第二步是说他得了解每一个

他能够用哪些 tool 对吧那些哪些 tool 他们的这个他可能有哪些功能和局限那后者是不是你们觉得相对来说就是一个比较呃工程化的问题只要我这个像欧万显示出来的这种 result 能力足够强的其实呃后续再要去做一些这种呃呃可以帮我们去 sq 去执行任务的 agent 其实都是相对来说嗯比相对来说是比较容易的还是说这个过程可能还有什么我们看不到的一些 gap

我觉得 Opethat integrated tool 的时候它也比较纠结就因为其实某种意义上你这个 tool 是要覆盖面比较广才有意义如果你只是我一个比如说 calculator 或者是一些什么查天机这样的 API 的话如果我要细碎到这个程度对它来说其实工作量又很大又并不能直接的在产品上可能覆盖的全面然后

其实他要做的事情只是说我提升我只要提供一个能够对很好去理解你 prompt 的比如说 function 的这个理解然后并且该怎么样去调用这件事情然后这个其实有还是有蛮多瑞士工作去就是他们去验证了这个事情基本上都就是在生产真实的生产环境里面做的还是很好的就是他一个强的非常你只要有非常强的 prompt 的的就是理解和就是

就是 reasoning 的能力其实你只要提供足够完善的你的就是像一个说明文档基本上对于这些就是你能够符合你的生产环境里面需要用的一些 tool 提供出来那其实模型是在该适当的时候都能够去正确的调用并且返回就比较好的结果对

我觉得一个单一的 LM 有一个很强大的 reasoning 的能力这是去构建 agent 一个很 foundation 的基础

那 OpenAI 自己也在它发布自己觉得不同 level 的 AGI 的时候也觉得可能 level1 只是一个 chatbot 然后 level2 就是一个 reasoner 能够做一些可能比一些 PhD 能够更好甚至比 Human 更好做一些 reasoning 的能力

然后到下一个 level 才会是这么一个 agent 一个 agent system 然后可以去 take action 可以去决定应该怎么去处理复杂的一些 task

所以我觉得 reasoning 感觉像是 openAI 还是在一个基础的 foundation model 层面去努力去把这个 push 的 boundary 我相信 agents 的话应该会我相信是会 next level 它并不是我觉得并不会是说我的每一个 foundation 的 LM 做的足够好之后 agents 就

自然而然能够做得很好因为 agents 它更多的涉及到是多个 AI agents 相互它有包括一些相互的 cooperation 然后甚至 competition 然后怎么去合作分工然后去解决一个复杂的系统复杂的 task

我觉得 2Use 只是一个 component 以及怎么去分工然后它这个系统的设计我觉得这可能是从一个 reason 变成一个 agent 的 system 这过程中可能接下来应该会面对的一些挑战这是我的一些想法的确我们也看到从创业投资的角度今年也看到了很大的一个变化就是在所谓 agent 的

ops 就 agent 的 infra 这个领域出现了很多这样的这样的公司当然都是一些更偏工程更 tooling 的方向不对我觉得这已经说明了大家开始就是很多的这个 agent 至少已经多少少进入一些生产的环境大家开始要去想我怎么把它作为一个产品作为一个像 Aragon 说的这个系统来去管理起来

的一个方法论了所以我觉得这个也是我觉得今年看到的一个一个趋势那正好听听 Kimi 因为 Kimi 刚才前面也提到你也在做也在做一些 agent 的这个工作欧万这个提升会对你的这个工作会有什么样的影响

两点吧我稍微 ackle 一下大家就是才能讨论的两个不同的地方第一点就是说这个 OpenAI 为什么不做一个什么 router 这件事情我觉得 OpenAI foundational believe 的是一个就是 Richard Satt 那套就是 search and learning will solve everythingany overengineered problem will actually get washed away 所以我觉得对于他们而言他们不是不愿意做这个事而且他们觉得这个根本不是他们 believe 的一个信条吧

然后说到 Agent 这件事本身其实我非常同意前面这个苏辉和 Eric 分享的就是说如果你想有一个模型有更强的 Agentic workflow 的能力的话其实无非我个人觉得这么四点第一点你需要有个非常强的 base model 然后 reason 其实提升 base model 一个非常好的方式第二是你要有非常非常好的 pool

你不能给我这个 tool 给我的结果是非常 noisy and bad 的就是你需要有一个非常好的 tool 就是我如果问你这个这个问题你给我的结果是非常 concise 的在下面你需要非常好的 prompt 这个我觉得 so far 其实 agent 还是个非常 over prompting 的一个过程如果大家就是我会有的没的玩一些比如说开源的这个 agent 的 workflow 比如 autogin 什么 crewai langgraph

其实你会发现一个非常非常非常 tricky 的问题,你有可能随随便便你 run 了一个 agent workflow,然后现在 opni 是如果 so 的话,大概是应该是 15 块钱一个 money output,发现你就 run 了一次 agent workflow,你突然有可能就这一个 million token 就出去了,你自己都不知道发生了什么,所以怎么去写一个更好的 plump 和 extract 的模型做这个事情,也是非常 tricky 的一个,然后最后就是 learning,对吧?

你通过你现在有个非常好的 base 模型了你也知道直接 to 了然后你也有个好 prompt 你怎么来 incentivize 这个模型更好来使用 to 什么时候来用 to 为什么这个应该用 toA 而不是用 toB 就想把它又回到你需要 curate 很多 agent 的数据集来解决这个问题然后同样通过二维码的方式来解决它我觉得这是我个人对于 agent 的说法的一些看法

那听起来这个这 agent 的数据集比你前面所说的那一些要 step step by step 的这个数据集听起来还更难去更难去找啊就如果你没有这些是不是比如说先通过一些 engineering 像你前面说的可能它是一些 engineering 方式做的 agent 先做出来然后收集了一些数据然后再看这个里边有哪一些组件可以被 automate 或者被这个 AI 直接去做

我觉得两点吧,第一点就是还是跟之前一样是怎么通过这个 sensei 的方式来使用工具的。Meta 发的那篇那个 to form paper,就是说你怎么来 curate,告诉模型怎么用 to 的这些数据,对吧,这是一种方式。另一种方式你也可以理解成,其实我每天在 Google 工作,如果说难听一点,其实我每天不就在帮 Google 标数据吗,对吧。

就是大家跟我说写个这个 fisher 我给他们写了一堆 code 相当于我帮他们做了这个 question to code 的数据集那 Google 可以帮我带来去 train 他们内部的模型对吧有可能不是个 public 的模型是个内部的模型然后有可能我在写 code 的时候我说这一段我写个 pump 然后我相反我掉了一个 to 其实我帮他做了 agentable 的数据集怎么能做一个产品让这个产品可以 foundational 的让用户帮你找数据就是

这是一个非常就是这是个产品方面的问题这已经不是个科学问题了比如说 Tesla 对吧 Tesla 就是个非常棒的产品但是更棒的是我们每天在帮他标数据对吧你看这说的很爽你知道我同时在帮他标数据你都没有感觉到这个事情就是这样的这样的两点吧

但你不能让人非常的不开心去帮你 label 这个事情,因为你不开心帮你 label 是他帮你扣出来这个数据铁扩大非常低的,不非你 incentivize 他们非常多的这个这个这个 money,因为我听说好像什么 opi 嗨了一堆什么数学 phd,什么一小时几百刀帮他们标这个什么 resonance 数据,我也听说过这个 rumor 啊,但是 don't quote me on this,就是你怎么能把标税这个过程嵌入你的工作流,让你免费把这个事情干了,然后直接直接某一天把你取代了,对吧?That's a perfect product.

对的对的哎其实呃刚才大家也呃反而提到这个 train of thoughts 对于对于这个可能只是听到或者不是那么了解的同时大家可以解释一下就是 train of thoughts 到底是到底是什么而其实 train of thoughts 这个呃 co t 的这种啊这个方法其实也不是新的其实前两年就开始提出了那到底这个欧万在用这个啊 train of thoughts 的时候跟以前我们所说的这个 train of thoughts 的使用又有什么啊不一样的地方啊我想要不这个苏辉你可以聊一聊

好呀,其实其实 Chancelled 是一个很早的,2022 年,两年前吧,就是第一次被提出来,是 Jason Wei 的那篇 paper 然后 Jason Wei 现在也在 OpenIB,然后他当时当时的那篇 paper 我印象中就是他在解决一些问题的时候,在答案中如果你给出更详尽的就是

步骤而不是就是直接给出答案这件事本身他就会做的更好但是呢然后后来在同可能同一时间点还是过了两三个月之后有另外一篇就是提出 let's think step by step 这件事因为你你在 prompt 里面如果强制让他说 let's think step by step 那么你在生成的过程中他的这个他自然而然的就会想签入搜索方式去生成了然后这两天微博应该是

算是奠定了 Chain of Thought 的一个基础吧应该很后来很多工作会去都会在的这些工作然后并且会在基于他们的工作去做一些改进然后在很短的时间内应该是这个 Chain of Thought 就会被就在就 Math 的 reasoning 包括像 common sense reasoning 还有一些 logic reasoning 的一些 task 上就开始去刷榜包括就是大家会发现就是我用上这个之后我的提升就会很明显然后这些这里面也其实还

也产出了不少 paper 然后有一些 researcher 也去把全无缩用在一些 multi-model 的 reasoning 上就是像 Visual Languages Model 这些然后再到后面就是变化就越来越多了包括我分成两大派就是开始或者主要流派是做显示的这种就是全无缩头我一定是有显示 token

表现出来然后这里面会有很多可以玩的地方就比如说你的你的你的这个签误搜是本身就是一个 structure 是吧但是你到底是一个串式的 structure 还是 tree 结构的 structure 甚至还可以搞一个就是 toolstructure 去做签误搜然后那你你生成的也不仅仅是我 Linda 的这种签误搜就不是不是传统的而不是仅仅是这些啊按顺序生成的 token 你还可以去做一些呃

Wordification 的吧你还可以做一些 refine 然后这里面把一些就是你可以就像就有点像现在就是我们有 critical model 或者说有这个 reward model 的一些就是引路然后配合来完完善你的签误操作的生成其实

还有一些工作比如说会把你的问题本身就去做一些 decommonization 然后你的 channel sort 本身也是被 decommonization 了然后这样其实都会提升一些效果然后就是在这些另外一大流派刚才我说的都是偏显示的因为大家都会去把认为我付出更多的 inference token 其实也呼应了现在大家提到的 scaling inference

啊 computer 这件事情就是我付出更多的这个 influence token 那么我最终就能提升 reasoning 的效果然后还有一个流派就是我做一些影视的强劲算这里有一些啊有一些可能最近一些 researcher 也在做就比如说像什么把什么 system 2 针对到系统 1 里面当然就是很难的任务确实还是很难做但是会有这个 research 方向就是大家认为说就是 transfer 我们的潜力还是很强大的包括我们人类在做一些很多啊就是

思考的时候其实你也没有很显示的有些就是脑海中的就是文字出来你就是在那想就是即使想但是突然在某一个瞬间你就想出来了然后呃就是这个过程可能跟前向一个影视的你还是不太可解释的啊处于这个这种这种 chance 的工作也会有然后呃这里我可能额外的说一些我最近的一些发现嘛就是包括就是如果我们把就是 reasoning 这个事情看成呃

就是跟比如跟签号色的非常相关那我们我们往往认为我比如说我生成的这个 token 更多那比如说如果我

有一个模型它的深度很深就是这个为 callback 那个就是泽远他这个 physical lm 里面提到这个事情就是他发现就是虽然我们做 skinload 的工作同学会发现就是说你可能你的总参数量其实会跟你的 loss 或者说更相关的或者是下一个表现但是在

就是 reasoning 这个 task 上他认为就是深入这件事情比宽度更重要就是你的模型越深越好然后这个感兴趣的就是 researcher 或者说就是 lab 也可以做这个实验去验证这个事情的确我们也看到了就是很多工作就是比如说最近的像 miniCPM 应该是 v3 还是

对他们的那个模型一个小的模型就但是虽然是很小的模型用了非常深的层就可能有 60 多层这样的一个就是就是可能业界会收敛到这样一个结论就是我其实即使在参数量固定的情况下我宁愿

牺牲我推理的我说的这个是 influence 的成本因为你越深其实你的 influence 成本是高的就因为你在做优化的时候肯定是宽的模型要比深的模型要好优化一些可是我宁愿把模型做深但是我做的更就是 layer 层数更多但是我带来了我的 reasoning 的提升然后我们在生成 token 的时候如果我每生成一个 token 其实就过了一遍层数对吧如果我们把我生成的总的 token 数

跟总层数做一个关系就是我生成的 token 越多然后并且我每个 token 过的这个层数越多其实都有可能提升这个就是 raising 的效果就至少看上去就是 channel 的本身是在增加我生成的 token 数但是呢如果我的模型又跃升了那两个成在一起就会相当于我 influence 的时候啊就过了更多的

就 token 过了更多的 layer 且每个 token 又变多了然后它成在一起你的其实 cost 就是会更高然后在这个层面上就是他们其实都有发现能够提升就是 reasoning 这个表现然后我觉得包括就像一些加一些 reflection 这样的操作就是其实以前在枪无措里面就有很多人做这个事情就比如说

因为之前 LM 最大的问题是不能够回撤如果我生成的 poken 已经错了我就没办法就是在纠正自己之前错误只能顺着这个错误往下举然后会导致很多 hallucination 的问题但如果我显示的去学这个 pattern 就是我允许你去 reflection 过去的问题我之前刚才

刚才我设置的是有问题的我继续去等于说给你一个回撤的机会然后把这种数据拍摄加到训练里面去其实也提升了很多在人物上的表现然后在某种意义上它也是增加了你生成的 token 的数码毕竟你还是在你反思的过程中其实引入了额外的客客然后但最终的表现我们看到的那么一个结论你提高你生成的 token 的数量无论你是通过

层数升提升了然后还是通过直接通过生成 token 数提升最终都能够在就是 reasoning 的表现上得到一定的提升

我请教一个问题就是前面说到 COT 然后在前面我们也聊过 MCTS 那么这两个概念总之请几位嘉宾介绍一下就是在 O1 这个框架当中它们的关系是怎么样的因为 COT 听起来后面的演化也有层数的深度也有 tree of thought 听起来和蒙特卡罗树的思想可能已经比较的接近了所以大家觉得这里的偶合会比较深吗

技术的发展它是一个就是相互影响的就是你在在不同的方向在做的工作最终会看到一些就是相似性然后尤其是其实这些工作应该是独立开展的有各自在因为你在研究如何我如何使用这样我所提升模型的表现还有一方面是从我从算法层面去提升模型表现但最终数途重归都可能看到了就是用一些就像 mc 这样的方式去做对

你觉得欧万他使用 trending thoughts 方式跟之前我们圈圈 LM 的时候他使用方式可能会有哪些不一样的这个地方

其实有一个很大的改变就是我们如果说其实之前闹过一个乌龙事件就是那个 reflection 那个 model 大家可能还有印象就是前可能两个月前在推特上就可能跟那个 Lava3V 一样就是相当于一个有点闹剧吧就是属于你你太你你其实只是 SFT 的一小部分的

reflection 数据然后 claim 自己是一个很强的模型但最后大家发现并没有那么好就是某种意义上是不太 honest 的一个行为然后但是这种 pattern 其实是有在验证的就是我们在 SFT 过程中比如说你就用一些 reflection 表现的数据并且这个数据的标准质量比较高就它跟传统的 Chain of Thought 你

我们一步步解决问题它是就是不带回溯的过程就是我并不会去反思我之前的问题出在哪里我都是执行的顺序是完全是

我下一步的结论就是一定是几乎是在我上一步上得出来的但是如果你有 reflection 这个操作其实就有很多回射的空间也许就模型在生成前 out of the 之前他其实很可能已经知道是怎么做的了但是在生成前 out of the 的过程中如果他犯错了他就没有机会再返回去了其实他也很痛苦但如果你给他 reflection 机会的话只要他最早他确定就能把这个问题解决他最终是能够把这个事情做对的

这个我觉得是欧望展现出来的 ChannelTotal 的例子和我们之前做 ChannelTotal 比较大的一个区别当然我刚才也提到在已经有一些之前做 Channel 的工作里面也有一些普通的思想想要做回撤这个事情但是你的回撤因为你是从 SMP 方式去学习的其实或者说你只是通过外部的一些 verify 的一些模型它没有 reward 那么强

没有那么强的 revel model 提供一个 policy 的学习然后我觉得会会弱很多或者只是学到了一个表象的一个行为就是我可以去回车那也许你学到后面就会变成你正确的也会去回车他只是学到了一个 pattern 而已他并没有真的理解自己在干什么就刚才呃可以说那个问题我我其实也想听听这个艾瑞克的这个想法

我觉得就是说其实这两个是有相关性的但也就像刚才另外一位嘉宾讲的有点殊途同归的感觉那比如说在 chain of thought 这边的话我们看到有很多衍生的研究比如说 chain of thought 是 chain 那可能有 tree of thoughtgraph of thought 这一系列的文章那这些他们也会

也是一种探索在当你的一个当你的 reasoning 的结构可能有很多个不同的选择的时候我应该选哪一个最好那 MCTS 作为一个比较传统的 planning 或者搜索的一个方法它也是去

估计在我有多个在传统的 RL 中我有多个可能的 action 去做的时候那我哪一个 action 可以有更大的 reward,更大的 value 所以这两个我觉得都是比较高相高度类似的只不过 MCTS 一开它的

它的发展路数是更多的是从之前 alpha0 那一块就是比较很 domain specific 下围棋然后发展起来的但是像我们现在 chain of thought 或 tree of thoughtgraph of thought 这一系列更多的还是基于这个 natural language 的情况下然后只是在 LM

这种自身演化出来的一个思路他们本质的思路其实我觉得都是一种如何去规划你的推理我觉得从这点来讲其实两个都是比较高度相关的这是我的一些理解大家其实都在猜测到底欧万里面有没有用这个 NCTS 我好奇你的猜测是怎么样或者怎么去怎么去做这样的一个猜测

我自己也不知道但是我觉得如果要用 MCTS 应该就是有两种方式去用一种方式就是我有一个非常好的 reward model 然后我在做我在做我的 thinking 的过程中我会不断的尝试各种路线

然后找到那个最好的一个路线就有点像你下围棋的时候我已经可能我们大家下到一半然后那我下一步应该走哪里我可能会去做一些搜索我可能我有五个不同的 next step 的 action 我每个都去估计一下他们可能每个能给我多少的 potential reward 然后我去选一个可以最大好 reward 的方向这就是 MCTS 如果在

Inference Timer 所做的思路我之前也读了一下你分享的知乎的那篇文章所以如果从这种我们有点 reverse engineering 的角度来看如果现在看上去它的如果看上去就是它的

time 和 token cost 是线性的话那可能它 MCTS 并不一定在这个 influence 的阶段我觉得它有种可能是在 data 处理 data 的阶段可能会用到 MCTS

比如说他自己的 reward model 他用一个 MCTS 的策略去找到他最好的一个 reasoning 的 data 来去教模型去学习或者训练或者说在 RL 的过程中去包括这个把这个搜索的策略加进来然后去帮助这个 policy model 更好去找到他最好的怎么去做 reason 怎么去做 reasoning

所以我可能如果让我猜测的话我觉得很可能是一个 MCTS 可能是在数据层面或者在 RL 的过程中的可能性会比在 Inference Time 的可能性会大一些 Call back to Kimmy 我们刚刚提到了这么多跟这个 O1 可能怎么使用 RL 的这个用法你觉得还有什么没有 cover 到的

我就可以 take a step back 跟大家讲一讲这个就二维域到底是个什么东西吧就是然后我觉得这样其实会让大家更好理解为什么二维域可以在不同的行业里面有它的应用

我觉得 RL in total stands for reinforced learning,强化学习,对吧?它是 ideally 需要这么几个 component,你需要一个 agent,就是一个模型,比如说在 language domain 它就是一个 L1,在 robotic domain 它就是一个,可以是个 physical robot,也可以是 simulation,altar game,也可以是 Google 做的 AlphaGo。你有了一个 agent 之后,你需要一个 environment 可以来 play 这个 agent,对吧?那做 physical robot,那有可能它就要跟它周围的物理世界进行交互。

但是物理世界是非常难去 model 的所以这是为什么我们到现在没有看到这个真正意义上的机器人被在世界上非常广泛地用但是我觉得其实这是未来非常有前进的一个方向我觉得 maybe very soon 就可以看到 robotic domain 的这个 GPT 3.5 的这个时刻

更 generalize 的一点的话,environment 比如说 Atara Game Go 为什么 RL 在这些行业有了最先在场子的发展因为这些是个非常 well controlled 的 environment 这些 well controlled environment 你可以理解成我 sample data 是 free 你做一个 LM 你要 sample 一下你需要 run 这个 LM 一遍,run 这个 LM 非常的 expensive 你要去通过 physical robot collect data 你要 run 这个 robot 一下,robot 可能今天撞坏了,你现在还得 collect data,which is very sad

simulation you can think about just infinite sampler, right?You can sample at whatever speed and whatever frequency you want.你可以 even sample even faster in time,你可以调成比时间快两倍的方式来 sample,这就导致了其实这个 simulation 是个非常好,perfect reinforcement environment,所以我们刚说的其实 recap 我们说了三个东西,你需要一个 agent,

which is you know you, 就是一个 language model 或者是一个, whatever model 对吧,你需要一个,

你可以玩这个人物,然后你再往下需要的是一个是个 reward 比如说你需要告诉这个这个模型他在做一步的时候他到底是好或者坏比如说这个你这个 play 个 artary game 就是赢或者输了是一个非常好的 reward 而且是个非常 deterministic reward 比如说你下围棋做 alpha go 的时候那你这个 go 到时候赢了或者输了这也是个非常 deterministic reward

然后把这么几点 combine 在一起的话早期 go 或者 altari 是个非常 control 的 environment 就导致了其实最开始的第一篇 paper 在 rl 上见到了长途的进步的就是 deepmind 的 dqn paper

然后再往后 DQN 的延续有各种不同的 DQN 的演化,大家不但只是在做 value function 方面,大家会做 policy network 这些方面,比如说这个 reinforce,然后大家说 OK 我不但需要一个 policy network,我还需要一个 value network,我就把两个 combine 在一起,一种 actual critic 的方式,然后这就可以演化成比如说 on policy, off policy,

这就是 deterministic, stochastic, 这个往后有不同的,比如说 deepmind 的这个 dppm,deterministic policy optimization,或者说是这个

John Schuman 就是原来 Lead Open-Eyed Alignment 后来 Translopic 的这位 David 我非常 admire 的一位 R-R researcher 做的 DRPO 或者 PPO 这些 paper 的工作其实 R-R 说到底已经很多年没有在算法上面有了发展了其实最搜查的一篇 paper 应该是

Sergey Levine 他们 lab 出了那篇 SAC 的 paper,那估计应该是 2019 年还是 2018 年的 paper 了,自此之后其实大家没有在 RL 的算法层面有了更多的长足的进步了,而现在大家就是在说 RL 在 specific domain,especially language model,it's a hybrid,大家就是在说 ok,how can I actually applyRL for better language model application,如果你往回看这个问题,对吧?

其实就是说我刚开始比如说你看这个 alpha go 大家就是说其实 alpha go 其实跟 language model 非常像 alpha go 有两个 step 有一个 pretraining step 他们都是当时要比较 pretraining 的 they call it imitation learning 他们 imitation learning stepthey learn you know how expert play go 他们估计也不叫 post alignment step 他们就有一个二维码的 step 就说 ok now i have a good base modelhow can i do better than human 这就相当于回到之前这个 Eric 和苏辉说的

我们可以让模型不但去 find itself, self play 然后在做了 AlphaGo 之后呢他们想说我们能不能把 pre-training 这个 step 去了对我们不要 pre-training 我们纯让他这个做二维码然后他们就做了一个叫 AlphaGo Zero 然后在 AlphaGo Zero 的时候我们能不能让他 play more than one game 所以他们做了个东西叫 AlphaZero 他们不但可以他可以下日本的将棋可以下围棋还可以下

还可以下一个什么棋我忘了然后他做了这个之后他们最终的 ultimate solution 是一篇叫 museo 的 paper 就是说你不但在玩这个游戏的时候你可以把怎么赢得这个游戏学会你同时还可以学个 simulation network 你同时你同时就说我 given 这个 environment state 和我下面要 take the action 我不需要去这个 environment sample 我的模型可以帮我 predict 下一个下一个 state 应该是什么

那如果你 make the same analogy 因为可能会想说那 LM 是不是有可能有一天我就不要 pre-training 了我完全可以用二维码的这个方式

来让他这个这个就像到最后做这个 alpha0 的时候完全让他就纯 selfplay 做出来我觉得其实这是一个非常难的事情原因在于原因在如果一个 R 是有一个 deterministic reward function 首先 language model 是没有一个 deterministic reward functionthat's the first drawback 然后 second 的话你需要一个 control environment 对对 altaria game 而言或者 go 的话会有个 perfect control environment

但你说这个 LM 是个 Asian,谁是 Emermant?那人是 Emermant,那我不可能一直在那陪这个 LM 去问这个东西,那他只能做很多别的一些 trick 来做 self-play,比如说两个 LM 互相在问自己,

那既然你缺少了这两个方向,那其实说 RL so far 只能说在 language model domain 做一个 alignment 的工作,而不是说完全可以纯靠 self-play RL 的 technique 来解决 language model 的问题。我觉得这是大概就是说 RL 的一个演化的过程,以及 RL 在 language model 上的一些应用。

可以讲一讲在 robotics 里面的应用跟在在 lm 里面的这些应用有什么你之前在做的这个 lmrobotics 的这种工作你觉得对你现在在做这个 lm 的这个工作会有什么启发可以可借鉴的地方我觉得这是个好问题我觉得 lm 是一个不一样的基本技巧只是说 robotics 或者 lm 或者说 game 是一个不同的应用方式你可以用 lm

然后你只是说你可以在这不同的 application 里面把这 application define 成这某个 state,一个 agent,一个 environment 还有一个 reward function 其实 overall 我非常怀念这个当年在做二维网的时光因为当年是个非常纯粹的 environmentit was so simple right, you just win the gamethe reward is that to determine this, you don't even think about this on a reward functionit's just so simple, I really miss the old days actually, to be honest with younow it's more complicated

但是正因为它有复杂性,这些东西可以更加大规模的扩展,不仅仅是玩一场游戏,因为这些东西的扩展性不仅仅是玩一场游戏,它有一个大规模的扩展,可以扩展其他东西。维修的方向,第一个是 Locomotion,就是 Stanford, Tony 他们做的。Locomotion 的工作其实更多跟语言模式没有直接的关系,因为它更多做这个 Local Manipulation,就是你需要人示范更多怎么去操作这个 robot。

另一方面,如果你不是做 Local Motion,你做 Planning 的话,就比较像 Google D-Mind,夏肥他们做的那些当年最早期的 C-CAN,就是说你需要 robot 做一个事,但你需要 Explicit Describe 给 robot 说我需要你做什么,而不是说 demonstrate 给它做什么事情的时候。

这些 planning task,这个 language model 其实是一个非常 popular 的 approach 的。比如说你看现在 DeepMind 的 robotic team 的一些最新的 paper,从他们刚开始说 C-CAN code as a policy,然后到后面的 POM-E 之后应该还有一些 paper,RT1,RT2,RTX,这相当于是两个不一样的在 robotic 里面的流派。

如果是纯做 local motion 的话其实跟 language model 本身没有特别大的关系更多就是 imitation learning 加上 rl 的 approach

这个 planning 的话,其实是基于 language model 的 base model performance 在上面做了一些 co-finding,就是因为 co-finding 的原因是你没有那么多 robot data,你不想纯 tune robot data,让它的 performance 被照掉,所以你会拿一些 robot data,就基本是 vision 的 data 和一些 dequeued task 一起来 tune 这个数据,然后他们后面也会说再去 collect 一些 rl 的数据来 refine 这个 model,

我觉得基础上其实没有特别多的区别,只是说区别只是你在一个什么应用场景,而且是这个数据是一个不一样的形式来体现而已,就它可能不是个 token,它有可能不是这是这个几万个 token 里面的 G,它有可能是一个这个 robot 的这个 motor 的一个 force,一个 torque,它有可能是个 sensor,

它只是一个数据在一个不一样的形式的表现但是它这个 back point 都是用了 transformer 的这个架构都是用了 RL 的这些 training 的 technique 来让这个模型可以更好的收敛来解决你的 specific domain task 刚才你也提到了这个 self play 到底它在 RL 里面这个是什么时候开始 research 然后现在整体行业里面的这个应用是怎么样的你猜测这个 O1 有这个有没有用到这个 self play

这个就不好说了,但是如果让我做这个事,我一定会去做,因为这是 self-play 是可以让你不断地去 scale 你的 refine 的过程。RO 最大的 technique 在于 RO 可以让你每一个 step to make incremental improvements,但是你需要,你不是说像 SFT 你 train 完一个 epos 就结束,你可以 train 无数的 epos,如果你有 preference data。

那数据 query 还在那你可以通过这个 query 再 run 一遍你的模型你如果要再做一次标注你可以把你这个 query 做无数遍的 self play 其实我个人觉得 self play 其实是可以 scale 这个 RO 的 training technique 在 language model domain 的一个非常好的一个 technique 那它跟前面苏辉就是我们讨论到的这个 COT 之间 reflectionCOT 之间是一个怎么样的关系呢

这是个好问题,我个人的感觉就是大家其实在说 COT 的时候更多的时候是一个 Prompting technique 就是说我希望 Prompt 这个模型帮我做一个什么事就是我怎么来 Prompt 它你可以用 COT 的方式来解决你的问题你也可以用 COT 的方式来产生 Sensitized Data 来 Train 你的模型但是这个 Self Play 更多时候是一个 Training technique 在你 Train 你的 Reinforcement Learning 模型的时候你想不想用 Self Play 这个 Technique 来不断让你的这个 Reinforcement Learning 的这个 Step continue 下去

我我个人觉得其实这是两个比较比较独立的 topic 不过 feel free to correct if i'm wrong 正好听听这个 Eric 说对于 COT 和这个和这个 self play 之间的关系还有你们对于他在

呃欧万或者说未来提升模型的瑞士领的能力里面的一个作用啊就地方与甘地州的一篇论文那那个名呃叫做这个 chain of thought empowers transformers to solve inherently serial problems 然后但他那个推特我觉得写的就在我那推特写的非常的这个这个这个很能抓眼球啊说 what's the performance limitwhen scaling lm inference sky is the limit

如果我理解对的话,其实本这篇文章其实是要讲说这个 COT 是如何让这个 Transformer 的这个能力这个更提升的,它跟前面 Kimi 提到这个 Self Play 又是怎么样的一个关系?我自己的感觉是 COT 和 Self Play 是两个相对比较独立的方法,

我觉得 COT 更多的还是说你这个思维链然后这些作用通过增加你的 Inference Time 的计算然后能够让你的模型能够去解决一些可能本身比较难解决的问题

我自己知道更多的有点像之前 AlphaZero 那边通过让他通过自我博弈的方式能够不断的去 incrementally 提升自己下午为期的水平

对于 O1 的话我不知道他们有没有用 self play 但是如果你看这个 MCTS 这个脉络的话其实我感觉在 LM+RL 的这一块很多的时候大家还是会

借鉴上一代 RL 的那些成功的经验然后借鉴在 LM+RL 的这一个方向上 MCTS 也是之前 DeepMind 做 AlphaZero 然后主要变得非常 popular 的一个方法我相信 SelfPlay 即使现在没有被 OpenAI 在 O1 上用我相信这也是一个非常 promising 的方式说不定可能

可能可能 maybe 大家都已经有很多人在研究我觉得我会对他的未来会比较看好是一个可以有点像是个模型 self improvement 的一种策略然后关于丹尼的这一篇 paper 我觉得

我自己我没完全读我只是看一下他的 abstract 我觉得这是一个理论理论分析很有意思的一个文章就是他能够告诉你就是就是整现在这个整个 AI 这个学术界我觉得

就是有时候是需要一些这些理论的文章来告诉我们我们的我们现有的模型它的 capability 的上限在哪里我觉得这是一篇对我来说我觉得是一个非常 insightful 的一个文章就是它

至少他能够回答一件事情就是说 Transformer 加 COT 这样一个架构下它的表达能力是非常强的当然我也看到也有人在讲这个可能和当年 Deep Neural Network 的时候也是一样的不过我觉得这等于是从数学上告诉我们

我们的上限在哪里那这等于是可以激励我们下一步就是知道怎么去设计更好的 COT 怎么去设计更好的 Transformer 的架构然后能够去更好的去

变成一个更多的像是一个从一个这个问题能不能可不可解决变成一个这个问题我们应该如何更好的解决一个问题所以从这方面来讲我觉得这篇 paper 是一个比较有意思的 paper 然后而且另一个我很想分析的 insight 关于这些 COTTrain of thought 以及 Inference time 的这种 skilling 的方面的想法就是说

更多的是从一个计算不可约性的角度来考虑就是很多的问题

如果想要获得他的答案可能是有一个 minimal 的 computation cost 的要求的比如说举个例子比如说你想要去模拟一个水流的流体力学的一个状态可能多少秒钟的状态那你可能必然而然的是在你要求的保证一定的精度下你可能

至少的一些计算的成本是有一个非零的下限的就是他你至少要花这么多的计算成本才能够得到这样某一个相对精准的一个答案那我觉得这个在这个 COT 这一块也是一个有点相对应的一个体现就是对于复杂的嗯

对于复杂的一些问题你确实是需要计算机去有一些更多的 additional computation 才能够去得到这样一个相对有进度的解释这是我自己对现在 COT 以及为什么大家会觉得它是一种 adaptive 的 computation 的一种概念的理解

我先呼应一下就是关于这个呃就是 sky 就这篇 paper 吧这个这些这个啊我觉得啊其实这个这篇 paper 在这个在推上还是引起了很多讨论然后像

呃田元东老师这样就是一些 researcher 也其实有点反对这样的一个说法吧就说他毕竟他说 claim 这个他的这个 claim 其实和那个两三神经网络能够拟合任何函数其实是一样的就是只是在自己在构造一个位置能够去拟合某一个 target 的函数但是其实你你理论上能不能达到这个 solution 或者说你能不能够找到一个更好的路径去达到这个 solution 都其实并不能去保证的然后就是其实相当于是说你你有一个穷举的办法可以解除

任何肯定能够就穷局里面总是解决这个答案的但是这个很不现实其实你需要的其实是一个有意义的以一针见血的把这个就是答案给出来的一个能力所以其实我其实也比较认同他的这个观点吧就是我们就是你存在一个答案和我能不能找我能不能通过我现在的方法去正确的求解方式去解出这个正确答案我觉得这个是

两码事情就不能说我随机出来一个能够存在这个概率但我就说我就能做到这个事情我觉得这个是不太科学的然后其实

在就是另外一个问题是关于 self play 这个事情我讲一讲可能其实在欧盘的官网上如果搜 self play 你可能是最早可能从 1718 年开始有然后到 2022 年还有一些这个字眼但是到后面就是包括欧望这个车它其实并没有

官方承认自己这样用但是大家都会去认为用了是因为新生代的这些人物就像诺姆布隆这样的人对吧可能他们之前做这种就是得普 AI 这样的就是通过 R 去做这种就是零和博弈的一些方式但是他们这些研究者他的他的 research 的品位和他的就是很

或者说他自己在一段时间内应该也不会大范围的去改变自己的研究路径然后很可能还是会用 self play 的方式去做包括他去年

有一个应该在 YouTube 上有一个视频是可能最近大家也关注到就是他在最后演讲的最后的时候其实贴了他自己关于那个 Cellplay in LLM 里面的一个结论他就是 claim 自己说他展望了一下就是如果你我们有一个很强的 model 那你必须要保证它的 generator 和它的 verifier 都足够的强才能够把这个事情

我觉得从时间顺序上来说其实已经到达了满足到他之前提的这几个限制条件所以其实这个方式用在欧网里面就非常合理就是这个逻辑推理就是 role model 确实会是未来很大的一个要去研究的方向然后正好 Acro 前面 Monitor 提的问题就是大家觉得欧文表现怎么样然后好像两位嘉宾的回答都是和比如说 mass reasoning 包括 toding 有关

我不知道大家觉得未来然后 reasoning 和 masterreward 都比较好定义就是它本身有个可以直接给一个结果说它是对的还是错的但其实别的领域就很难有这么明确的 reward model 不知道几位嘉宾对未来 reward model 它能不能泛化就是在领域上做到 stable 大家会怎么想是不是算好呢

前面两位嘉宾讲的就是关于 reward model 这个事情的话我觉得像这种 process 的 reward model 肯定是非常应该是被大规模就 open 被大规模实践过的就是从他从这个数学上包括他的后面的 critical gpt 这样的一些工作我觉得其实一脉相承你基本上可以做到就是我在

因为我们的机座比如说 GP4 已经是一个强 generator 的一个 model 了然后他这时候我的 verify model 也是基于像至少也是 GP4 level 的一个模型去训练的那很可能他的这个 roll model 也给出来的这个

虽然还是离散的信号但是他给出的过程是更加可知性的因为他可能会通过签误搜的这样的方式去给出更强有力的 confidence 然后最终给出一个信号其实某种意义上来说有点会摆脱之前 RHF 那种训练模式了我们以前 RHF 你得搜集一些其实是建立在一种二元的这种统计模型上就是那种 brotherly territory 这种模型

你一定要 collect 一些偏好的数据要么是多多个排序或者至少是两个你有一个 AA 大于 B 大于 C 这样一个排序至少然后但是如果你是走这种模式的话就刚才我说的强 Rubin 从 ChannelSoul 去 Rezonance 给出一个结果它可能不需要这种训练 pattern 了它可能就是一个非常强的

就是通用模型然后但是我的主要用来目的是为了打分但我这个打分很可能是就基于我自己的一套比较强的这个 bump 的规则然后并且我应该是通过自己的这个 channel source 的一个就是生成的这个思维链然后去给出这样一个结果所以我觉得有可能这里是一个不太一样的地方

确实我很赞同 reward model 是一个被低估的一个问题尤其是考虑到不是看这种数学题或者 coding 这种有些 checkability 的这种比较容易去 verify 的情况所以现在也很多人在考虑就是 AI feedback 这一块因为我们希望在有一些情况之下某一些领域中 AI 确实能够给的 feedback 比人类会更加的

Effective 比如说考虑一个今年的场景就是我要写两个科幻小说那我可能写了两个版本哪个更好那对人类来说那要读上几百万字的话呢其实比较难一些也花很多时间但是对一个 LM 来说的话它可能可以帮助你去

很快的去做一些这个数据的 processing 然后能够去理解这里面的文本然后帮你去 summarize 所以我会觉得未来的一个一个 scalable 的方式是 human in the loop 的 AI feedback 就是在面对一些人类相对比较

花很长时间或者说可能一般普通人不一定很容易去找看出 preference 的情况下能够借助 AI 帮你去把这个难度降低到一个人类可以去探测可以去理解的难度然后人类再给出自己的 preference 我觉得这个可能对一些领域会是一个更加 scalable 的一个方式

几位帮我们把几个单点的技术慢慢拼凑成了一个比较有全景的感觉然后正好基于这个想再问一下最近还有一个大家讨论比较多推特上也有人在争论的问题就是大家觉得 O1 是一个单一的模型还是它可能是一个 multi-agent 的多系统

因为其实一方面我们看到 OpenAI 的 AMA hour 他他会说哎我们只是 one modelone model 但是与此同时呢 Noron Brown 正好前面苏慧提到的这个年轻学者他最近在招聘的一个掌位就是 multi agent 呃

做 reasoning 的 research 然后 actual 到前面大家一直提的 alpha go alpha zero 那套系统其实它一个 network 也不是也不是单目标的同时有 policy network 有 value network 那么它同时在做执行任务和评估两件事那么不知道几位嘉宾看来欧文如果要去复现的话有没有它可能它是一个多模型组组起来的系统还是它可能就是一个神经网络解决了所有的问题

存猜测不用为猜测结果负责我们今天看到知乎上面有一篇也是猜测文章他说我这纯猜测要按照这个训练把公司把把公司顺倒闭了我不负责所以大家只是只想听听大家会思考这个问题的这个思路而已

其实我比较同意就是之前 Eric 说的就是 OpenAI 讲的五个不同 level 的这个 AGI path 那这个第一个 conversationer 第一个是叫 conversation 已经做完了对吧那现在它是第二个 level which is reasoner

我个人觉得如果根据他的 road map 而言的话我更倾向于 my personal opinion 是一个他是一个单一的大模型不过 the next one they're going to release 我觉得有可能 highly possible 是一个 multi agent 的模型或者 at least 是个单一 agent 的模型你觉得这个是更从这个这个这个效果或者说 open as 这么一个技术审美路径的角度去去猜测的

对,我觉得更多是从他的一些 strategic 的方式来做吧,我觉得更多时候是,我觉得 one thing at a time 吧,就是你可以首先做个非常好的 chatbot,就是一个很好的 base 模型,你有了 base 好的 chatbot 的模型之后,你可以用它 prompt 出来很多 raising 的数据,OK,你可以做很强的 raising 的模型。

但是 reasoning 之后你可以用更长的 reasoning 来做更好的 tool use,那有可能和 function call,你有可能可以做到下一版的模型。我觉得我更倾向于就是 open-eyed research 的 direction 就是说它不是一种 over-engineered solution,

我觉得 so far 大家还没有找到一个怎么去 train multi agent 的最好的一个就是在 multi agent 的在 LM 应用做多 agent 的这个我从前说的大家还没有找到一个非常好的去 train multi agent 的 LM 的一个方式吧我觉得我更像倾向于说他可以先 solve the low hanging fruitlet's just get a strong reasoning 模型他基于这个 base 模型他可以做他下一步的东西 and eventually 他可以 follow 他的 road map 来达到他想他心目中的这个 level five

我用 Google 搜了一下所以大家觉得我们现在就是在还在 Listener 跟 Agents 的阶段对我觉得有可能属于这个 2.1 到 2.5 的这个状态吧其实 Multiagent 原来我们在应用层面说的会比较多一些

应用层面用 multi-agent 这种架构来去做的时候也会遇到一些这个反对声音是说我之所以用到 multi-agentwhich 就是增加了这个整个这个系统的复杂性然后你中间的很多通信其实有可能又造成很多浪费本质原因其实就是你的这个 agent 自己本身不够牛逼如果你有一个很牛逼的一个 agent 的话在很多场域下其实你并不需要 multi-agent

最近大家在谈论 robotist 还有这个 self-driving car 还是否要用这个 end-to-end 的这个 model 来去来去取代原来这个 model 的这个 system 我好奇在这个这个这个路径选择上的一些 tradeoff 我觉得大概有这么几个问题需要回答一下就是我觉得首先就是我们可以 go through 一下这个 multi-agent 这件事情的 history 吧我觉得这个 multi-agent 其实也是就是 classical RL 的一个 topic 了

我觉得最 famous 的一篇 paper 应该也是就是这个 david silver 就是我非常 admire 的 research 的一篇 paper 叫 m a d d p g 应该叫 m a multi agent deterministic

multi agent deterministic policy optimization,就它相当于说我们之前说就是说你可以做 DDPG,deterministic policy optimization,就相当于说你只是在一个 environment train 一个 agent 做件事,MA DDPG 说你可以 train 很多 agent 来做一个不是 zero sum game 的一个 collaboration task,那它会中间有一些很多的 complexity 了,

他做了很多的简化,otherwise 我记得如果你不做这些简化,他有可能就是一个非常 computationalize,invisible 的一个问题。我觉得这是 multi agent 我知道的一些 background,有可能在此之后也有很多 multi agent 的 research,然后我其实在 MADDP 中没有再去 follow 这件事情。然后说完 multi agent,我们再说一下 multi agent 的 language model 的应用。其实就是说你可以 prompt 一个模型来做一件事情,你可以 prompt 这个模型说,OK,in step one,

putting your genitive model hat on generating this right 然后你可以就是说你把第一步做完之后你称要造的第二步你跟他说 ok now put your critique hat on you know helping critique your own results 然后第三步的时候说 ok give me a summary 第四步的时候 ok think very carefullyif you think everything is rightlike give me a final resultotherwise go back to step number one do it again 其实你可以理解成他其实中间这一个模型干了很多的事情对吧你可以理解成是其实是 more or less 你不能叫他 multi agent 他其实是 multi task 对吧

但是这个 multitask 的时候这个模型有可能他没有办法非常容易把它的 vanchom 就是他现在做 generation 再到 credit 给他转回来大家现在做的 multiagent 都是个什么东西呢在 language mode 就是说你 put 的不同模型的这个 persona 啊你就说这个模型就是说 assume you knowyou are a generatoryour task is just generating things 当他把东西 generate 完之后你会再问一个 separate 的模型这个模型 just scan 我就做一件事情 which is just critique the results 我觉得这事就是说

这个这个 language model 就是说如果你想做 multi agent 的一个一个一个一个一个应用啊就是我其实 so far 没有没有有可能我我没有 follow the most frontier of the multi agent research on on language modelbut i think that's a very interesting directionespecially 就是大家想做的下一个 level 是 agent 的东西

我其实更倾向于其实短期我们更多是可以看到一些 single agents 的这个 breakthrough 就跟传统业上的 RO 一样因为 RO 首先的 breakthrough 都是在 single agent 的 breakthrough 出现的然后在 single agent 的 breakthrough 的时候你有一个非常强的 agent 其实有可能你会非常容易犯话出用用同样类似的训练方法来训练是 multi agent 的这样一个 summaro 听听那个 Eric 是会对于 single end to end ormulti agent 的猜想

关于 O1 的话我的猜想比较保守我觉得它可能是一个 single 或者两张 two agents 之类的一个情况但是应该不会不太可能会是更多的一个 multi agent 的一个 system 是因为我是这样思考的因为刚才 Kinney 最早也聊到 Let's verify step by step 这篇 paper

以及之前 OpenAI 也做了很多关于 reason verify 这种两个 agent 在解一些数学或者 coding team 的这种 framework setup 所以我觉得可能 Boss 的估计我觉得 O1 可能它大概率可能只是一个 single agent 但是有可能它可能在 influence 的时候或许会也 incorporate 一些比较 light 的一些 verify 或者 light 一些 reward 在里面

所以这是我对 01 现在的猜想然后 Monica 刚才你的有一个问题问得很有意思就是说在未来那如果一个为什么你问到就是为什么就是大家一个 challenge 对 multi agent 是说是说应该 single agent 不够强大我觉得这个是要看这个 single agent 的能力的现在的情况我觉得是

以及未来很久的情况我觉得都是 multi agent 应该会还是会 outperform single agent 的能力因为可以考虑即使我们现在人类也是需要多个人相互合作分工然后做出来的事情一般会比一个人会做得更好一点不只是普通人类包括像爱因斯坦那种来我爱因斯坦也会 make mistake

在就是我因为是读物理的 PhD 所以我知道上个世纪做 Quantum Physics 可能有一堆人然后真的真的是合作分工然后才能真正 Build up 这样一个物理的理论所以我觉得即使你的我们的嗯

或者说至少我们的 single agent 到达 Ansight 那个智商水平之前还是 multi agent 肯定我相信会比 single agent performance 会更好一些因为他有不同的 perspective 可能每个人有不同的思路那你说在这之后那如果是一个非常 superhuman 的一个 single agent 那他和 multi agent 的比较我觉得 eventually 可能

可能一个 single agent 他可能如果他已经非常 powerful 他能全职全能这就是一篇哲学上的问题那可能最终他的演化形态又会回到就是一个 single agent 的情况这是我自己的一些思考

在我看来我觉得没有必要去怀疑这个事情他们都是一个 model 一定是一个 model 包括之前 fo 是一个断断断断的 model 我觉得都是而且包括现在越来越多的证据也是其实能够呼应这个事情的我个人倾向于就是就相信他们一定是一个模型这件事情

然后至于多模型在现在这个阶段的确是就马来也能够就是提升很多任务上的表现吧然后同时有很多之前做雷震的的工作或者一些开放都会尤其是在一个正式工作流里面会设定各种 rules 一起去配合解决我觉得都是这个阶段

我比较倾向于是过渡阶段的产物就是如果大家的目标是星辰大海就是 AGI 的话最终的模型我不觉得是有多个 AGI 模型去工作的它可能就是一个一个 single model 去处理所有的事情全知全能的

其实大家会用 Varity Agent 或者说一些 Ruler 去做一些事情呢还是为了解决一些 corner case 或者说解决一个是就是你有一些中间推移的过程不稳定的情况你主要是要强行去加一些这样的辅助操作吧但我认为这个

就还是像我刚才说的这都是过渡时期做的事情就像之前呃我我看到有一些工作过距离就比如我们之前讲那个 tour use 的时候就是比如说你给一些 function call 或者是 tour use 的说明他并不能够那么好的去调用因为他可能只是因为这个 tour use 或者就是 function call 只是解释了自己的这个功能他可能很多人呃就是模型并不能想到原来这个也能做那个事情但是所以很多有一些 agent 优化的工作就会说我还

有另外的 agent 在旁边一直在根据人类使用的一些模式和一些用户去使用持续的去 summarize 和 feedback 然后把这个添加到 prompt 里面去然后等于说完善了对这个 function 或 tool 的一些更多的说明和调养的可能性但是在 O1

出来之后我觉得有很多这样的 case 都会被取代掉你没有必要再做一个像额外的工作去 summarize 去再去添加了因为其实模型能力够强他就能够自己去知道我百分百的正确的去调用

最近有一个有一个这个 project 就是用这个欧万来去玩黑神话这种把游戏跟这个 lm 结合其实也不是个新的事情了最近的一些呃用这个 lm 有更强的自己能力的 lm 用它来呃玩游戏有没有让一些你觉得特别 impressive 的地方那反过来游戏来去做呃来来去做 train 你生成数据这个事情呃有了 a o o one 的这种新的方式以后会对于进一步提升还会有什么帮助吗

我其实也看到这个新闻然后我去搜一下那个 paper 就是他那个应该是只用了 follow 道对他的他的原理就是把那个游戏的截图做输入然后用一个 vision 那个 model 去推理然后生成一个 python 的就是代码形式的一个动作然后来操作这个游戏现在这个你要是用这个网络估计他的这个成本也太高了

AI 做游戏比像像欧派最早就是用大这个打打多塔对吧然后还有做打星际争霸的什么的就是其实

往往就是以前大家都觉得是需要用大量的对局啊然后从我想象中去去去就是呃我觉得这个呃但是之前的可能都没有做到像包括我们刚刚看这种就是基本上是用纯的一个来个力摸的就是说也能够去玩游戏就是这个我觉得还是不太一样的就是以前大家都是呃你

你不是接触 Line and model 在玩游戏你只是自己去定义了这个游戏的各种空间然后你自己去搞一套就是很 pure 的巧克力的方法去做这个事情但是其实这这次我们

看到这个黑神化这个 case 其实是一个非常特殊的 case 他就是他并没有去额外训练这个模型而是拿一个已经训好的两个模型来做这个事情就是出乎人意料的就是你的视觉文本的理解其实已经非常强了我觉得可能再往下一步的话可能有一个更强的模型去玩我们之前就是通常就

我们人类爱玩的游戏很可能都做到比人类玩的还更好而且是我是指的他并不需要在游戏上去训练这件事情我觉得达到了一个还不一样的分水岭了

嗯嗯哎但我这因为前面大家提到就是说这个接下来要用更多新的类型就 multi step 的这种这种数据啊所以我就好奇在游戏中玩去 simulation 的这种场景里边是不是相对来说更更容易收集这些 step by step 的数据对肯定是也容易会

比更容易一些对然后但其实就跟我们呃就像早期 alpha go 他也是离不开人类起谱一样到后来就是到 alpha zero 时代就是完全不需要人类起谱这件事情然后像玩游戏这种呃像比如说或者一些开放世界的游戏你可能一开始是如果你的路线也是像那样就是 alpha go 那个路线你肯定是需要人类的这种 step 的的操作记录然后去把这个呃

除了自己去学习但是如果到 Apathero 那种状态你就应该只是一个开放视觉然后就只输入动作然后完全是从零开始自己的探索这个我觉得是两种不同的方式

用大模型玩游戏我觉得这是一个非常有意思的点主要是两点第一点我觉得这是一个很印象深刻的一件事情就像刚才苏菲提到的就是他其实并没有专门去训练一个模型用 ARL 去训练一个模型然后去玩游戏

这是之前 Google 的 Demine 打到它他们那时候那种思路这个我觉得能体现的一个 LM 很厉害的地方就是它是完全纯靠自己的 In context learning 的能力去做一个 Sequential decision making 的问题

我觉得这个很 impressive 就是能够已经能够就是这更多的展示的是这个 Foundation Model 它能够做 planning 的一个能力它能够去规划当我打这个小怪兽的时候我应该什么先做哪一个 action 再做另一个什么 action 会能够去最终可以去打得过我觉得这个是能展现就是不只是

image understanding 而且更多的还是能够去有很好的决策的能力这个是我觉得非常 impressive 的然后用 gameplay data 去获得更多的数据这个

之前应该也是 Jason Wei 他也做过一篇文章是去学习真实事业中的偏物理的一些的知识他们也是用一种偏就是物理的 simulator 的 engine 去做得到一些 signal 去做这件事我觉得更广阔来说对于一个

对于一个 AI system 或者一个单一的 agent 当他和开放的世界去 interact 的时候我觉得这个里面收集到的数据是更加有意思的而且就是这边得到的一些 feedback

也是能够比较好的产生一些 reasoning data 因为不管是 gameplay 还是一些开放世界中的一些问题它其实它的一个共性是比较容易去

检测它最终的结果的正确性与否就是它不像是人性反应只是告诉你配合性比那个更好像打游戏它其实和 Coding 和 Math 比较相似的一点就是说你能够知道最后你赢了没有还是输了没有我觉得这种非常清晰的信号是可以帮助就是帮我们去更好的 Synthetic 去产生这些 Rhythm 的数据还有 Planning 的数据

对这是我的一些想法哎现在在这个大模型的训练中大家在这种 gameplay 数据用的用的多吗呃我我我我自己目前没有看到有很有很多人在用这一块我觉得这个可能也是对也是大模型现在的主要想提升的 capabilities 比较相关吧因为我不知道 openeye 或者别的公司怎么样感觉 google 因为还是

比较看重于自己现有的一些产品那在那些产品线上去做提升可能更优先级高一些那我觉得这是一个比较有意思的方向可以去尝试大家都提到这个这个大部分新公司都看见 Synthetic Data 我也以为会有相当一部分是从这种 Gameplay Data 里面出来

我目前感觉 Synthetic Data 更多的产生还是去 activate 一个 LM 或者 activate 一个 AIME generation model, generative AI model 可能

比较少看到能够有一些 simulation 的 data 但是我觉得像之前我们提到过一些 multiagent 或者斯坦福小镇这些我觉得未来这是一种可以去 simulate 的一个 society 然后这些 data 可以去产生的一个更好的方式比如说 either 通过 multiagent 做 simulator 或者你的 game engine 做 simulator 或者你的 physics engine 做 simulator

大家也感受到其实我们今天邀请的两位嘉宾在在在 Iowa 包括 NCTS 这些领域其实都有很深的这个都有很深的研究其实前段时间大家也这样拿出来讨论的是说其实 Google 其实比其实也更早的其实就开始了跟我们现在对于欧万的一些路径猜测很像的一些研究比如说

包括大家最经常提到的同就是在应该也是今年发布一个 paper 是 google deep mind 的一个 paper 这个 scaling lm test time computeoptimumoptimally can be more efficient thanscaling modelparameters 就是可以说是跟这个 open eye 在这种 inference time 的这个这个 scaling law 是有一脉相承的关系因为我好奇这个在这几位 researcher 是

怎么看这个关系似乎就说明其实这个研究路径其实是找研究方向和成果其实在 google 已经早就开始了为为什么会是 01 这个法 open i 先去把它给这个 deliver 出来的呢啊我就我觉得我就简单一句话这个概括然后说剩下的留给大家脑补完那就是如果我们做个 analogy 你说 transform 是 google 先出的对吧 google 不能出但是 gpt 是第一个 open i train 出来的

那我觉得大家可以自行脑补身下来为什么这个他们首先发布了欧万而不是我们对吧这个这个工作在欧万出来之前我好奇业界对他对的关注度和评价是怎么样听起来并没有怎么受到关注

哈哈哈哈一时语色是吧嗯我有可能就是听到过这个类似的这个呃大家做的就是这种这种这种小的这种 research 比如说你看这些 google 的 paper 其实在一个 specific domain data 在上面做出来其实说 reason helps 对吧

啊我没有看到就是一个非常 large scale 的来来尝试这件事情 over 就是就是你看这些 paper 在每个小的东西里面都 work 说哦 ok if we scale it is going to work 我不知道有没有做这种尝试嗯

明白就是说他只要要得到在 scale 的这个场景下的这个这个那其实还是需要能够在内部拿更多的资源他才能够进一步去证实这个这个事情就是放的门的 whether you want topublish a paperto prove it working on a data setright it's it's very clean data setor you want to actually really solvinga nasty problemand then scale it 10 x 100 x 就是需要不一样的一个一个 mentality 的东西吧

我觉得提升 influence cost 这件事我之前在 Google 内部看到有几个都是在有相关的一些研究但是确实 O1 出来之前我也没有关注到这篇 paper 这篇 paper 感觉它给了一个比较更系统的一个分析就是不同的提升 influence cost 的 strategy 的对比我觉得这篇 paper 总结的蛮很好

不过确实在这之前我一直是在 Google 看到一些比较相对零散的一些独立的一些 research 分析不同的每个不同的独立的 strategy 我是不是可以理解接下来因为 O1 出来所以都变成一个大家有共识的一个路线一个追赶的路线对我觉得应该会

我觉得是两部分来走如果从一个 research 的方向来讲我觉得如果 O1 PR 宣传的这么好那肯定 Google 也会去下一步我觉得这很 natural 的一个想法就是 Google 也会提升自己模型的 reasoning 的能力然后尽快的和 O1 差不多甚至更好

另一方面的话就是说这个 skilling inference 的 cost 其实对于一些

应用场景是并不适用的尤其是对一些对 latency 要求很高的场景那可能在这些去做商业化的情况下可能反而不一定会就是大家那么的 exciting 可能大家更加 exciting 的还是说或许是就是 Germany 或者自己的一些能够在自己的 domain 的 performance 能够更好一些嗯嗯

同样从大厂的角度这个苏辉有什么补充吗对就是我觉得就像就是刚才 Eric 说的就是这个延时是一个还挺致命的一个问题就是如果说找到一个应用的方式能够让用户都能接受我需要等待比如说 10 分钟 20 分钟或者更长时间但你最终

就是替我完成了一个很好的任务或者是这个产品设计上做了一个什么样的动作需要很多离线的操作什么但是最终就是效果很好我觉得这也是也许是可能会有一个新的产品机会在但如果是现在形态的一些产品我觉得都包括像什么 JS 扮演或者是

可能像我在通用的 chatbot 的这种产品就我觉得会比较难然后如果说呃但是如果说有办法能够把像这套训练的逻辑训练框架呃能够迁移到比如说我们都是在呃提升一个 parallel 的边界是吧就可能是之前是呃就是安全和一些比如说这个

推理能力的一个 trade off 但是现在通过欧网的方式能够提升这个编辑我觉得也挺好就可能你在自己的应用场景下比如你需要的是安全和角色扮演能力然后本身是在 trade off 的但是你通过呃像欧网这样的人方训练的训练方式能够让自己提升这个呃就是上线我觉得也是 ok 的对

前面大家问的 latency 的问题还挺有道理的,因为我自己用 Tresor 接了 O1 也是这种体验,就是因为它和 Tresor 之前那种很快的 auto-completion 包括 tomposer 的体验完全不要,它要想很久,所以就需要性能提升很多才能够带回来这个时间上的 trade-off,

然后当然这个我觉得更多是从大厂和商业化的角度我就想 follow up 问一下大家如果从不论是大厂还是甚至整个太原社区当时 GPD3.54 出来大家可能都以半年甚至一年的时间才慢慢追上这个技术那么大家觉得 O1 这一套用 RL 去提升 reasoning 能力的技术从整一个 AI 社区去追赞的角度来说它会不会比之前来得更快

就是这种新的范式出来那它对于追赶者来说啊意味着什么其实我觉得啊我我倾向于认为是更难了因为某种意义上来说就像我们刚才说你你其实是站在更强的机座模型的基础上去做这个事情的就是你如果是一个弱的模型你就不会有一个很强的 reward model 那么你去做这个事情的收益其实是极低的你可能泛化的

可能性都很小然后第二个事情是其实可能也看到了就是关于在就是你在训练过程中尤其是尤其是如果假如要用像 MCTS 这样的策略的话其实它是一个非常 GP Pro 的 Inference Time 的一个训练方式就是你的 MFU 或者是你的 GP 利用率是极低的然后你

你绝对你可能你可能很难像现在大家训练就是一个不管是 dance 或者 moe 你看看你级别率还已经做到一个相对还 ok 的状态那它带来的 computer 消耗其实不会比 pre-trend 低甚至有可能会更高那对于现在就是有这种资源去做这个事情的公司其实还是又是更大的挑战就是你的算你的消耗可能就是你 double 了你 pre-trend 的算你的成本然后我觉得这个对很多公司来说其实是一个挑一个挑战的

这个关于 GPU 利用率低反而对资源消耗更多这个想再 follow up 一下能不能解释一下这是为什么会 Rio 这一套会带来这样的变化

因为其实你需要的是在你比如说你一些 sample 的动作其实你就是在 decode 然后不管你是显示的如果你显示的把它 decode 出来其实大家如果现在就是做一些 decode 的会发现你 decode 的时候你的机器用力肯定是比你训练的时候是低很多的所以你就需要把这个的动作然后又要结合到训练里面去这个过程其实是会很慢的就一个等待的动作

嗯哎其实刚才所谓提到就是这个对于算力的这个这个要求 pre-chain 可能我们需要是对算力要求很高但那个时候可能都需要的是非常非常非常非常强的这个训练的芯片同时又是同时要非常非常大的集群你看像 xa 呃买塔都要做 10 万的集群

那在 post train 的这一种阶段虽然他仍然需要很多算力但是如果说他更像是 inference 的算力的话那是不是相对来说我对这个卡的性能的要求以及我这个集群的大小是不是相对来说就要求没有那么高

我觉得是一个很大的工程挑战其实我们在说 influence 的时候并不是说我把这模型迅完了部署的那种 influence 它其实是迅推一体的你某种意义上说你如果用的是现在如果我迅完一个模型你是可以接受用一些没有像训练卡那么好的卡去做推理的吧因为你的成本会更低一些但是

因为因为你对你的计算的要求没有那么高你可能需要在通信上做一些处理就行了但是如果你想要就是尤其是你想要在这种呃就是规模化的情况下去训练因为这件事情是嵌在你的训练的过程里的不是说我推理出来这个文本

然后把这个文本再拿到另外一个机器上去我觉得这个不太现实或者说它有很大的这个工程挑战所以就是大家肯定还是拿这个最好的卡用来做就是二的这套训练我觉得任何一个 task 都不可避免的不逃开那几个就是大的步骤是吧就是数据模型和训练框架我觉得这个这个刚刚苏慧晴说了在这个训练上就是算力方面的一些一些挑战

就是然后说过也他知道了这个这个这个 base 模型其实你非常难 access 到最这个开源的搜他的模型我觉得现在开源最搜塔的是啥估计卖他的 405b 吗嗯还是什么别的然后呃就是你需要 pick 就是就是其实这是一个非常就是 ok 你比如说你在 google 你在你在 opinion 你穿出来就那么一个最大的模型你 you you just you knowthere's nothing you need to even think aboutwhich bought base model to use rightbut 开源界有那么多 base modelwhich is a good base model to use

有那么多没有被 open source 的这些 base model inside 这相当于说其实有可能你就选 base model 就已经走了很多弯路了最后就是数据这方面吧就是你也可以看到 OpenAI on purpose 把这个这个它的 reasoning 的东西其实是 hide 掉了然后它相当于只是把这个

只是把这个就 raising the sunrise 给你了对吧嗯我觉得他做这个目的在于其实我觉得就是说如果你有这些 raising 的数据其实有可能是会比较容易去这个事情但是因为没有这个 raising 的数据你要自己去从头去研究这个事情所以说我其实觉得 overall 也是一个非常 challenge 的事情

但是如果把这三点其实都是很挑战的话其实我觉得 may be 作为一个追赶者这有可能是会更难的一件事情不过就是你刚刚说你刚刚说苏辉他们是个追赶者对我们我们又何尝不是个追赶者呢对吧其实我们也就是个追赶者现在 Eric 怎么看的我觉得这个难度和之前 GBT4 出来的难度都很难但是他难度的点不太一样当时 GBT4 出来的时候属于

OpenAI 一家做出来了 Multimodal 的模型但大家别的都还没有做出来而去 Enable Multimodal 这个事情是

pre-training post-training 都需要去做的不管是 pre-training SFT 还是 IL 它每一个训练的 stage 都需要去做这个事所以它的难度是在于去在每一个 stage 中都要把这些 multi-model 这些 understanding 这些能力都做进去主要难度在那里

但是这边的我觉得 O1 的难度在于一个就是刚才 Kimi 和列和其他嘉宾也都讲了是数据上的问题我觉得这个数据就相对来说更加难了因为怎么得到最好的 reasoning 的数据这个我们之前也讲过它比起就是 outcome 的一些 human feedback 来说其实它是一个更加重就是

如果你要人去暴力的去搜集的话是一个更加耗费资源的一件事情然后另外一件就是说它的真正的一些实现方法其实我觉得不像去年就是

从 text-only 变成 multimodal 的模型是那么清晰因为那个时候大家已经知道有一些怎么做一些 modality fusion 然后怎么去处理这些的数据集和一些比较相对大家已经知道的方法但现在属于就是大家还在猜测它到底是怎么实现的以及猜测它背后的

原理是怎么去做的所以我觉得难点可能是在于真正去第一个拿到这样一个数据把这个数据先建立起来第二个就是说能够去因为有很多的可能的实现路线所以说哪一个路线是最优的这个可能需要一些更多的 research 的一些的投入

当然对于小对于中小公司来说我觉得另外一个差点就是说啊这一块的重要性因为我知道之前很多的呃很多的

创业公司或者资源没有那么丰富的公司都不会去做 RL 而是会用 DPO 等等这些比较偏 off policy 的这些方法但是如果 RL 现在已经被强调的这么重要那么一些 online 的 RL 的方法或者是不是我们真的有必要必须得去做 RLHF 而不是去做一些 RLfree 的一些的方法我觉得这可能也是一个对小公司一些 challenge

呃如何要追赶欧万你觉得最容易被大家高估和最容易被大家低估的是是什么

我觉得最容易被低估的还是数据层面尤其是怎么去判断你的 reasoning 好坏的数据层面这个的数据我觉得是非常难拿的就是以前如果做 RLHF 去得到一些 human feedback 你觉得就是有些厂可能或者有些创业公司还是能够去做这件事情的话那么去得到

很好的很高质量的 reasoning 的 feedback 数据时我觉得难度会更加高很多那我觉得这个是训练出来一个好的 O1 模型的气势然后我觉得比较这是我觉得比较低估的一个点高估的点没有什么高估的点没有被高估的难就是难难就是难这还是一个难的问题

好的好的那这个呃思辉聊一聊呃我其实之前也讲过我觉得大家也是偏低估吧就关于工程上的挑战训练工程上的挑战其实还是很大的以及就是你如何有更好的你要站在一个 gbt4 level 的模型上而且并且你要掌握训练这件事情才能去往下走这一步所以我觉得现在

可能我看到的一些啊就是观点我认为很多人是低估了这个难度啊其实我觉得我非常同意这个艾瑞克而是思惠说的我就我就做个总结我就说他既是一个 science 非常难的问题也是个 engineer 非常难的问题就是这个 science 难的问题在于你怎么去这个 future 好高质量的数据但是这个这个 engineer 非常难的问题就是相当于现在他不单单只是个 training 的问题了因为你 train 中间也得 inreference 相当于说你现在是

必须是六边形战士没有单腿的才能把这件事情做出来

我们聊了很多解读也聊了很多这个猜想的我觉得最后我们就聊一些这个对未来的一些对未来一些期待吧就听一听大家觉得说看到这个 O1 展现出来这个新的能力了之后未来一年和未来三年大家最期望在这个领域看到看到什么然后你觉得还有哪一些还有哪一些这个难题是你最希望能够看到被解决的

我觉得一年之内我的期望是我觉得 coding 有可能到处成了一个 commodity 了谁都可以写代码我之前跟我们组里的 PM 聊他说对我可以用 cursive 自己写个代码不需要你们帮我做 prototype 我说这是他只是开玩笑的就是他自己做的一些 home project 就我觉得一年之内我觉得有可能 maybecoding can become a commodityeverybody can just write code

三年的话其实就像就是我开头说的嘛其实我是一个 robotic by training 其实我非常期待这个大圆模型和 robotic 结合的这个领域可以有更长足的进步 especially 就是这个 embodyment 的这个方向 but we'll see

呃一到三天比较难解决的我觉得还是就是呃懂命数据的问题吧其实 you know most of the recipe is there on the table 对吧就是这个大公司里面其实做的我觉得开源阶段都有 more or less the same replicayou can you can pick the the recipebut you know

你现在有 a recipe you need you need you know the raw material to cook and then the raw material here is data 当你就是难解决的是如果这个 domain 没有非常好的数据或者这个数据很难采集或者数据没有被 digitizeI feel it's a hard problem 我觉得就是回到我之前说的 embodiment roboticit's kind of

hard but not that hard 就是对于 robots 而言他的数据其实还没有那么被 well digitalize 但是他开始被 digitalize 了就越来越有点像那个那个怎么说呢就 gpt123 那个那个那个时刻大家在不断的开始 scale 这个这个这个这个 data 的这个 quality 和这个 quantity 所以我其实非常期待就是看到我这个 robotic 的同事们可以哪一天做出下一个让我们非常惊艳的 emergent 的这个 embodyment 的模型

哎呀我也非常的期待最近刚投了一个机器人的公司就所有人刚刚刚刚听到你说这个靠机器人数据已经在逐渐被 digitize 的这个这个这个希望的时候我心里面感觉非常的欣慰因为天命大辽都是机器人的数据有有多难对 it's hard it's it's hard 我觉得 rtx 是一个 good step

然后就是说 rtx 这群人不也出去创立了什么 physical intelligence 对吧对对其实让我觉得费用超人 steam 里面除了这群大佬们以外就让我 impress 一个人其实我忘了应该是个一个越南一个越南语的一个一个人就是他其实是那个 rtx 的发起者让他们跟着一起出去做这个事情对他们就是基于那个 google 的这个 pally g 吗在在在在草这是不是说太多低调的东西了你帮我讲可以给大家一句话讲一讲 rtx 是说什么

啊,没有,RTX 就是开源的,就 RTX 是这样的,就是就是大家传统意义上的 robotist 的 scientist,大家会去就是自己先去搞一堆数据集,比如说像 Tony 就搞了一群这个这个这个什么烧饭开桌子什么挂胡子的这个数据集,然后他们自己设立一个这个这个 imitate 的模型,但是呃,大家希望说 OK,那既然就是说像 hugging face,大家会把比如说就是如果拿 NLP 做 analogy 什么 summarization,呃,

大家会把这些数据 aggregate 在一起你可以就有大量数据做 pre-training 他们干的应该是联合了世界上 17 个 lab 还是多少的然后把大概几十个 robot 的这个数据一起 aggregate 在一起做了一个非常 unified standard 的这个

这个是 robotic dataset 然后一共大概是有两个 million 的数据 robotic 的 trajectory demonstration 这一行就是这一行就是非常 amazing 的一个可以让他们做 pretraining 的一个数据集了就如果你去看 palmy 那份 paper 他们大概花了 18 个月是 collect 了他们花了 18 个月应该 collect 了 10 是 150k 的 human demonstration 啊还是 15k 我忘了应该是 150k 的 demonstration

还是数我具体的数有点不记得了就是你可以看到这已经是个 magnificent figure 的这个 data aggregationbut 你去跟这个 language model 大家说 scaling law 对吧就是比如说成差了一个一个就是这个 at least you should try20 x 这个这个这个这个 token sizecompare to model model size 但你想说这个随随便便就是这个

几个几个就几个 trillion 的 token 的这个都可以 train 进这个 language mode 那你想想这个 robot 跟他比其实还是还差的非常非常的遥远啊所以我觉得其实就是看就是说我非常 excited 是这个东西其实还很难但因为难才 excited 因为任何人都可能成为这个行业的颠覆者

是有点像这个当年的这个 image net 那是 for robotics 对 exactly 就所有人都是在一个起跑线上的就是 now is a fair gameeverybody can win 这大厂其实跟你一样也是在一个起跑线上所以我会觉得我非常我非常 excited 这个这个五年三年就是三到五年吧可以看到这个这个 robot 的这个这个这个落地和应用这个期待我的这个同事们有着有着有着更加惊艳的这个这个作品

就一个期待期待你啥时候这个回归老本行我觉得我一直在关注这个吧我觉得就是 technology wise 我觉得 there's not that much difference 对吧都是相当于二然后在不同行业的这个应用你就 robotic 的模态其实讲白就是个多模态我觉得 robot 的这个模型其实和 vqa 或者 v1 没有那么多的区别啊

其实我觉得当你在就讲白了都是相当于说你用同样的一个技术来解决不同的一个 dataset 的问题而已对我而言我觉得有可能我如果是我的 deep passion 但我更我更 excited 的是把 robot 的搓走之后其实我的 deep passion 是在二二二上的只是怎么用 reinforce learning 来解决 foundational 的这个这个这个这个 state action or state tuple 的这个这个 agent 的 problem 嗯好的好的非常感谢 kimi 那听听这个思维

就是我觉得一年内我其实还很希望看到就是多么太在瑞典方向的进展吧就是之前很多就是呃一些 research 看

可能我看到的是并没有通过引入的多模态的 token 能够让语言模型能够再提升了就有可能所以很多人就是有会略微的失望就担心这种混合模态之后你 computer 增加了但其实你的单个模态的能力并没有得到提升但我其实还是很希望在这块能看到一些突破如果

呃一年内那将我们的就是训练数据的资源量就可以就是有比较大的一个 scale 然后另外一个就是大家可能其实也看到就是我们人类学习就是根本不需要那么多的 data 然后现在呃像大家用的那些 comicro 或者是各种语调里面去充斥大量无意义的 data 的吧就是很多一些新闻稿啊或者是一些呃无意义的字符串其实也都被模型选选进去了其实你

浪费了大量的可不可以去干这个事情所以我觉得可能这一年内我还是很希望能看到在 data 工作的很巨大的一个提升就是有没有办法能够就是其实大家只需要很小的数据量但是可以寻找跟现在大规模数据是一样的效果这么一个事情就找到比较有代表性的那些对他然后

有三年以上的话那可能我比较乐观就是我甚至希望说三年之后我们能够看到就是呃这个这个这个接近 AGI 状态的模型就可以解决所有问题然后让我们也不用上班了这是三年吗哈哈哈哈

你就别就小心你老板把这个给你设成 KTI 啊我非常好奇说回说这个这个动模态这个东西啊就是我觉得数据其实动模态就是挺 tricky 的一个问题就是其实现在的户口里面其实就是混动模态数据其实还是非常少的嘛就是在一个占比情况下我觉得另一点我非常好奇的是你怎么看就是现在多模态的其实这个 visioncoder size 其实跟这个 taxicoder 相比是非常非常少为什么没有人会去

做类似的在这个这个 vision encoder 那方面的一些 scaling 的研究啊我只是这是出于我自己个人的好奇啊

呃我其实我也不太清楚但我其实觉得还是很有必要做这个我认为是一个很 promising 的方向其实我很看好的 Vision Encoder 在 scaling 上去对对对因为讲白了如果你现在都是零点几币我我我具体对这个 Gemini 有可能不是特别了解但是那些开源的其实基本都是就做了几十币的模型其实他的 Vision Encoder 也就基本零点几币连一币都都没做到让我觉得还是挺 surprising 的一件事

可能可能这个比较大的一个就是微型银河斗其实对工程也是比较大的挑战你训练的时候嗯 interesting good to knowerica 聊聊

我自己觉得一年之内我也比较看好的是多模态的 reasoning 因为我感觉现在我也看了很多 paper 就是一些模型它 text reasoning 非常好但是有了多模态之后反而都没有那么好因为这里面涉及到

同时有两个问题一个就是模态之间的 alignment 另外一个就是 reasoning 这两个混合在一起这个问题就更加复杂但是有了 O1 这个模型诸余在前的话我觉得我相信很多人可能会考虑就是怎么去把它这些相关的可能性的技术更多的用在 multimodal 的 ROHF 上去

我觉得这是一个我可能觉得未来一年会做出来的会有可能有发展的事情另外一个事情还是 multi agents 这一块因为之前的很多的 agents 他们有些 work 没有那么好就是因为他 foundational 的一些能力比如说 reasoning 的能力没有好那我觉得我估计是这一年内应该

别的一些竞争者应该也会有一些 O1 level 的一些模型会出来那这对于不管是创业公司还是其他的一些

其他的人来说就是作为一个更强大的 multi agent 的应该是会更加有希望一些那我期待就是这一块能够去解锁一些比较新的应用场景或者之前对一些准确性要求比较高但是没有做到的事情我期待就是有了这些更好的 reasoning 模型可能能够做得更好

那未来三年的话呢我希望就是我觉得我们可能可以看到

就是 AGI 能够在作为一个 innovator 作为一个 innovator 能够有一些更起到一些作用比如说它能够去自主的去发现一些 something 或者自主的去做一些比较前行的研究我最近关注到已经有一些相关的 paper 出来了就是让 AI 帮我们做一些 research

但是我感觉这还像现在目前还是比较初级的状态那等这个 reasoning 还有 multiagent 的这个系统怎么去构架更加成熟的话我觉得这种 AI scientist 可能会给我们一些非常意想不到的结果

你觉得 AI scientist 是就是提升我们用现在这种路径去提升这个 recenting 的能力就可以实现吗还是说作为一个能够定义问题解决问题的 scientist 才需要什么别的能力吗对我觉得就是他除了因为现在的 AI scientist 如果你去看他写出来的一些 paper 感觉更多的是一些偏炒菜式的科研就是把 A 和 B 结合起来或者

类似这样的一种课业但是如果去解决一些更加棘手的一些 open question 的话我们需要一个 AI 它能够去有一些更深度的思考以及它能够去

推翻重来的一些能力还有就是能够问出一个更好的问题而不是去解决一个问题我觉得有了更好的 reasoning 的能力的话那 AI 能够去做一些更长线的思考以及更深度的思考这个可以对他们自己提出的问题以及提出的解决问题的方法肯定会有一个值得提升这是我自己的一些感觉一到三年呢你觉得会比较难解决的

其实我觉得这个 innovator 这个问题本身就是非常 challenging 的问题我觉得这里面比较难解的一个问题就是让 AN 能够去

不要只是去通过他去 retrieve 他自己 pre-training 中的 data 而是说更多去怀疑自己的曾经学到的一些知识可能不一定是对的或者是过时的我觉得这个如果这个可能是一个去达到 AI 达到一个作为 an innovator 水平的一个

一个非常难的一个点就是你要让 AI 知道它能够去怀疑现在的什么牛顿定律可能不一定是对的你要它怀疑这些事情就让它能够很 challenging 的去自己的已经被 SFT 已经被 pretrain 去教给它的知识我觉得如果这个能做到的话应该会有很大的增长对对而且其实我觉得 Echo 前面大家其实也提到了一点

就作为投资人的很多创业者讨论这个 gpt 01 更像是一个就是 gpt 时刻而不是一个 chat gpt 时刻对吧就是对于我们说是说啊他可以去解决更更呃所以 resonating 要求更高的这个场景但是往往那些场景那跟我们这个 chat gpt 所展现之后揣布的场景其实是

其实其实是很不一样的那对于这样的话那你要去如果发现这些产品相对于这些长场景你肯定就不可能像这个呃就不可能像这个这个 chapel 一样一个 such bar 就可以了要怎么去设计在他那么长的这个呃 influence everything 的这个链路中呃这个怎么让人的这种 feedback 能加进去其实我觉得都是很多其实产品上的呃

问题所以这个我觉得也是从 gbt 到 gbt 中间的这个过程这样看起来其实还是有很多值得整个行业整个 ecosystem 一起去一起去探讨而且我甚至觉得说这个其实更是 startup 的创业公司的机会而不是大厂的机会因为这个大厂肯定是在全力去把这个 gbt 模板先先达到了其实其实有很多 startup 这个产品上的一些一些这个这个机会

对那我觉得也问问 KG 吧因为 KG 在这一块也是做了很多这个研究你对未来的一些期待也可以跟大家分享一下

好,那一年的话我觉得我会把它分为 Tolding 和其他领域来看就 Tolding 的话我非常同意 Timmy 前面说的那个会持续 Tolding 能力持续提升 Tremoritized 然后我觉得而且世界上其实会 Tolding 的人可能只有 1%不到但是实际我觉得有做一个产品需求的人可能远远大于这个比例那么这里会不会有一些新的技术突破和产品来

来弥补上车的 gap 呢我觉得我就非常期待比如说 chrsa 这个产品现在大家小白用户还用不上不太会用那么可能会有更低门产的更民主化的产品那么有可能会出现呃

不管是技术还是产品上的新的这么一个像 Canva 或者 Figma 这样的产品然后第二个就是其他的领域我觉得最期待的就是到底能不能 reward model 在 mass code 之外的问题上泛化出去然后这个泛化出去是诶

OpenAI 或者说前面几家高端 Supply Google 在模型上提升了还是有没有可能大家就发现它并不是一个 RAW MOD 能解决的然后它开一个 API 或者以什么样的形式给企业用户一起去喂进来高质量的 reasoning 数据来提升比如说金融法律它都有相应的提升我觉得这个我也觉得是一年之内希望能看到一些 signal 有突破到其他

并不是很明确强推力的领域的一个想看到的进展吧

然后三年层面的话我最期待的是 AI 真的能够让我去做我真的能让 AI 去花比如说一天一周一个月去帮我完成一个高价值的研究任务这个过程当中我可能就他比如说完成了任务过程当中有什么问题随时给我发送邮件然后我跟他讨论或者 comment 一下之后他能继续把任务完成

我觉得正好爱托到前面几位嘉宾都提到的一个问题是现在还没有一个产品能让用户乐意为他付出那么高的 latency 但如果 AI 真的能做很高价值的人物可能是每一个 industry research 可能是人类科学问题的突破都有可能那么有没有这样一个首先是技术上的突破然后是一个产品上的突破

能让人和 AI 能够交互上能够异步的去协作那么它可能会呈现一个新的 AI agent 的操作系统或者是 UI、UX 我觉得都有可能这个是我三年内最期待的

嗯好的好的我觉得大家从不同的角度都聊了但对未来的这个期待所以今天我们就本来说两个小时这个聊了三个多小时就是非常非常感谢我我觉得也有非常非常多的启发也希望对对大家对我们的所有的这个听众也有一些启发也希望让更多的人加入到这个这个创新的这个大潮中我觉得越是有这样的不断的有新的方式的突破新的这些模型能力的提升出来我觉得其实让我们

在做在上面做进一步创新其实是有了更多的想象力和更多让人让人期待的东西好的那今天就这样了感谢毛利卡素质也谢谢

请我们喝个咖啡

如果你在用 Apple Podcast 收听也希望你能花几秒钟给我们打个分打个五星好评让更多人可以了解到我们我们下期再见继续更多干货

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式 02:42:51 Share