cover of episode 73. AGI范式大转移:和广密预言草莓模型和self-play RL|全球大模型季报4

73. AGI范式大转移:和广密预言草莓模型和self-play RL|全球大模型季报4

2024/9/5
logo of podcast 张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

Chapters

本部分探讨了语言模型预训练可能遇到的瓶颈,包括模型规模增大带来的收益递减、数据和算力瓶颈等问题。嘉宾认为,传统的 Scaling Law 可能已经失效,需要探索新的方法来实现更大的突破,例如多模态、10万卡集群和强化学习等。

Shownotes Transcript

其实能称得上范式级别的就是一个,就是强化学习 RO 这个事。

草莓更像是一个项目的代号吧, l 呢,其实是方法。

q star 可能是最早的一个缘起的 paper, 我觉得一个更形象的比喻就是说,你可以把语言和预训练比作人类的一个基因组,嗯,携带着人类几千年进化的基因,那么强化学习就是人类成长的一生。

语言模型 pretrain 遇到瓶颈就是最近两个月吧,外界可能还不一定意识到说语言的 pretrain 已经到了一定。

bottom APP, 甚至说,有没有一个可能性,今天不做强化学习的公司,下一波浪潮里面都跑不出来。

哈喽大家好,欢迎收听张小俊商业访谈录,我是小俊,这是一档提供一手高密度信息的商业访谈节目。

今天这集呢,是我和广密全球大模型季报的第四季,这期 2024 年 Q3 季报提前和大家见面了。

我们正在进入的 9 月 份会是 API 的一个大月。

Openai 造势已久且绝密的项目草莓 strawberry 将在不久后揭开它神秘的面纱。

而这个项目暗示了硅谷 API 范式已经静悄悄地发生了剧烈的转移。

在纯靠语言模型预训练的 skilling law 这个经典物理规律遇到瓶颈后,多家硅谷明星公司已经把他们的资源重心押宝在一条新的路径上。

它叫 selfplay RL, 中文名是自博易强化学习。

只不过这个共识还集中在少量的核心的 researcher 圈子中,至今尚且没有扩散出去。

那么 self play RL 到底是什么?

它如何有别于传统路径?

它能成为继续 skilling law 的一把神奇钥匙吗?

嗯,希望我们的这个全球大模型季宝啊,能帮大家了解最前沿的 API 动态,并且能持续地给大家带来一些新的启示。

保密,之前 3 期的节目里,你提到的很多预测都验证了,那我们继续来做我们的这个全球大模型季报,今天是第四期。

三季度似乎在硅谷出现了非常非常大的变化, AJ 可能出现了范式转移,这也让这期节目变得很特殊,因为中文世界里谈论范式转移的声音还非常的小。

那我们这期节目应该是对于范式转移解读最全面也最前沿的一个。

最近这两个月,你思考最多的问题是什么?

对,我感觉语言模型预训练这个范式是不是到瓶颈了吧,模型的 scaling 的编辑效益开始递减,那接下来的路线怎么走?

包括这轮技术革命会不会就此卡住了?

我感觉这个问题就很关键吧。

现在得出了什么样的结论呢?

现在只能说有 50% 的概率就是传统意义上的 skating law 已经失效了。

当然另外 50% 的概率就是说沿着老的路还能继续走向 AJ, 对吧?

继续怼 10 万卡感觉这两个概率 half half 吧,主要是现在各种 evidence 还不够多,还不能妄下这个结论,也不能下判断说 Pre train 这条路就到头了。

但你目前看到的呢?

就是说纯靠加参数加数据加算力这条路肯定是不容易了, model, size, 向上 scale 都还是有一些问题吧?

我们能看到就这几个要素嘛,参数,数据,算力。

你从参数上看,现在最好的模型应该都是六七百 b 的总参数的一个 Moe 的模型对吧?

为什么在六七百 b 基本上也是单台 Server, 现在 H100 能放得下的今天,我们还没有看到向上涨个三五倍,两到三个 t, 两三万亿总参数的模型,或者说你卖上去两三 t 总参数吗?

但短期的收益效果可能还没有那么好,包括怎么 skating 的规律也没有识清楚吧。

那另外你从数据上看,就说很多公司弄到 15-20 个 t 的高质量文本数据可能还 OK 对吧?

比如说每个月再增加两个 t, 但你很难叫被数据的增加到 50-100 个 t, 我感觉就是还得用新的方法去突破数据的瓶颈嘛。

那另外你看算力上,就说英伟达 H100 这一个卡,单一集群最大搞到 3.2 万张,充分互联对吧?

全球应该能有三五家都能做到了。

就是在 b 系列 GPU 规模化出来之前呢,我感觉算力基本上也不太会有倍数级的提升。

就你看这几个基础条件,它不一定能支持今天的模型在 GPSO 或者 cloud 3.5 这个基础上做大幅的提升。

我感觉可能走这条路呢,就是比 GPSO 好一些,但不一定能像 GB3 走向 GB4 那样叫叫显著跨越的好吧。

不能支持模型在 GBT4O 的基础上大幅跃升的原因是什么?

可能有几种情况。

第一呢,你可以说今天的 skill up 的幅度依然不够对吧,你未来等 b 系列卡出来之后再 skill up 可能就就解决了,现在有可能就是处在一个真空的死亡地带,那说明 H100 直接带卡可能没有那么好。

那第二呢,你也可以说是执行问题,训练更大的模型就是比较复杂,就像发一个比如说中型火箭或者说芯片流片一样,那失败因素是很综合的,你你你,就比如说 Moe 很大了之后就是很难调,它的高矮胖瘦,你怎么摆?

你训练两到三万亿参数的 Moe 本身就是很难,因为现在业界主流基本上是六七百 b 左右吧。

那还有很重要的问题,就是说数据问题对吧?

怎么搞出来那么多高质量的,而且真的能提升能力的这种文本数据,包括能不能用好合成数据对吧?

其实合成数据今天也没算 fundamental 的突破吧,大家都是去用模型去改写对吧?

去扩充把这些低质量的变成高质量的数据重复其实对模型提升也没那么大,更多高质量的逻逻辑推理数据我感觉可能是更重要的。

前面这两个问题,我感觉可能都是短期问题,慢慢随着时间还是可以解决的。

但有一种情况就是第三种情况,就说最担心的一种情况,就是说纯靠语言的这种比较经典的 skin law protrain 这个物理规律是不是就遇到瓶颈了?

或者说就在比如说更大参数下,比如说两三 t 参数以上就开始失效了,那我们就得用新的方法才能带来更大的突破。

我感觉这个第三种情况呢,在 B100 GPU 出来之前,概率是非常大的诶。

这个还挺让人惊讶的,就是 skilling law 遇到了瓶颈,甚至有可能在变大的过程中失效。

呃, QA 的时候你观察说 GPU 数据中心和物理硬件是瓶颈,现在似乎瓶颈是变得更多维度的,不只是物理硬件这一个原因。

其实 GPU 数据中心和物理硬件依然是瓶颈。

但这个瓶颈吧,你没办法短期突破,因为 H100 这一代卡呢?

你你现在充分互联的可能就做到 3.2 万卡对吧?

H100G 太卡,用起来可能不算太好。

你看 padora 其实还是很贵的,我感觉有可能还是得 b 出来才能把参数 scale up 上去。

那如果在这个之前呢,有可能就还是得在有限的集群下吧,做一个叫新的 schema 范式的探索。

当然也还有另外 50% 概率所在啊,就是说可能就是留给马斯克的 XAI, 马斯克是觉得算力决定生死的对吧,他们就 BYTE on 10 万卡对吧,这也是叫第一性原理。

我觉得也有很大的概率,就是说马老师做出来 10 万张卡集群对吧,然后衬出来一个更好的模型,让很多人傻眼。

我我觉得也是有可能的。

但是算力往上加呢,其实加到 10 万卡其实短期挑战很大的。

我们能看到,就说你现在 3 万卡的集群,基本上每两个小时能 break 一次。

那 10 万卡集群呢?

基本上是二三十分钟就 break 一次,其实综合利用率会下来非常多,这个对数据中心的运维的挑战是很大的。

你要快速地定位损坏的卡对吧?

快速地插拔更换去上线。

我感觉就说模型,反正 skill 到两三 t。

刚才提到就说 moe 更复杂了对吧?

有可能,还有一个原因就是说实验不够充分。

那你实验不充分呢?

你这些 with 怎么摆?

其实 bug 也很多。

那还有一个说法就是说做 dance model 更容易,比如说做到两三 t 的都是 moe, 那 moe 呢?

其实有可能并不一定很好做,但 dance model 有一个缺点,就是说它的 training 过程中 GPU 的利用率不够高,这也是一个问题。

包括刚才提到数据问题,合成数据也没有算突破嘛。

我感觉其实确实是想综合的,它不是一个叫单一因素算力的问题存在,然后 M1 这个复杂架构的问题也存在,数据的问题也存在,因为大家还不知道叫视频数据怎么用起来对吧?

有可能还是有一个新的架构未来会出来吧。

如果 skating law 在模型变大的过程中它就不 work 呃,你们看到哪些新的方法新的路线来替代它?

我感觉可能能有两三条潜在的路线吧。

我感觉每个公司也都有自己的一个 BAT。

我们首先说一下多模态吧,尤其是视觉。

很多人会说诶,这个多模态的确定性很高,只靠语言无法走向 AGI, 就还是得靠语言加视觉这种多种模态。

但是呢,你用大量的视觉数据做大规模的训练,其实今天还没有任何证据能证明说诶,我们能从视觉模态训练里面涌现出叫智能或者逻辑能力吧。

我不确定 Tesla FSD 这个算多模态还是叫单一模态。

其实 AI 最重要的一个还是叫通用泛化性。

你就像 Alphago 下棋一样,你下棋做到世界第一,但你没法做其他的任务。

Tesla FSD, 或者说今天的所谓的通用机器人公司,今天在某一个特定设备上采的数据,包括训练的模型,其实你换到另外一个新设备上,其实是不 work 的。

嗯,我觉得这个其实是没有泛化的,我是感觉多模态模型的技术路线还是没有像今天语言一样那么统一,也许未来会诞生一个全新的架构,但这里其实是又涉及到基础科学的突破了。

这个你就不确定是一年两年三年还是五年十年能看到的。

因为你看现在视频生成今天都走一个叫 Dat 路线,那是因为年初的时候 Zara 给大家给整个行业指明了路线。

短期你看 did 其实向上的收益还是可以的,但我觉得能确定呢,就说多模态肯定是能叫带来交互能力的提升,有可能你交互能力上来, reasoning 逻辑推理能力也会提上来吧,这是一种路线。

第二种路线呢,就说那 10 万卡集群也是一个路线,那就是刚才说的,比如说短期不成功,那可能就还是算力不够对吧,处在一个中间的死亡地带,那总有人要试试更大的集群,万一怼更大集群怼成功了,怼出了更强的模型,那我觉得会让不适的人可能会会傻眼了。

但是客观来讲,就说 10 万卡集群充分互联的难度可能还是比预期的要更难的,甚至有可能这是全人类目前遇到的最难的一个项目吧,可能比 Spacex 发中型火箭可能还要复杂。

聊到多模态和 10 万卡集群啊,这两个其实都是较确定性会发生的,我感觉就是时间问题,但是其实是还不够本质,或者能称得上范氏级别的。

其实能称得上范氏级别的就是一个,就是强化学习。

RO 这个事,今天整个业界,不管说硅谷,包括中文媒体吧,其实提得还很少,或者说大家今天也不知道怎么做。

就今天的强化学习就是 self play hour 呢,我感觉这条路线还是最 make sense 的,天花板也最高。

其实我们能看到那个 unthorpe, 那个 cloud sonate, 它那个从 3 走向 3.5, 你能明显看到代码和数学很大的提升,对吧?

其实这里就是强化协议 hour 带来的吧。

你用 self play 这种方法提升模型的逻辑推理能力,我感觉是接下来最重要的一个范式吧,我觉得这是一个最核心最核心的变化。

然后当然多模态、10 万卡和强化学习这三条路其实并不矛盾的,其实也是可以并行的,但是你的资源有限,你就得 battle 你最相信的一条路,对吧?

如果我是一个 AI 公司的 CEO, 我肯定会 200% 的资源 all in 到强化学习 r 这条路线吧?

我感觉这是目前最有机会走向 AJ 的一条路吧?

我来试图理解一下你说的这三条路线啊。

第一条是多模态,它不能确定到底能不能带来智能水平的提升,呃,起码到现在为止,它没有证据能表明,呃。

第二条是 10 万卡集群,它能不能涌现出更强的模型,要依赖于 screen law, 能不能继续 work, 现在也还不知道。

嗯。

第三条是你说的这个范式转移,就是强化学习,嗯,现在的 RL 主要讲的是 self play RL, 我理解的对不对?

是的。

那能不能给大家解释一下这个 RL reinforcement learning, 简称是 RL, 中文是强化学习,给大家解释一下这个概念。

对,就是我们回到 2018 年, 其实那个 Lex 邀请伊利亚去 MIT 客座讲了一节课,伊利亚选的主题其实就是强化学习和 self play, 他当时就认为这是通往 API 路上最关键的方法之一。

就是当时伊利啊用一句话概括了强化学习,我觉得非常准确,就说让 AI 用随机的一个路径去尝试一个新的任务,如果效果超预期,那就更新神经网络的权重,让 AI 记得多使用这个成功的时间,嗯,然后再开始下一次的尝试。

其实我们在实现强化协议的过程当中呢,其实有两个元素是最重要的啊,这两个元素一直在反复的交互。

第一个就是环境 AI, 你探索完成任务的环境,你比如说下棋的时候,那个环境就是 19 * 19 的一个棋盘对吧?

你训练你家的一条狗的话,那个有可能是就是狗主人的家和小区。

嗯,其实环境会发生变化啊。

那环境发生变化的时候呢?

AI 就会从环境变化中收到 reward value, 去判断过去的那几步探索是否有明显的收益,比如说你距离下棋胜利是否更接近了。

然后这是一个奖励机制对吧?

对,这是一个奖励机制,这个奖励机制其实是强化系当中应该说最重要的一个要素吧。

其实第二个就是一个 agent 这个智能体,其实 agent 这个智能体是从强化体系来的一个定义, agent 对环境的观测和感知,它会来输出一个动作,其实 agent 它的目标就是要得到奖励嘛,这个是最重要的。

这里面有几个基础概念,我觉得可以有一些科普,就说刚才我们聊的智能体,比如说我们训练一条狗,嗯,这个狗就是那个智能体,他就是一个 agent, 他是一个学习的人,或者是一个决策的人。

那个环境呢,可能就是狗准的家或者小区,那狗还有动作,比如说狗的动作是叫坐下,可以握手,一些行为对吧?

然后包括狗的状态,他所处的一个位置,包括你对这个狗的奖励,要么你给他一些吃的零食对吧,或者你就责骂他,这是正面信号和负面信号,那我们可以把狗换成大语言模型,大语言模型就是一个智能体,一个 agent 本身了。

今天拆 GT 它就是一个文本或者对话场景的东西,那它可以输出不同的文本或者各种 action 甚至各种模态对吧?

包括它也有奖励,只不过今天文本的奖励的噪音比较多,我们是不好定义这个 reward model。

我我感觉这个可能是一个今天还不清楚的。

就是对于 LLM 来说,小零食是什么不清楚,给狗是小零食,他很明确就是给他零食,他就知道这是正确的,但是或者摸摸头,这对于他来说就是一种奖励,但是对于 LM 来说,就不知道他的奖励反馈到底是什么,没有一个清晰的界定。

你看我们今天上亿人用拆 GP, 其实我们给到拆 GP 的反馈,嗯,是没那么有效的。

对,因为你可能很快就进入下一个话题了。

对,你包括点赞和点踩,有可能噪音也比较多。

能不能进一步举一些例子来阐释这个 RL?

我觉得有一个比较好的例子啊,你比如说咱们去一个叫深山去探矿寻宝对吧?

一个人,他有一个藏宝图,但是我呢,有 5000 个特种兵,带着一些专业探测设备,你可以说我资源浪费,但是只要有宝贝,我有可能是几乎百分百都能探测出来的,而且比拿着藏宝图的那个人有可能还更快。

我就是把各个地方各种路径反正都探索一遍嘛。

但是呢,假如说有其中的两三个特种名呢,鉴宝能力不足,它就会漏掉这个宝贝,或者捡回来很多垃圾,这就是那个奖励模型, reward model, 那就出错了嘛。

或者说还有一个更形象的一个身边的例子,就说我们要训练一个运动员,比如说一个马拉松的运动员,对吧?

我今天是一个 GPT, 我已经通过语言和录像已经学成了博士,各种知识道理都懂了。

今天我就设置一个目标,就是取得马拉松的一个最佳成绩,对吧?

那我就会探索各种方法,甚至找漏洞的方法,取得一个怎么获得最佳成绩的方法。

比如说每次比赛都有一个正面信号和负面信号,对吧?

那比如说怎么科学的饮食,什么姿势,怎么肌肉发力,对吧?

你比如说前一天如果你运动消耗过量,那其实也会影响第二天的比赛吧,这就是一个负面信号对吧,甚至我可以找到捷径,你比如说之前比赛没有禁止兴奋剂之前,其实我可以吃兴奋剂的,那这个就是 hack 了。

比赛规则嘛,那你就要制定新的比赛规则,这其实就是 AI 的 safety 或者 alignment, 这个价值嘛,我感觉包括狗主人训练一条狗,其实这些例子我感觉都是逻辑都是一样的。

然后我我觉得可以延伸的说,就说这意味着什么,如果基础模型变强,其实我们每个人都可能有一个 5000 个特种兵,或者你有一个世界冠军一样,他们在各个领域去做探索,那你可能就是一个教练员,指导他们怎么做人,和 AI 一起去在各个领域拿金牌,我我觉得这个是一个蛮有意思的会发生的事吧,那这里面的奖励模型其实就很重要了。

今天业界嗯,奖励模型最核心的还是在代码和数学,因为它就是刚才提到它的环境和目标,很简单很清楚对吧,容易设定。

但其他领域的目标和环境其实还不太好设设定的。

那这里也有一个更关键的问题,就是说代码和数学在未来两年可以确定性的变得非常强,但那能不能泛化到其他领域是目前还没有证明的。

就是刚才提到阿尔法购下棋很厉害了对吧,但其他领域不行,那计算机视觉、人脸识别也很厉害了,其他领域也不行。

AI 最重要的还是一个通用和泛化性的,如果你不能泛化到其他领域,我觉得那还是挺麻烦的,这波技术天花板有可能还是会受限的吧。

但是呢,即便不能泛化了,那我们借助大语言模型在各个垂直领域做强化学习,我感觉应该也能在很多场景找到一些最优解。

我觉得下线有可能也是会替换掉传统的机学习那一套吧。

诶,当我们说强化学习的时候,它应该跟什么概念对比啊?

它应该跟大语言模型对比吗?

它是一个交替的,我感觉历史上神经网络跟强化学习一直是交替发展的,就是每一个神经网络变强了之后,大家后面都会提强化学习。

那强化学习和大元模型的区别是什么?

我觉得可以这样说,就是大语言模型是利用现有数数据,主要是强调在利用这一个点,那强化学习呢,更多强调探索,他探索一个长距离,你给他一个非常粗的颗粒度的目标,然后他自己去探索各种能做成这个目标的一个路径。

我感觉强化协议的核心就是说在探索和利用之间做一个权衡吧。

大源模型在利用现有知识上我感觉已经做得很极致了,但探索新知识方面基本上还没有做太多吧。

那强化学习的引入其实就是为了让大语言模型能探索进一步怎么提升逻辑推理能力吧。

我们可以回看一下,就是 AI 最经典的三大范式啊,就是监督学习、非监督学习和强化学习。

其中只有强化学习的假设是让 AI 进行自主的探索和连续的决策,我觉得这个方法是最接近人类学习的吧。

我们现在说的是这个 selfplay RL selfplay 强化学习,它跟传统的强化学习的区别是什么呀?

还有之前有个概念是 RLHF, 它和 RL 的区别又是哪些?

对,我感觉传统 AR 呢,其实跟今天的 self play AR, 我感觉最大的一个变量和区别就是说这个 AR 的主体的 agent 计算量增加了 3-4 个数量级。

你看最早的那个 r for Zero, 它应该就是一个千万参数的神经网络吧,和今天的语言模型应该差了 3-4 个数量级。

然后 RHF 其实更大的一个目的是不是获取机器智能,而是一个人机对齐,呃,其实是让 AI 做到更像人,但是不能做到超越人的一个叫超级智能吧。

我觉得一个简单的例子,就说 RHF 呢,其实能像人类一样更喜欢好理解的东西,而不是喜欢逻辑更严谨的内容。

self playr 呢,其实更多还是奔着怎么提升逻辑能力去的吧。

那 self play RL 能提升智能水平吗?

目前在 coding mess 这个是很明显的,其他领域还没看到。

大源模型和强化学习和 API, 它们三者的关系是什么?

呃,我觉得这是一个特别有趣的话题,就说之前有一个特别有趣的描述啊,就是说语言是走向 AGI 的一个拐杖,虽然最近 Twitter 上很多人在批评这个表述啊,其实很有道理,我这个表述我体会了很久啊,就说嗯,首先说为什么是语言啊?

语言是人类积累了几千年对吧?

是对人类历史几千年的一个压缩总结,又经历了 30 年数字化,变成了互联网的 TOKEN。

其实大语言模型诞生也是一个技术发展的必然嘛,这是机器能学到的最高密度的一个知识。

那另外语言还有一个好处是什么呢?

它的通用性很强。

其实同一个事物可以用不同的语言描述对吧?

同一个语言你也可以有不同的理解方式,它的弹性和容错性就会很高。

你可以说语言是今天唯一走通泛化性的,传统的阿尔法购其实是没有泛化的,只能下围棋对吧?

CV 视觉也没有走通泛化性,只能做人脸识别对吧?

我觉得有一个猜想,就说可以借助语言这个通用和泛化性,让这一波的 AI 能力泛化走到更多领域。

通用人工智能的核心还是通用和泛化。

所以语言和预训练呢,还真的有可能就是个拐杖,它就是一个中间菜的甜点,前菜对吧?

那后面的强化学习有可能才是主菜。

我觉得一个更形象的比喻就是说,你可以把语言和预训练比作人类的一个基因组,嗯,携带着人类几千年进化的基因。

那么强化学习就是人类成长的一生,你从出生那天起就开始接受正面信号、负面信号。

其实一个职业运动员,他的职业生涯也是一个目标和环境定义很明确的特定任务嘛,就是拿成绩拿奖牌嘛。

所以我感觉不管黑猫白猫,能实现通用和泛化,我觉得这才是实现 AGI 或者 Si 超级智能的一个关键嘛。

所以今天看光靠大源模型可能走不到 API, 也可以想,比如说 AI 可能是一个偏科语文的大学生,如果他要就业的话,他需要新的范式引入。

那大语言模型和强化学习应该怎么相互补充呢?

他们两个应该怎么结合?

我感觉是一个接力关系,或者说语言模型是一个做强化学习的必要条件。

因为这里面非常重要的一个点是,你必须要有很聪明的模型才有能力做 self play, 对吧?

做探索,如果一个人他没有一定的能力,他做自我的探索其实能力也不强的。

我觉得这个标准有可能是至少迈过 GD4 或者 cloud 3.5 这个水平,如果你模型能力不足,那你做 self play 的效果还是会很差的吧?

那你想做好强化学习呢,我感觉还是必须要有 pretrain 这一步的。

其实 Pre train 呢,还是一个必经之路,但 r 呢,又是一个 Pre train 确定的未来,我感觉做 AI 的人应该都会意识到,就是你做 person 最终往后一定会走向 r 的,不是今天,那就是明年,对吧?

呃,刚才提到就 Pre tree 呢,其实是让模型学光了网络上的数据对吧,总会学完的。

那通过 self play 这种自主探索,那你再选出更高质量的一些 case 去学习,这是一个长期才更能 skylog 的一个路径嘛。

但我觉得还有一个更深层次的一个,就是说 self play 这个方法本质是用 AI 无限的算力来补数据不足的这个短板吧,就是数据不够,算力来凑,我感觉也是符合当下 AI 的一个优势的吧。

其实一个好的 sofplay 呢,其实能合成大量的高质量的数据,甚至可能比人类历史上见过的棋局对吧,游戏的数可能还更多,其实用这个数据量有可能也能做到叫超级智能吧。

其实你看阿尔法购下棋, Dota 游戏对吧,其实都探索出了跟人类不一样的玩法,也战胜了很多叫金牌选手对吧?

那还有一个循环,我觉得很有趣,就说 soft play 呢,合成的数据再用到 Pre train, 那激发更大的 pretrain 的一个计算的需求,那那这样的话,整个大语言模型的 pretrain 呢?

其实就变成了强化学习系统的一环,强化学习变成了一个更核心的系统。

那那这样一个循环有可能才能更好地走下去吧。

我可以理解这个范式变化是硅谷现在通用人工智能领域当下发生最大变化,这个变化你观察到什么时候发生呢?

它很突然吗?

我感觉 Unsopy cloud 3.5 是一个标志性的产品吧,它应该是 6 月 20 号 发的那个 3.5 sonate。

其实我们能看到那个代码和数学是显著提升,因为 Ansorpi 很早就重视强化学习。

我感觉 Ansorpi 好像就 battle 了两件事,一个是下迭代模型,一个是 AR。

强化学习好像也不搞 server, 不搞 search, 好像主线就是 AR hour 这个事呢,我感觉在研究层面其实很久了,其实你看欧盘最早就用强化学习的方式去打造它游戏对吧?

但我感觉核心变量还是语言模型的能力发展到了一定程度,就是用大模型做 selfplay 这个事其实变得有效了,我觉得之前是做的效果不太好,但是我感觉语言模型 pretrain 遇到瓶颈就是最近两个月吧,外界可能还不一定意识到说语言的 pretrain 已经到了一定 botanic 了。

你预计 RL 的上限是什么?

hour 的上限就是 code mess 没法泛化到其他领域,以及其他领域你制定不出来好的 reward model。

但是呢,如果你把 coding 能力变得很强,我们未来用自然语言后端实时编程,它有可能也会巨大地加速我们整个数字化的进程。

你刚才提到的这几条路线,在一些明星公司里面,他们资源会怎么分配啊?

我可以这样说,应该说只有一两家公司把 RO 当做了最高优先级,我感觉好像对语言的 protrain 优先级放到了第二位吧。

那如果是放到最高优先级的话,那就应该给最多的 compute 资源吧。

因为 9 月 份 on Tropic 和 open i 应该都有新模型要发布,大家都挺关注的。

对于这两个模型有什么可以值得期待的?

我感觉首先是 cloud 3.5 office 这个进步幅度应该还是会很大的吧,因为你看 sonate 从 3 - 3.5 进步幅度挺大,不知道欧盘会发什么样的东西,但是呢,你看草莓已经造势很久了,我感觉应该也是在 r 这条路线下,那代码和数学肯定是大幅提升的,我感觉这个提升的幅度应该都不会亚于 solid 从 3 到 3.5, 但是会不会真的发新模型,这个不好说。

这样的话,如果是有了新的范式,那之后 GVT6 和 7 还会有吗?

我感觉如果只靠传统加参数 skating 的短期预期不够的,我觉得范式还是变了,但是我还是相信,就是说接下来一代代的模型还是会变得很强。

不知道还用不用 GT567 这种代号吧,也不确定呢。

是模型的参数会不会倍数级的变大,我觉得还有一个可能就是说参数并不会增加很多,有可能,比如说就是 GPSO 或者 call 3.5 这么大参数的模型,但未来也能持续变得很聪明,也能达到大家对 GPT567 的一个预期吧。

我觉得还有一个点,就说我明年有可能就会看到很小的一个模型,可能比今天的 GB4O 还要聪明得很多。

单位参数下智能水平提升还是很快的。

所以这里面有一个期待,就是说有可能实现 AGI, 倒不一定需要巨量参数的模型。

所以在硅谷实现 API 的方法和范式其实已经彻底变了,但是我们可能到今天还没有意识到。

我感觉是,不过新的范式下有可能也有很多卡点,对吧?

你比如说刚才提到 reward model, 它能不能泛化到更多领域?

coding 和 match 其实提升的确定性是非常高的,因为下棋、游戏、数学、 code 这些环境都有明确的胜负对吧?

可以比较好地做 self play, 尤其是 coding 机器。

乐观。

然后但是你看物理和医药,那你做了 sofplay, 有一些结果之后,你还要做临床的验证,这个周期物理的周期是很长的。

那你看法律和金融,这里面其实没有太多标准答案的,但有可能我们做到偏好和偏坏。

比如说我写了一个 Memo, 他写了一个 Memo, 有个裁判来 comments 说哪个 memo 好,那也有可能呢。

投资里面,其实你看一级市场呢,你构建 rewordmodel 其实就过于前瞻了,这个反馈就太长对吧?

嗯,那二级的噪音又很多,但是你看文字创意这些领域,有时候经常各种剧情反转跳变,这个其实 AI 是比较难捕捉的。

我觉得其实还有挺多问题要解决的,就是能不能有一个绝对通用、泛化的 reward model, 应用到各行各业务,这个是不好说的啊,或者说你只能在垂直领域一个个的构建。

但我觉得还有一个点,就说大家期待另类架构也很多,从更基础更底层的架构出发,不是 Transformer, 而且是一个未来应用到全模态,尤其是视觉,这个有可能也是需要天才科学家去突破的吧。

另外我觉得可以提一嘴,就说大家对天才科学家的 value, 我觉得还是应该更高的。

其实你看 character GNOME, 这个就超过了 20 亿美金嘛。

嗯, Google 收了 character 主要还是为了 none 嘛,其实这个账也很清楚,其实你看 none 如果对整个 Google 能提升 1%, 那就是 200 亿美金,那你看 Google general 肯定也能占到 Google 的市值的 10% 吧,那那我们肯定是确定了能对 GMV 提升 1% 吧,其实也就是 20 亿美金。

我感觉这个在传统估值体系下其实是不被认可的吧,这个收购价格就等于估过一天的利润嘛。

好吧,说到这一点,你怎么看 carrot 点 AI 的出售啊?

它给今年的 AJ 市场带来了什么信号?

我感觉就是上半场完全结束了,下半场正式开始了。

能进入下半场的选手呢?

其实不多,我感觉 num 加入 Google 也是从 Google 进入下半场了,那就是这个新范式嘛, self play hour 这个事成为主角了。

代言模型的关键要素大家觉得是算力?

数据?

算法,那这个新范式 self play RL 它的关键要素是什么?

它对比大于模型来说难度怎么样啊?

我感觉 R2 呢,它其实不是一个模型,它其实是一整套的系统,包含了很多东西。

其实刚才我们提到那几个包含智能体对吧,嗯,那个 agent 可能就是模型对吧?

还有包括环境,这个环境有可能是一个狗主人的家,一个是 coding 的环境,还有可能是垂直领域对吧?

那动作 action 是也是很重要的,到底呃是狗的这种坐下或者一些行为,还是说其他的模态的输出,包括奖励模型也很重要。

如果说最重要的两个东西,我感觉就是环境和智能体吧,智能体的目标其实是要来得到更多的奖励的。

其实这里面 l 呢在语言模型中的一个思路,本质上是 inference 的 time 去换 training time, 其实是来解决模型向上 skilup 时暂时编辑收益递减的一个现状吧。

我感觉这个势必也会对 skinlog 带来很多新变化吧,或者说应该是传统的 schema law 不 work 了,但是新的 schema law 又开始了诶 by the way。

这个新范式下还需要那么多 GPU 嘛?

很多人可能会很关心英伟达的股价。

这个其实有点不确定。

我感觉在 r 的新范式下,其实 schema 就要被重新定义了,因为训练时候的计算量,它不只是和参数量上升有关,还多了一个新的变量。

就说 self play 探索时候 inference 的这个计算量吧,因因为 hour 的思路本质是用 inference time 换 training time 嘛。

那来解决这个编辑收益递减的问题,之前我们算过一个账啊,就说对 GT4 和 cloud 3.5 这种水平的模型呢,我们算下来就说你要合成一个 t 的高质量的推理数据,大概要 6 亿美金,如果你合成 10 个 t 的高质量推理数据,可能要 60 亿美金。

其实这个量级也很高。

但跟预训练不同的是, inference 呢,其实对单张卡的性能和集群规模的性能其实相对低一些,也就是说不一定非得用最顶尖的卡或者 3 万卡 10 万卡的集群,分布式的集群其实也可以跑 AR 的 inference, 所以我感觉就说新的范式项呢, scaling law 依然存在,那计算成本可能还是会大幅地提升,来提升模型能力,但提升的并不一定是模型参数量的快速增加吧。

长期是否还需要那么多 GPU, 我感觉就得看做强化学习的效率吧。

今天看资源是比较浪费的对吧,因为你跑的步骤 99% 最终都是无效的,但是你还是得跑对吧,因为你一开始没有那张藏宝图对吧?

嗯,那 AI 要解决的是很多没碰到过新问题,我觉得确实是存在大量资源浪费的,除非说未来更高效。

另外如果做推理的话,我感觉不一定也非得依赖英伟达的 GPU 了,其实其他的 AMD 啊,包括其他的 ASIC 芯片有可能也能 work 了,英伟达 GPU 还是性价比最高的。

就是说英伟达有可能比其他芯片公司的领先地位还是拉大的,它肯定也是能 cover 住这个新的范式变化的吧。

就说英伟达股价,我感觉就是说因为二级市场是容易线性外推的嘛,也许明年后年英伟达就是全球利润最高的公司对吧,可能比苹果利润还要高,千亿美金利润。

但我感觉线性外推的订单短期可能没问题,但 AI 的蓄势变化我感觉还是很剧烈的。

嗯,如果你说长期变化,我觉得还是挺难下盘的。

API 范式发生转移这件事情在硅谷的共识程度到底怎么样?

是所有人都共识了,还是只是一部分人开始这么做了?

我感觉只有在最核心的 researcher 中间有一些共识吧,有可能也就几百个人。

我感觉还没有完全扩散吧,或者说很多人都知道 AR 很重要,但是不知道怎么做,这方面人才也很稀缺,还不是传统 AR 的那些人。

我感觉很多 AI 的管理层可能还没有意识到,因为最近也只有少量那么一些 paper 才开始发出来了。

杨乐坤最近又在批评强化学习, RL 说这是资源浪费。

但你看爱迪生发明灯泡也浪费了大量的实验资源对吧?

但你只需要成功一次嘛,那你就可以大量复制。

我觉得 la 坤现在喜欢说话引起争议吧,有争议才有流量嘛,效果才能被放大嘛。

他有流量干嘛?

我感觉这是文人的好胜心吧,彼此有时候瞧不上。

嗯,有不同流派嘛,其实每个流派都有各自的道理的,都要给自己的流派站台嘛。

对,我们是播客,说的都很扎实的,不追求流量,哈哈哈啊。

所以基于上面说的这些,你对 AJ 的现状是更乐观了还是更悲观了?

一开始这几个月,发现语言模型的 Patrick 遇到瓶颈,不顺利,我感觉还是悲观的,之前觉得 2526 年 可能才会碰到瓶颈吧,没想到这么快。

但是想了两个月之后呢,感觉更乐观了,觉得 so play。

r 呢,这个事 work 了之后呢,感觉离实现 AGI 和 Si 超级智能,我感觉更清晰了。

我感觉强化学习打开后的天花板还是更高的。

我我觉得离实现 AGI 更 make sense 了,包括我自己使用 cloud 3.5 也是一个切身体会吧。

有什么最有效的指标能够衡量 RL 的进步?

我感觉一个是 AI 能写出的有效可靠的代码的行数。

就去年的时候只只能写 20 行,今天能写几百行了,也许明年就能写几千行了。

你比如说今天你让他写一个美团官网的这个程序,对吧?

其实那个 cloud 3.5 sonate 我感觉是一个显著的提升嘛,其实最近你看那个 cursor 很火, cursor 很火背后就是我感觉很大的原因是他接了 cloud 3.5, 以前不 work 的事,今天 work 了,我觉得这是一个很大的代码的行数,是一个能有效体现的很量化的一个指标。

嗯,然后我觉得还有一个指标,就是说这个有一个公开的比较呃权威的那个数学题的测试集吧 GT 今天就解决七八十分,我觉得未来在没有人工干预的情况下能不能得到 100 分全部解答不追求速度,让他 self play 自己去解,如果全对了。

那我觉得是一个很大的突破的诶强化学习 RL 目前全球来看谁最领先?

嗯,这个是不是 Google design 强项?

我感觉还是 unsorry 和 open i 比较领先,因为去年 Diario 访谈的时候就公开提到过 RO, 包括你看欧派也在造势草莓对吧?

q star 我感觉背后其实也就是强化学习 AR 吧。

Google demand 呢?

它是在传统的强化学习很强,新范式的这种 selfplay 呢?

其实还不太确定,但迪曼的人才优势还是挺强的,但不确定管理层是不是重视吧,我感觉除了这几家之外,其他的模型公司应该还没开始重视,或者不知道怎么做,甚至拉马应该还完全没有。

接下来我们有什么值得期待的一些大的事情或者节点?

我感觉就是接下来的一两个月, cloud 3.5, OPS 和 high 库这些模型发布,包括 open 肯定也会发新模型对吧?

因为草莓也造时很久了,你看看效果怎么样吧。

你觉得会让我们吃惊吗?

就是超出我们的预期吗?

草莓这个项目我感觉能力还是会变强很多,某些能力上会很强,尤其是 coding mess 对吧?

嗯,那在局部领域,在未来一两年,我觉得 coding 是确定性更高的,能看到局部的 AGI 吧,或者局部超过人?

嗯,你让他写一个很复杂的程序,在人的指导下,一个不会写代码的能生成一个很复杂的程序,我觉得这个是很有可能的。

最主要是人的预期太高了,我不确定模型的迭代是不是满足大众的一个预期,因为毕竟 coding 还是专业领域的,有很多大众群体有时候感受不到的。

我觉得更长期的一个期待就是看强化学习的天花板能走到哪吧,能不能在更多领域泛化通用,我觉得这个是更重要的。

在你看来,国内公司现在应该全面地跟进 RL 吗?

我感觉如果 model size 短期上不去的话,这样其实对 open i 这种头部公司是比较麻烦的,就是说对后面跟进的公司应该还是利好的吧?

我我感觉如果是我的话,那应该 all in 200% 的资源跟进嘛,或者说怎么去发挥人力的优势,用更多的人去标数据去设计真的有效的 reward model 对吧?

但这里有个前提,就是你没有一个很强的底座模型是没办法做 self play 的,你做那个效果是很差的,或者说别人用很强的模型看到的东西,你用很差的模型是看不到的。

诶大家有可能利用这个 RL 弯道超车吗?

我觉得会有的。

但是我感觉语言模型跟 r 呢,它是一个乘积关系,是一个 a 乘 b 的关系,如果你这个 a 别人是 8 分,你是 2 分,那你那个 b 变化很大,乘不上去。

乘不上去我感觉是一个层级关系。

范式变化有可能会给市场带来什么样的结构性改变?

我感觉就是下半场开始了嘛,以后就是 hour 的天下了嘛。

我感觉目前看 reward model 能泛化到整个文本推理领域,这个概率目前还是比较小的,因为不同领域对如果 model 呢定义很不很不一样。

嗯,其实这就给了很多创业公司去建立垂直领域 reform model 的一个创业机会吧。

但我感觉更具体的你得看 open and story 是不是把 reward model 的 finetune 接口开出来,我觉得这个是很关键的,其实每个领域都值得建立一个垂直的 reward model, 这样我感觉在每个垂直领域都有很多的收益。

那创业公司呢,就得找到这个 reward signal, 我觉得这个是比较重要的,我觉得机会挺多的。

比如说一类是给垂直领域建立 reward model 的,比如说金融,法律对吧?

还有一类是通用的,就说你用一个 agent 建立一个通用的场景,比如说一个浏览器,也有一些公司在做吧。

当然一还有一个大的变化,就是说有可能不需要叫超大规模的单一互联集群了,其实这里面不确定的是 GPU 需不需要那么多,但短期肯定是需要的,长期不好说。

不过我感觉这里面我自己最兴奋的是 coding 编程,嗯,编程能力的民主化,我觉得这个是一个很重要的赛道吧。

bad way 再问一个问题啊,假设模型能力就停留在这 diff o 的这个水平会怎么样?

我觉得也有一半的概率能实现 AGM 啊,如果 r 能泛化的话,那我就没问题。

如果不能。

那下线可能也是能把传统的机器学习都剔掉,以及 coding 会很强,那 coding 如果很强,有可能也会在很多领域加速。

我们接下来聊聊硅谷的 AI 的赛道。

我自己先说说我对国内市场的感觉啊,因为我觉得去年和今年初,大家呃中国投资人在狂热的用 club deal 的方式投了一波大模型公司之后,今年中国最火的投资主题好像就是人群机器人。

那硅谷呢?

就是你怎么定义硅谷的 AI 赛道。

对,如果是新的 AI 赛道的话,因为我们自己只看模型嘛,我觉得具体来说就是得靠 AI 这一波模型为基础的。

我们自己画了几个圈啊?

最大的一个圈就是大圆模型对吧,这是这一轮技术革命的核心。

那围绕大圆模型呢,其实外面有 3-4 个圈,我感觉就是说搜索, coding, 视频,包括理解和生成啊,还有机器人,我感觉就是一个大圈,可能套 4 个小圈吧。

可以展开聊聊每个赛道。

我可以先说一下代码,就说为什么代码会成为一个单独的一个赛道,是不是足够大。

其实你看代码这个方向,过去一年在硅谷还蛮热的,就是有四五个独角兽公司吧, AI 程序员 Devin, Augment, 还有 Magic, 还有巴黎的 Poset。

其实这几个公司最新都已经二三十,因为已经估值了,包括好几家产品还没法用呢。

那个包括还有 cursor 对吧,一个最近特别出圈的编程工具。

CURSOR 火呢,我感觉背后最核心的还是 cloud 3.5 sonate 代码能力变强了,就是刚才聊到有效代码从几十行变成几百行,我自己有个比喻啊,就说 cloud 3.5 solid 可能就是这个行业的 iPhone 的摄像头。

今天的 CURSOR 呢,可能就是一个基于这个摄像头之上的一个拍照工具。

今天的 curse 呢,我觉得还是给专业群体的一个工具,还是很早期的。

其实我觉得最期待的就是能一个给大众级消费的 coding 编程工具,就是为什么期待大众级呢,就是我感觉背后还是有一条叫技术民主化的一个趋势吧。

就说你看 Adobe 的 Photoshop, 其实在创意和内容里面很强,全球两三千万的专业设计师,这个吃饭都靠这个对吧?

但是你看在大众群体里面,基本上还有抖音,剪映 camera 这种消费级的,而且活跃用户都是上亿级的,嗯,比 food shop 几千万呢还要大一个量级。

其实你看 iPhone 是有摄像头的,但抖音没有,在苹果对吧,还是有一个独立的超级应用。

我觉得未来有一种情况,就说我用一个自然语言描述我的任意一个需求,比如说我给手机说,让超市每周一 8 点 给我家门口送到一些水果,这周的食材对吧?

嗯,今天是没有一个程序能满足我的需求的,甚至说以前的程序只能满足头部的需求对吧?

长尾的需求就是没有被满足的。

嗯,那我感觉就是未来就是一个自然语言编程,然后 agent 是叫多步长距离的推理能完成的对吧?

我感觉如果投 coding 的话,只做专业开发者群体是有限的。

我感觉上线天花板可能就是 GitHub 十个 b 对吧。

然后我觉得最有想象力的故事还是应该去做大众消费级市场,它有可能就会有一个叫 task engine, 叫任务引擎, Google 是一个叫搜索引擎 search engine, 我感觉这不就新一代的 Google 嘛, Google 是信息对吧?

嗯,那 task engine 就是说完成任务,那完成任务才是这一轮技术革命下最核心的一个主题嘛。

当然这里面谁来完成不好说,是不是拆 p 完成了,甚至说现有的搜索公司完成了,还是说落到这些 coding 的公司,我觉得不确定。

甚至说今天做专业群体的编程工具的,是不是能下沉做到消费级群体,我觉得也不好说。

之前我们播客说到 plasty 是能够匹配现在呃模型能力的最好的应用,那在 RL 的这个新范式下,现在能匹配呃这个模型能力的最好的应用方向是不是就是 coding 呢?

对。

我感觉就是 coding。

有可能 curser 就是今年的 propoacity 模型能力匹配产品最 match 的一个阶段。

嗯,因为就是刚才提到代码生成能力从几十行到几百行,那 cursor 变得更加的 work 了,但 cursor 跟 purpose 的,我感觉我们也在想这个对比啊,就说搜索和广告这个市场是足够足够大的,你抢过来 1%, 这个生意都很大。

但代码呢,其实付费群体是不够大的。

其实这两个领领域它都有个巨头的编程工具,最大的是微软的 vs code, 嗯,那个垄断性也很强,但是广告的生意足够大,我感觉这个是个相对的不同吧。

但另外就是说 purposity 和 cursor, 今天它的门槛都还是偏高的,就是怎么下沉到更大的大众消费级市场,我感觉这个可能是大公司出现机会的所在的地方嘛。

中国有 plastic 和科室吗?

Meta、 Jane, Spark, cursor 还没有。

这是 coding 那下面是视频,除了 coding 呢?

除了 coding 就是视频。

我感觉 coding 和视频是我现在最兴奋的两个赛道。

觉得应该去 byte 的两个吧。

为什么视频呢?

就说嗯。

首先我们能看到 server 出来之后,过去的半年视频生成的进步效果非常大。

其实你看半年前一个人走路那个动作是很慢的,今天是很丝滑的。

其实 Sara 给行业的推动我感觉是很大的,就是给大家指明了可以走向 DIT 这个路线嘛。

为什么看视频?

我感觉就是大家可能远远地低估了创意和内容这个赛道了。

其实你看手机有了摄像头之后,每个人都可以拍视频了,就有了抖音对吧,其实很多抖音的视频播放量能能几个亿,影响力完全比传统的大导演影响力还要大。

但如果视频生成能力如果很强了呢?

那我觉得人人可能都是电影级别的一个导演了。

我们每个人都有自己的想法和创意,只是说之前没有能力实现,今天呢,可以低成本地实现了。

就以前一部电影可能几千万美金,上亿美金的拍摄成本,那未来有可能很多爆款的电影可能就几万美金的成本。

从编剧到生成到甚至到营销,我觉得甚至可以简单地说,就说未来 AI 能不能产生更多的李白、杜甫、毕加索、梵高,就 AI 生成的内容质量是是更高的,人和 AI 共创,可以有更多的天才的想法能被实现,我觉得这是一个很兴奋的,我觉得电影只是一个例子啊,就说因为今天 AI 的可控性还有限,那有可能在游戏领域可能是更早容易落地的。

我我觉得游戏是一个非常有意思的吧,但是今天的视频生成呢,整个格局特别不稳定,它不像语言模型一样,大哥老二座次比较清楚。

视频生成其实这整个领域的风险我感觉是巨大的,就是为什么他们不能稳定下来,技术架构没有统一,今天叫各领风骚,100 天,每家都有一个自己的 BAT, 比如说有的人去做广告群体,有的人去做电影动画,用的数据也不一样,有可能我感觉这个会像内容行业,有可能它不像是语言模型一样,赢家通吃。

嗯,它有可能是分散的一个视频,这个赛道是很诱人的,但是风险很大。

如如果你往大了说,它可能有新的 TikTok 这种级别的机会,但是这个窗口有可能是比较长的,今天已经开始了,但是有可能这个决胜的窗口可能是得持续个三四年。

所以我感觉这个过程中就得紧密地去跟着,甚至说你今天可能就得下场,或者去 BAT 一些东西,包括未来技术架构也是会变化很大的,有可能会有完全全新的架构出来吧。

视频不止在深沉,理解也很关键。

对,其实你看 Meta ribbon 眼镜,这个就蛮有趣的,它现在可能销量有个上百万台,但假如全球有 1 亿人每天戴着这个眼镜,我觉得他能从我们日常习惯里面总结出来更多的人类的习惯,商业的习惯,我没有发现的规律,我觉得它就是新的。

牛顿嘛,能总结出来很多我们没有发现的规律,而且这个可能还是采集的非常关键的一类数据,有可能这是机器人需要的很重要的数据。

第一视角呢?

你怎么看语言和视频模态的关系?

我感觉语言还是最难的,就是刚才提到它是一个人类几千年的一个抽象,语言的竞争其实是最激烈的。

做次排名,我感觉今年跑完基本上是就稳了,别人想再翻盘,我感觉挺难的。

但是视频的格局呢,其实座次很模糊,变化会很大,我感觉有可能有一个语言底座,再加其他模态,有可能是相对容易的,但其他模态想反向的再做好语言模型的底座,我感觉是比较难的。

视频那块有可能会独立或者多家共存,就像内容产业也是有可能的。

视频生产你最看好的是哪家公司啊?

我觉得现在比较难说,因为格局不稳定嘛。

baton 任何一个初创公司风险都是很大的,你只能在这个阶段相对选最优。

因为之前最早 runway 很火,后来皮卡的营销很出圈,今天从视频生成,它流量上鲁马是 Runway 和 pick up 的七八倍了。

包括 Hyper 有些产品做得也不错,包括今天我们还不知道 open story 2.0 进展怎么样,它肯定是资源上、人才上肯定是更强的嘛。

你包括字节跟 Meta, 它肯定是在它们的核心辐射之下嘛。

我感觉今天不好说哪一家最好,我觉得这是一个在未来三四年也是一个关键的角逐的赛道吧。

除了 coding 和视频,第三个是机器人。

通用机器人嘛,其实硅谷这波通用机器人的 help, 我感觉还是 open 带起来的。

就说大家想赌一个具身领域的 OKR 嘛。

但这个赌注呢,我感觉不是一个商业和投资问题,其实还是一个基础科学能不能突破的问题。

嗯。

好像还挺早期的。

对硅谷的这些通用机器人公司,我感觉本质上都还是一个 research lab, 还不是一个商业公司。

但这个 lab 呢?

你说到底是两三年突破还是 10 年突破,我觉得不好说的,今天肯定是靠着 10 年这个时间维度的。

我感觉这里最核心的是说谁能像 open i 一样能融到二三十亿美金,你能有足够的资源多试错几次。

如果没有基础科学突破,那我感觉这里面优秀的人才还是会被大厂给兼并过去吧。

那另外一个你看不同的是大语言模型跟机器人,机器人的重要性对大公司来讲其实没有像语言模型那么重要,语言模型好像在每个科技巨头的主线之下,因为不是每个巨头都得要做机器人的。

今天做机器人的巨头我感觉主要是 Google, Tesla 还有 Amazon 这三个了。

其实你看 Google, Tesla 内部的团队,我感觉都比外面还要强,每年投入几亿美金,他们自己并不一定会像微软一样去支持一个巨深的 OKR 嘛,我感觉还有一个很关键的基础科学问题,就是说今天还没有在通用机器人领域看到通用和泛化能力,大家都是针对特定场景去做一些叫模仿学习。

a 设备采集的数据, b 设备现在还不能用。

我觉得这就是一个有趣的吧,甚至说你今天采数据的成本都很高,从几十美金到几百美金不等,甚至每个场景都要采几百个小时。

场景和产品定义今天没有看到哪个好的,或者说你真的愿意买一个带回自己家的就真的有用的。

你今天让他帮你把衣服放到洗衣机里,再烘放到烘干机里,你让他去把吃完的这些餐具放到洗碗机里,再倒上洗碗液,这个好像都做不到。

对,而且他可能做到了 a 这个,这个场景 b 就做不到。

对,完全没有对。

但我感觉中国的语数是比较好的,他起码可能是一个机器人的富昌,这是打底的,那其实这个背后还是中国的供应链优势比较强。

现在美国的通用机器人有哪些明星项目啊?

欧鹏安投资了一个机器人公司叫 figure AI, 你这个有了解吗?

对,我感觉美国我认为的最头部的是两个吧,一个是派,是 Google Robotics team 出来的, Chelsea 啊, circuit, 他们几个我感觉是人才上绝对最强的一个,然后还有另外一个是自动驾驶公司 Cruise 的创始人 Kevo 做的 the boat。

我感觉这两个是核心圈的,包括那些 researcher 认为最头部的两个吧,除了这两个,我感觉声量和融资还比较大的还有红杉美国投的一个 scale 的 AI, 还有一个 figure。

差不多这几家公司,你刚才问到飞哥,我感觉他是融资能力比较强, CEO 讲故事能力特别强,而且 OKR 投了他,我感觉好像就投了几个 MINI, 并并没有投那么多钱, CEO 好像讲了一个故事,说 OPI 的机器人的模型交给他们做的。

我感觉其实合作形式可能就是飞哥给欧拍一些机器人的数据,然后欧派有一个团队帮他 FIN 撑一个机器人的模型,飞哥去把这个东西啊,端到端弄好。

但我就感觉飞哥这种定位吧,你的 AI 能力也不是最强的,硬件能力又不如中国公司强。

他只能说在硅谷的话硬件能力相比其他公司强,就是端到端优化可能好。

我总感觉竞争力定位比较尴尬,那硬件肯定还没有 Tesla 强。

反正我感觉这个公司是有点被高估的,人才密度上好像也不见得有另外几家公司强吧。

所以你觉得第一梯队是 the PI 和 the boat?

对,中国第一梯队你觉得是谁啊?

在通用机器人这个赛道。

我觉得还是非常不清楚的。

今天去投通用的 timing, 我觉得还是比较早的。

投人行呢?

我觉得人行和通用是一致的。

一件事一件事他没有可能先把人形机器人这个形态做出来,然后再等着通用能力灌到这个机器人里面吗?

我觉得最后是需要 fundamental 基础可以突破的,没有泛化通用我觉得是来不了的。

据你观察国内的机器人和硅谷的机器人项目团队有哪些不同啊?

我感觉国内应该走 Tesla 这个路线吧,从模型到硬件,端到端 AI 在模型上可能投入不用很大,你就等开源嘛。

那国内做你肯定是先定义好硬件产品或者场景,你先找一个特定场景去落地的,你像 Tesla 就有出行这个刚需场景,手机也是一个通话这种刚需场景,你才能落地把轮子转起来。

我感觉今天想做场景或者动作上完全通用,这个技术上本身就是不 work 的,因为你做了 a 动作, b 动作是没有泛化的,你在 a 设备采集 b 设备也不能用对吧?

我感觉硅谷现在都是想投一个机器人的大脑,那想做 iOS 或者安卓在国内你就读整机嘛 OV 小米对吧?

华为但我感觉还有一个,就说从终局来看,有可能不会是一个 AI 模型适配所有云店,你像 iOS 安卓是一个适配所有云念。

但是我感觉机器人因为 a 设备采的东西, b 设备 Wework, 它有可能就是得端到端的,从模型到硬件到数据端到端的优化,我觉得有可能是你就得找到一个好的大的场景去大规模的收集数据,针对这个单一场景去端到端优化,而且 AI 能力还只在这一款上先体现。

我觉得 Tesla 那套逻辑可能还是 make sense 的,其实机器人跟自动驾驶我感觉还是相通的吧,但硅谷除了 Tesla 以外制造能力都不太行,我我觉得肯定还是需要中国的供应链能做出来的吧。

硅谷我感觉是看不到有什么整机全套的产品出来的。

人情通用这个大爆发这个 timing 可能还是得叫 5 - 10 年 这个范畴吧。

嗯,很可能这批公司没有真正做出来,我觉得很可能 5 - 10 年 大家都还是在一个 research lab 的一个阶段。

所以那你就得 baton 最牛的最独特的一些科学家人才了,你等着被大公司收收购嘛。

但硅谷是容易收购的,中国好像这个收购习惯不多吧。

通用机器人最核心最核心还是技术的 timing。

所以你在硅谷投一个精神大脑,在国内投整机,这个我感觉是一个比较害的害者。

但又有一个悖论,就说是不是有可能不存在一个机器人大脑,有可能这个大脑就是 GBT 或者通用的大模型,你做一个机器人大脑呢?

有可能它也不适配所有硬件, a 机器的数据不能用到 b 机器上,这也比较尴尬,还得端到端的适配。

今年巨声智能这个赛道真是太火了。

国内的投机器人的投资人说,在大脑层面,国内有很多做这方面研究的华裔的科学家,所以他们不担心在 AI 能力上追平美国,他们觉得这个差距是要比大模型要小的,你怎么看?

以及你觉得中国的这些公司有没有这种 research lab 的文化?

我感觉国内硬件能力肯定是非常强的,国外的 AI 能力是非常强的,我感觉如果能有什么团队能把这两个能力结合到一起,这个肯定是最好的。

然后你从大模型到多模态,再到巨神智能,包括未来的世界模型,我感觉这是一个 AI 发展的过程吧,其实每个环节都有自己价值,甚至说这里面的很多的 AI 人才是可以跨界的吧,你比如说做多模态的研究,其实就能促进机器人和事件模型的研究,这里面其实挺多华裔背景的科学家的吧,也有不少人回来了,我觉得是有可能培养出来一些比较好的 AI research 的文化吧。

但我感觉除了人才,其实经济基础是最重要的,经济基础,这种创新环境,甚至说信仰,我觉得这个比较虚啊,但其实很重要,其实这两年愿意回来的人还是在减少的。

相比七八年前,我感觉国内也有国内的优势,就是说各种硬件支持,供应链,也不一定非得照着美国那套逻辑去一等一的去弄。

我觉得最现实的可能还是说解决一些具体场景的具体问题,也不一定非得用最强的 AI 能力。

我觉得今天国内做通用其实还是有点早。

现在是投机器人最好的时候嘛。

我觉得看什么角度吧,如果期待投一个很强通用的能力的,或者说在家庭、工厂做完全通用的任务的机器人,我觉得今天肯定不是最佳的 timing 的,我觉得这个 timing 还挺远的,但今天有这么多资源和人才进入这个领域呢,最后也不至于说完全做不出来什么东西。

比如说美国的机器人大脑,机器人的 foundation model, 我觉得肯定还是会有进展的,那这帮优秀的人才团队可能还是有很大概率去被收购的吧。

比如全球在机器人的投入越来越大,那把硬件做到极致,卖给全球的实验室,我感觉这也是一个挺大的市场。

有可能机器人的研究会带动很多周边的一些研究吧,有可能某些东西先出来。

这一波技术浪潮对于之前成立的这机器人公司会有什么样的冲击和影响吗?

因为这个赛道好像又 10 年了。

对,主要是之前的机型公司呢,它这个商业化还没做好,今天我不确定它有没有足够的资源真的投入到通用人型的研发,其实做人型是很容易的,大家都会发一个产品对吧?

好像没有人型今天感觉就个落伍一样,但是在技术上真的做投入的我觉得是比较少的。

那如果只有一个行,他一直没有技术落地的话,这些公司怎么办啊,拿了很多钱。

今年我感觉还是会走向特定领域,就是大家有理想也会有现实吧,就看谁能先定义出来一个好的场景或者一个好的产品。

今天还不太多。

对,我记得你说他的那个目标不明确。

目标不明确他不像扣的那样那么简单。

对你我我设计一个人群机器人,到底是帮我干嘛呢?

还是帮我搬箱子,还是帮我洗衣服?

对,我感觉现在只有军用场景或者消防场景,未必人的生命更贵嘛,那这种有可能还行,但是军用和消防它还是一个特定领域去优化的,更多还是一个设备的角度。

对,它其实对于是不是人形关注度不用那么高。

对,甚至说对于这里面的 AI 的能力要求是不是有多高。

复盘来看啊,在硅谷过去年哪些东西是超出你预期的?

我感觉超预期的公司层面就两个,一个是 associate, 就是从落后 18 个月到从模型上追平了甚至有微弱领先优势了。

然后还有一个就是 AI 搜索的 purplasty, 这也是我们上次博客聊的,我感觉这两个公司还是有些超预期的。

其实其他超预期的我感觉不算太多, open i 我感觉就符合预期,甚至说他的领先优势没有进一步放大,我觉得甚至有点这低于预期,低于预期一些。

我感觉最近恶补学习了。

强化学习之后呢,我就感觉走向 AJ 的路径更清楚了。

强化学习的提前到来,我感觉是超预期的。

你最近几个月听到最让你兴奋的 idea 有哪个?

我感觉最重要的还是把模型的能力变得更聪明,其实没有其他的 idea, 这还是最重要的。

d 站在今天,拿 l l 我们再去重新对比一下移动互联网,它的主线的叙述逻辑是什么?

有哪些明线,哪些暗线?

对。

我觉得移动互联网跟今天的 IM 做个对比是蛮有意思的。

我们可以画一个图啊,就说主线可能有一条明线,一条暗线,移动互联网的明线可能是全球多了四五十亿的移动用户,一条暗线呢,可能就是有了用户行为数据做推荐,其实过去十年没有做推荐的公司都没做大,我觉得是蛮有意思。

那你看移动互联网还有几个关键的 feature 能力,就是大屏幕摄像头,还有 GPS, 其实这每个 feature 都诞生了,非常大的一些公司的就是大屏幕摄像头呢,就跟 TikTok、 抖音一样,那 GPS 就 Uber、 滴滴这些。

那你看今天的 AI 的主线暗线,关键 feature 到底是啥?

我感觉一条明线还是 skilling law, 虽然是 skilling law 在发生范式的变化,其实 screen log 背后的核心还是 compute 嘛,这个我感觉大家有一定共识,但这条暗线到底是啥?

就之前咱们那个新时代摩尔定律里面觉得那个暗线是成本对,但今天我觉得这条案线有可能是 self play 强化学习。

大家有可能会低估了强化学习的重要性,甚至说有没有一个可能性,今天不做强化学习的公司下一波浪潮里面都跑不出来。

这就跟推荐一样。

那今天 RM 的关键能力呢?

我感觉可能如果让我排序,我感觉是 coding, 多么太数学, agent 这几个吧,甚至说可能还有一些其他的。

就说个性化可靠性啊,我觉得还是跟我们之前提的那个观点一致,就说你观察这几个主线暗线也好,或者关键能力它也是渐进式提升的。

嗯,我觉得应用也是随着它这个渐进式提升逐渐解锁的吧。

你什么时候意识到 r l 这么重要的?

也就最近两三个月吧。

AI 领域的最大体量的数据是从哪里来呀?

移动互联网最大的数据来源都是新产生的,而不是旧的应用的积累。

我感觉可能是做强化学习的过程中, AI 产生的数据加上人指导的数据,就是一个教练员指导一个运动员反复训练的这个过程中产生的数据。

站在今天啊,你能不重新评价一下中国这些 LLM 的公司?

我感觉大家在模型上做得都差不多,技术辨识度依然还没有完全拉开,背后我感觉还是因为做了太少的基础研究吧。

嗯,其实很少有人 baton 前沿的研究,大多数都是在 follow 硅谷的进展,把硅谷的一些技术做产业化落地。

另外一个就是想做 AJ 的呢,可能不多,大家都想做 KLAP, 但今天呢,可能还没有看到 KLAP 长什么样的影子。

今天可能还主要局限在 chat, search 还有 character 这几个产品形态。

我感觉今天还是 AGI 的故事在称估值,月亮和 6 便士吧就是,但也没什么好办法,是我的话我可能也只能这么做。

我感觉还有一个就是说去年的时候大家可能都花了比如说三五千万美金去训练了一个初代模型,大家有可能能力上做到了 GB3.5 的水平,但我感觉后面可能很少有人再继续跟进几亿美金投入再训一个模型了,甚至说我感觉得有百分之七八十的公司会放弃 pretra 预训练,大家直接用开源去做 host train 就可以了,因为大家去做预训练有可能还不如开源这个水平。

我感觉可能大家是没有明确看到未来的收益吧,包括女贸然做 Persian, 这个资源投入的风险也太大了。

呃,年内你预计有几家能够达到 GBT for 的水平?

你觉得 GBT for 的水平还是一个关键的门槛吗?

我感觉国内会真正意义上达到 GBT for 的,我感觉能,至少能有两三家的,比如说字节, deep seek, 还有接越这种。

还是在认真地做 skill up 吧。

我感觉 GP4 还是一个走向下一阶段的必要条件,如果你这个不行,后面还是一个 a 乘 b 的乘积关系,那你的 a 不行,那我觉得是比较吃亏的。

但 GBD four 和 r l 可能需要同时做。

对,中国应该加大投入 LLM 吗?

我感觉现在投入还是太少了吧,你看移动运营商 4G 和 5G 的投入应该都是七八千亿人民币的量级吧,公路高铁投入也比较大,对 AI 方向你再怎么投入都不为过。

我觉得这个还是挺可怕的,就是就我们想想为什么会有鸦片战争或海湾战争,这是不对等的一个东西。

为什么我们的技术研究做得不够啊?

我感觉很简单,就是经济基础不够厚,你失败了就得出局了。

其实基础研究我感觉是一个社会在资本富足后的一个奢侈品嘛。

其实你看当时为什么有贝尔实验室,是因为 ATNT, 它很赚钱,包括迪曼呢,之所以存在每年的投入那么大,还是 Google, 它有印钞机业务嘛。

我觉得如果没有一个强大的经济基础,其实没办法支持这些科学家去冒险的。

你包括愿景和文化也很重要啊,比如说 AJ 就很诱人对吧,就能吸引到最优秀的人,他也不用太担心这个商业压力。

我觉得一个非常纯粹的研究性的组织,这个文化愿景我感觉也是很重要的。

基础研究一般来说需要什么样的文化?

冒险文化吧。

中国以前就是一个农耕文明嘛,更好自己的一亩三分地,你看我们写的这些 paper, 领导让这个人写那个人写对吧?

量很大,但是 fundamental 突破的极其极其少。

因为欧美它是一个海洋文明嘛,我感觉是勇于冒险或者探索未知的东西,也有契约或者合作精神。

我觉得研究的氛围很重要,就是要一堆很强的人在一起碰撞。

今天我们的牛人都分散了,每家都有,也没有集中起来。

怎么才能更好地支持基础研究呢?

我感觉就得让有经济基础的富人和有利润的公司多投入吧,甚至鼓励科学家们的一些造富效应,因为因为社会总是有少数人创新和冒险推动的。

而且这个基础科学研究的投入亏了对富人没啥影响,但成功了也得让这些人赚到大钱。

我觉得千万不要拿穷人的钱去做科研冒险,亏了钱就会有人拉横幅啊,让科学家们的包袱负担会很大吧。

你在美国创业,你容易美金亏了可能被大公司收购了,擦了屁股有可能三年以后再来了。

嗯,但在中国,你亏 1 亿人民币,我感觉创始人连带好长时间翻不了神啊。

我感觉这个同样亏了要一个亿的单位货币,其实结果还是区别很大的。

所以还是得先支付再冒险和创新嘛。

最后一部分,我们照理来点评一下硅谷各个主要的 player。

第一个毫无疑问是 open AI 了,在 open AI 的商业上,过去一年你有什么总结?

我感觉还是有点浪费了技术领先的红利吧。

你看 GD4 刚出来的时候,去年初多么多么的领先,但是这个领先优势呢,并没有转化成很明显的产品或者商业的飞轮上的一个优势。

你说今天它可能有 40 亿美金的 AR, 年底可能七八十亿美金,这个也不差,数字上很成功,但我感觉按理上应该说更好的,我觉得背后有一个很大的原因可能就是没有找到对的人,做出更好的天才的产品。

你比如说咱们提到 self play r chagpt, 其实今天可能没有很强的数据,飞轮的它不像推荐系统、广告系统这么强。

包括你看欧派除了 checkt 以外,其他的产品好像都不算太成功。

Sofa 今年又发了 Zara 对吧,又发了 search GPT, 包括之前的 plugin 也好,大力也好, GPS 也好,好像都有点感觉产品没做好就发了,自己也没啥好处,反而是启发了行业吧,就有点给行业做公益的感觉。

拆 GPT 的订阅这个商业模式吧,今天看我觉得比广告还是要差的,广告这个商业模式还是今天最好的商业模式。

在 OPI 的组织和人才上,你怎么看他们?

感觉今年一直都很动荡,那么多离职对他们影响大吗?

我感觉不会有 fundamental 的影响,首先是最核心的人没离开,其次呢,欧派也不会说缺了某个人就转不下去了。

我感觉他们的人才密度极其的高,反而管理可能不一定压得住,我感觉人才是过剩的。

但是有一些核心的创始人离开呢,有可能对整个公司的内部信心啊,包括凝聚力啊可能有一些影响。

哎,创始人都走了,甚至还加入了竞争对手公司。

我觉得这个可能会有些信息上的影响吧。

比如说 Greg Brockman, 他是联合创始人和总裁,他离开影响大吗?

我感觉技术上影响应该不大,也许历史使命已经完成了吧。

但 Greg 应该是最 open 的人吧,就是感情极其深的一个人。

我觉得也不清楚他现在的状态。

他是说长期休假是吧?

对,也许硅谷也有这个文化吧。

但是最近哎,在湾区也有好几个朋友碰到他在跟一些比如说人聊天吧,不知道这是 founder 还是招聘还是 VC, 不确定他会不会说,比如说自己创业什么的。

Greg 以前是一个比较喜欢 0-1 的人吧,但我感觉好像欧盘,我不知道算不算完成 0-1 了吧。

我感觉如果说依然去做 AGI, 他应该留在 open 做 AGI, 或者说 maybe 离开后去创业也比较有意思吧。

另一个联合创始人 Joe Shuman 呢?

他全部加入 Utropic。

join 离开应该影响也不大,因为他以前是 post training 和 hour 的负责人,按理说 hour 是今天核心的核心嘛,那那其实他平时不太喜欢管理,很多工作去年都已经交给另外一个 Brat 了,他们现在 post stream 的核心。

我感觉他就想独立地做 research, 做 IC 吧。

unsulpian, 一个比较纯粹的 research lab, 可能这种文化 maybe 可能更好。

但我感觉他可能加入 unsocker, 也许对 unsoversion maybe 帮助更大,因为有可能两个公司的信息就拉齐了,作为核心的管理层。

但是有可能欧派不一定知道 Ansorry 的核心信息, open i 人才足够的多,而且核心的人并没走。

其实这些人离开可能影响并不大。

一烈的离开,今天回头看,可能的原因是哪些啊?

大家说他离职跟 q star 有关。

我觉得一种概率就是伊利亚可能更早地看到了实现,不止 AGI 吧,叫 Si, 叫超级智能的一个更快的路径。

但也许比如说去年的时候跟 Sam 没有达成一致, Sam 可能更追求商业,或者拆 PPT 这些,那要么就是管理层可能有一些不可调和的矛盾。

其实你看伊利亚的新公司叫 SSI 超级智能,我感觉他很很自信,似乎看到了实现超级智能的路径,不然也不会轻易开一家公司,甚至说可能近期都在更激进地招人。

你说伊利亚能 BYTE 啥呢?

我感觉还是 BYTE on 强化学习, RO, q star 这些东西。

其实 q star 最早是基于 deep man 的一个 paper 吧,应该是伊利啊最早提出来的,其实刚才我们聊到 18 年 他就在提这些东西。

其实做强化学习是 open i 很深的一个传统的。

我感觉如果 kick star 真的是伊利亚提出来的,我感觉他应该很早看到了纯语言模型 pretrain 的一个不足了吧。

草莓更像是一个项目的代号吧, r 呢,其实是方法 cue star 可能是最早的一个缘起的 paper 啊。

q star 是个 paper。

最早定慢的有个 paper AI 解释今天你就颠覆了任何的巨头?

没有。

主要是 AI 的颠覆性好像没有那么强,或者说时间没有到,但我感觉更会重构很多巨头吧。

其实你看今天的 GPU 和 AI 的人才都很贵对吧?

其实有点像你去组织一个战斗机飞行编队,有的飞行员可能就开 100 个小时,有的人能开 1000 个小时,有的人开 1 万 个小时,这就是所谓的百卡人才,千卡人才,万卡人才。

其实你没有开过战斗机,经历过大量的训练,有可能他就不一定是一个好的飞行员。

那创业公司今天就缺卡吗?

我觉得还有一个比较大的不同,就说今天的 AI 只是改变了生产环节,但是分发和消费环节都在成熟的老公司这里。

美国红杉的合伙人 David can, 他不是发表了一篇文章是说 AI 的 6000 亿美元之问嘛,他就说每年需要填补 AI 的收入缺口增加到了 6000 亿美元的,强调了这个收入增长与基础设施投入之间的差距。

你怎么回答他这个问题啊?

我觉得挺难回答的。

这个文章标题我感觉也有点标题党,其实也肯定也没有华律迁移那么多啊,因为大头还是有些大公司语音啊广告啊用到的多,真的用到模型上的其实我感觉还可能没到千亿美金。

我感觉 revenue 和 use case 肯定是低于预期的,我觉得这个是共识,但这个也没办法,但我感觉只能说看下一代模型,尤其是 GP5, 或者说草莓这些的进展吧。

我感觉 David 讲的这个问题其实是一个历史规律问题吧。

其实每一次科技变革都是经历先硬件投入,再英菲尔建设,再应用爆发。

历史上也都是先有铁路建设,再有后来的经济活动,先有芯片、 PC、 iPhone, 再有移动互联网,先有数据中心,才有企业上云。

我觉得还有一个有意思的,就说 2010 年 的时候, Amazon 当时只有思科的 1/3 的市值,那个时候思科已经 1500 亿美金了,但现在思科是 2000 亿美金, Amazon 是 2 万亿美金,10 倍了。

所以我觉得硬件投入、 Infra 建设可能还是需要时间的,应用和收入其实是后半程体现得更好的吧。

我们其实前段时间做了一个 API 的指数,嗯,代号叫 AJ x, 其实就是反映了不同阶段的公司变化吧,其实这个指数里面 40% 就是一年公司的权重,就是尤其半导体产业, 40% 是 Infra 的公司, 20% 是应用的公司。

我感觉随着 AI 建设的发展,其实后面这些的权重比例肯定是要增加的。

你比如说我们看到 service now, Parentier, 其实这些公司在应用上进步还是比较快的吧。

在 2024 年 Q3 AI 去世还有哪些非共识?

这个问题也比较有意思,有可能开源模型和小模型在很多特定高价值任务上并不 work。

嗯,比如说我们就拿 purposity 来看,其实你同一个用户问同一个问题,用不同的模型,这个答案差异很大,因为你用这个产品去做探索,其实一个大的模型,一个小的模型,对你的结果,用户体验影响是很大的,那其实在很多复杂任务上,那你的问题解答率就比较低,最后你还得又回到 GBSO 或者 cloud 3.5。

我觉得这是一个过去几个月观察到一个很有趣的,就是发现用开源或者用小的很多问题解答不了,这个是一个关键,非公式吧。

第二个我感觉是很多硅谷或者这一波的 AI 公司,它不是商业公司,我觉得本质上还是一个 research lab 的一个感觉,有可能在美国就是个常态,就像贝尔实验室, ATT 支持一个 lab 对吧,巨头以投资的形式给到 funding 支持发展这个 lab 的研究成果呢,再给到巨头做商业化啊,其实这样也挺好的,因为巨头内部的文化,包括人才不够,可能也做不出来 lab 有一个自己的好的文化,而且巨头投的这些钱还不算亏损,巨额的亏损还不用并表,我感觉有可能还是不错。

有可能会不会这是一个常态,这些公司就是一个 live 的形式,我觉得有可能也不指望它真的有大规模的商业爆发。

我觉得还有其他很多好玩的,你比如说可解释性的研究,我觉得研究是一方面,但如果可解释性研究真的突破了,其实更重要的是对后面怎么设计新的模型是有很大帮助的。

其实你看今天的模型的参数很大,但真的你每一次 query, 它激活的参数是很小的,你把那些其他的参数砍掉是没问题的。

这个就很像人的脑,科学的研究嘛,人脑也是分区的,那最后真的研究清楚模型的可解释性激励,我觉得这个是蛮有意思的。

很多人预期多么泰,但多么泰真的能不能带来智能,有没有 schema law 不好说, code 有没有 schema law 不好说,我们相信是有的,包括刚才聊到数据和代码能不能泛化到更多领域。

后面的追赶者相比领先者的结局到底是怎么样的?

历史上有非常多的追赶者,嗯,但是结局往往是不太好的。

虽然说头部可能遇到一些路线上范式上的变化,但是追赶者真的能追上或者反超吗?

这个不好说。

追赶者为什么一般命运都不好,因为我国内的模式创新,他们就会觉得一般都是第二名追赶者成功。

第二名反超。

第一名成功的好像只有抖音,反正快手,其他历史上好像美团好像也不是第一个。

对,美团做外卖也不是这种也有 carry 点。

AI 之后,哪些 AI 公司还有可能被收购啊等等,做个预测。

purpose day, 比如说 Amazon, Meta, apple。

我感觉好像每个科技里头都有一个做搜索的梦想。

像 purposey 这种搜索的意图数据是极其有价值的。

嗯,能让平台公司能更深入地了解用户的需求,提升广告或者服务的一些匹配度吧。

另外,搜索的整个技术栈其实是最前沿的,能反向带动整个平台的技术栈的升级,其实你看微软有了必应才能在做挨着这个语音的时候是更有优势的。

Mr 我感觉也是, Mr 并不是说做不下去了,我感觉他做得其实还蛮好,但是他不一定能进到新的赛场里面,所以有可能我觉得值得一个巨头去买掉它吧。

2000 年互联网 bug birth 以后,只留下了 Amazon, 今天如果 AI 的 help 破灭了,谁会是下一个 Amazon?

这也是很好的一个话题。

我感觉硬件公司是值得看的,一个是 apple, 一个是 Tesla。

apple iPhone 是还值得继续好好研究的。

虽然 apple 的 AI 能力不是最强的,但是大概率未来的 k lab 还是长在手机上的, apple 肯定还是一个叫无形的受益者,我觉得这个还是一个挺大可能的吧。

嗯,我我感觉 Tesla 也是长期值得关注的吧,真正意义上从一个卖车的公司变成一个真正的 AI 的公司。

嗯,其实整个交通行业还是变化更大的吧,而且它也是一个机器人公司,但今天的增加时,我感觉还是受限于端,测算力有限吧。

在 AI 的大浪潮变化下,你对一二级市场有没有一些预测?

今天看 AI 好像不是颠覆老公司,我觉得很大程度上一个关键词叫重构 enable 一批老公司吧。

嗯,其实 AI 提升了生产力,但并没有改变生产关系,它只改变了生产环节,但分发和消费环节都还在成熟的老公司这里,那生产关系和生产环境都还在老公司手上呢,那老公司大概率还是受益的。

其实我觉得之前我们内部经常举的两个例子,一个是 Adobe, Adobe 在当年上云之前,就是一个几十亿美金的传统软件公司。

你看转云之后,商业模式变好了,市场规模变大了,现在是一个两三千亿美金的公司,包括中国的海康威视对吧?

之前就是一个卖摄像头的公司。

一个硬件公司,经历了上一波计算机视觉的,它的商业模式变好了,规模也变大了,然后增速也变了, PE、 multiple 都变了。

这一波 AI 肯定也会有类似的故事,但这一个大幕吧,我感觉还没有开始。

HR 的第一幕还是科技巨头受益了,第二幕之下,我感觉会有更多的可能,几百亿美金的公司,因为啊,这一波商业模式发生变化了,规模发生变化了,我觉得这个是更期待的吧。

所以我们自己也推了一个二级市场的追踪 AI 的一个指数,叫 Agix, 能更好地追踪这些成熟公司吧,也能更好地理解,希望成为一个 AI 领域的 QQ q 吧,或者长期收益能 beat QQ, 我觉得这也是一个 anative 的产品吧。

好啦,这期节目就是这样,如果你喜欢我的节目,欢迎前往苹果、 potcast、 腾讯新闻、小宇宙、喜马拉雅、 QQ 音乐订阅张晓俊商业访谈录。

如果你有其他想邀请的嘉宾、想听的内容,或者你有任何想探讨的话题,都欢迎各位听众朋友们在评论区里留言。

那我们下集再见,拜拜!