其实 能 称得上 范式 级别 的 就是 一个 强化 学习 这个 事儿。 草莓 更 像是 一个 项目 的 代号。 L 其实 是 方法, q star 可能 是 最早 的 一个 缘起 的 paper。 我 觉得 一个 更 形象 的 比喻 就是说 你可以 把 语言 和 预 训练 比作 人类 的 一个 基因组。 携带 着 人类 几千年 进化 的 基因, 那么 强化 学习 就是 人类 成长的 一生。 语言 模型 pre train 遇到 瓶颈, 就是 最近 两个月, 外界 可能 还 不一定 意识到 说 语言 的 pretrail 已经 到了 一定 包臀 up。 甚至 说 有没有 一个 可能性, 今天 不做 强化 学习 的 公司, 下 一波 浪潮 里面 都 跑 不 出来。
Hello, 大家好, 欢迎 收听 张小军 商业 访谈录, 我是小 军。 这是 一档 提供 一手 高密度 信息 的 商业 访谈 节目。 今天 这 集 是我 和 广 密 全球 大 模型 季报 的 第四季, 这 期 2024年 Q 三 季报 提前 和 大家 见面 了。 我们 正在 进入 的 九月份 会 是 A G I 的 一个 大月。 Open I 造势 已久 且 绝密 的 项目 草莓 strawberry 将在 不久 后 揭开 它 神秘 的 面纱。 而 这个 项目 暗示 了 硅谷 A G I 范式 已经 静悄悄 地 发生 了 剧烈 的 转移。
在 纯 靠 语言 模型 预 训练 的 skin law 这个 经典 物理 规律 遇到 瓶颈 后, 多家 硅谷 明星 公司 已经 把 他们的 资源 重心 押宝 在 一条 新的 路径 上。 它 叫 self play R L, 中文名 是 自 博弈 强化 学习。 只不过 这个 共识 还 集 在 少量 的 核心 的 researcher 圈子 中, 至今 尚且 没有 扩散 出去。 那么 self play R L 到底是什么? 它 如何 有别于 传统 路径? 它 能 成为 继续 skin mall 的 一把 神奇 钥匙 吗? 希望 我们的 这个 全球 大 模型 季报, 能 帮 大家 了解 最前沿 的 A G I 动态, 并且 能 持续的 给 大家 带来 一些 新的 启示。
保密 之前 三期 的 节目 里, 你 提到 的 很多 预测 都 验证 了。 那 我们 继续 来做 我们的 这个 全球 大 模型 季报。 今天 是 第四期, 三季度 似乎 在 硅谷 出现了 非常 大 的 变化, A G I 可能出现 了 范式 转移, 这 也 让 这 期 节目 变得 很 特殊, 因为 中文 世界 里 谈论 范式 转移 的 声音 还 非常 的 小。 我们 这 期 节目 应该 是 对于 范式 转移 解读 最 全面 也 最前沿 的 一个。 最近 这 两个月 你 思考 最多 的 问题 是什么?
对我 感觉 语言 模型 预 训练 这个 范式 是 就是 到 瓶颈 了。 模型 的 scaling 的 编辑 效益 开始 递减。 那 接下来 的 路线 怎么走, 包括 这 轮 技术革命 会不会 就此 卡住 了, 我 感觉 这个 问题 就 很 关键。
现在 得出 了 什么样 的 结论 呢?
现在 只能 说有 50% 的 概率, 就是 传统意义 上 的 skin law 已经 失效 了。 当然 另外 50% 的 概率 就是说 沿着 老的 路 还能 继续 走向 A G I 对 吧? 继续 怼 10万卡, 感觉 这 两个 概率 half 好吧, 主要是 现在 各种 evidence 还 不够 多, 还 不能 妄 下 这个 结论, 也 不能 下 判断 说 por train 这条路 就 到头 了。 但 你 目前 看到 的 就是说 纯 靠 加 参数、 加 数据、 加算 力 这条路 肯定 是 不容易 了。 Model size 加上 skill 都 还是 有 一些 问题。 我们 能 看到 就 这 几个 要素, 参数、 数据、 算 力。
你 从 参数 上 看, 现在 最好的 模型 应该 都是 670B 的 总 参数 的 一个 M O E 的 模型, 对 吧? 为什么 在 6 700B 基本上 也是 单 台 server, 现在 H 100能放 得 下 的, 今天 我们 还没有 看到 向 上涨 个 三 五倍, 两 到 3个T2 3万亿 总 参数 的 模型, 或者说 你 卖 上去 两 3T总 参数 吗? 但 短期 的 收益 效果 可能 还没有 那么好, 包括 怎么 skin 的 规律 也没有 说 清楚。 另外 你 从 数据 上 看, 就是说 很多 公司 弄到 15到20 T 的 高质量 文本 数据 可能 还 OK 对 吧? 比如说 每个 月 再 增加 两个 T 但 你 很难 叫 被 数据 的 增加到 50到100个 T 我 感觉 就是 还 得用 新的 方法 去 突破 数据 的 瓶颈。 另外 你看 算 力 上, 就说 英伟 达 H100 这 一个 卡, 单一 集群 最大 搞 到 3.2万张 充分 互联 对 吧? 全球 应该 能有 三五 家 都能 做到 了。
就是 在 B 系列 这 P U 规模化 出来 之前, 我 感觉 算 力 基本上 也 不太会 有 倍数 级 的 提升。 你看 这 几个 基础 条件, 它 不一定 能 支持 今天 的 模型 在 GP4O 或者 cloud 3.5 这个 基础上 做 大幅 的 提升。 我 感觉 可能 走 这条路 就是 比 GP4O 好 一些, 但 不一定 能 像 G P3 走向 G P4 那样 叫叫 显著 跨越 的 好吧。
不能 支持 模型 在 这个 T4 O 的 基础上 大幅 跃升 的。
原因 是什么? 可能 有 几种 情况。 第一 你可以 说 今天 的 scale up 的 幅度 依然 不够, 对 吧? 你 未来 等 B 系列 卡 出来 之后 再 school 可能 就 解决 了。 现在 有可能 就是 处在 一个 真空 的 死亡地带, 那 说明 H 100这1代 卡 可能 没有 那么好。
第二 你 也可以 说是 执行 问题, 训练 更大 的 模型, 就是 比较复杂, 就像 发 一个 比如说 重型 火箭 或者说 芯片 流片 一样。 失败 因素 是 很 综合 的。 你 就 比如说 说 M O E 很大 了 之后, 就是 很难 调 它的 高矮 胖瘦, 你 怎么 摆? 你 训练 2到3万亿 参数 的 M O E 本身 就是 很难, 因为 现在 业界 主流 基本上 是 6 700B 左右。
还有 很 重要 的 问题 就是说 数据 问题? 怎么 搞 出来 那么 多 高质量 的, 而且 真的 能 提升 能力 的 这种 文本 数据, 包括 能 不能用 好 合成 数据? 其实 合成 数据 今天 也 没 算 fundamental 的 突破, 大家 都是 去 用 模型 去 改写? 去 扩充, 把 这些 低质量 的 变成 高质量 的 数据 重复 其实 对模型 提升 也 没 那么 大更 多 高质量 的 逻辑推理 数据 我 感觉 可能 是 更 重要 的。 前面 这 两个 问题 我 感觉 可能 都是 短期 问题, 慢慢 随着 时间 还是 可以 解决 的。
但 有 一种 情况 就是 第三种 情况, 就是说 最 担心 的 一种 情况 就是说 纯 靠 语言 的 这种 比较 经典 的 skin law train 这个 物理 规律 是不是 就 遇到 瓶颈 了。 或者说 就在 比如说 更大 参数 一下, 比如说 两三 T 参数 以上 就 开始 实效 的那 我们 就得 用 新的 方法 才能 带来 更大 的 突破。 我 感觉 第三种 情况, 在 B100PU 出来 之前 概率 是 非常 大 的。
这个 还 挺 让人 惊讶 的, 就是 skin law 遇到 了 瓶颈, 甚至 有可能 在 变大 的 过程中 失效。 Q 1的时候 你 观察 说 G P U 数据中心 和 物理 硬件 是 瓶颈, 现在 似乎 瓶颈 是 变得 更 多维度 的, 不 只是 物理 硬件 这 一个 原因。
其实 G P U 数据中心 和 物理 硬件 依然 是 瓶颈, 但 这个 瓶颈 你 没办法 短期 突破。 因为 H 100这1代 卡, 你 现在 充分 互联 的 可能 就 做到 3.2万 卡, 对 吧? H 100这1台卡 用 起来 可能 不算 太好。 你看 podolia 其实 还是 很贵 的, 我 感觉 有可能 还是 得 必 出来 才能 把 参数 skill up 上去。 如果 在 这个 之前, 有可能 就 还是 得 在 有限 的 集群 下吧, 做 一个 叫 新的 skin out 范式 的 探索。
当然 还有 另外 50% 概率 所在, 就是说 可能 就是 留给 马斯克 的 X I 马斯克 是 觉得 算 力 决定 生死? 他们 就 办 上 10万卡? 这也是 叫 第一性 原理。 我 觉得 也有 很大 的 概率, 就是说 马 老师 做出来 10万张卡 集群, 然后 趁 出来 一个 更好 的 模型 让 很多人 傻眼, 我 觉得 也是 有可能 的。
但是 算 力 往 上 加, 其实 加 到 10万卡 其实 短期 挑战 很大 的。 我们 能 看到 就是说 你 现在 3万卡 的 集群, 基本上 每 2个小时 能 break 一次。 那 十万 卡 集群 基本上 是 二三十 分钟 就 break 一次, 其实 综合 利用率 会 下来 非常 多。 这个 对 数据中心 的 运维 的 挑战 是 很大 的。 你 要 快速 的 定位 损坏 的卡, 快速 的 插拔 更换 去 上线。 我 感觉 就是说 模型 反正 skill 到 两3, 你 刚才 提到 就是 M E 更 复杂 了, 对 吧? 有可能 还有一个 原因 就是说 实验 不够 充分。 那你 实验 不 充分, 你 这些 位置 怎么 摆, 其实 bug 也 很多。
还有一个 说法 就是说 做 dance model 更容易, 比如说 做到 两三 T 的 都是 M O E, 那 M O E 其实 有可能 并不一定 很好 做。 但 dense model 有一个 缺点, 就是说 它的 training 过程中 G P U 的 利用率 不够 高, 这也是 一个 问题。 包括 刚才 提到 数据 问题, 合成 数据 也没有 算 突破。 我 感觉 其实 确实 是 想 综合 的, 它 不是 一个 叫 单一 因素 算 力 的 问题 存在, 然后 M1 这个 复杂 架构 的 问题 也 存在, 数据 的 问题 也 存在。 因为 大家 还 不知 道滘 视频 数据 怎么用 起来, 对 吧? 有可能 还是 有一个 新的 架构 未来 会 出来。
如果 skin law 在 模型 变大 的 过程中, 它 就 不 work。 你们 看到 了 哪些 新的 方法, 新的 路线 来 替代 它。
我 感觉 可能 能有 两三条 潜在 的 路线, 我 感觉 每个 公司 也都 有 自己的 一个 bat 我们 首先 说 一下 多 模态, 尤其是 视觉。 很多人 会说 这个 多 模态 的 确定性 很高, 只 靠 语言 无法 走向 A G I, 就 还是 得靠 语言, 像 视觉 这种 多种 模态。 但是 你 用 大量 的 视觉 数据 做 大规模 的 训练, 其实 今天 还没有 任何 证据 能 证明 说, 我们 能 从 视觉 模态 训练 里面 涌现出 叫 智能 或者 逻辑 能力。 我 不确定 python F S D 这个 算 多 模态 还是 叫 单一 模态。 其实 A I 最 重要 的 一个 还是 叫 通用 泛化 性。 你 就像 阿尔法 狗 下棋 一样, 你 下棋 做到 世界第一, 但 你 没法 做 其他 的 任务。 Tesla F S D 或者说 今天 的 所谓 的 通用 机器人公司, 今天 在 某 一个 特定 设备 上 采 的 数据, 包括 训练 的 模型, 其实 你 换 到 另外一个 新 设备 上 其实 是 不 work 的。 我 觉得 这个 其实 是 没有 泛化 的。
我是 感觉 多 模态 模型 的 技术路线 还是 没有 像 今天 语言 一样 那么 统一。 也许 未来 会 诞生 一个 全新 的 架构, 但 这里 其实 是 又 涉及到 基础科学 的 突破 了。 这个 你 就 不确定 是 一年、 两年、 三年 还是 五年、 十年 能 看到 的。 因为 你看 现在 视频, 今天 都 走 一个 叫 D I T 路线。 那 是因为 年初 的 时候 骚扰 给 大家, 给 整个 行业 指明 了 路线。 短期 你看 D I T 其实 向上 的 收益 还是 可以 的。 但 我 觉得 能 确定 的 就是说 多 模态 肯定 是 能 叫 带来 交互 能力 的 提升。 有可能 你 交互 能力 上来 reasoning 逻辑推理 能力 也会 提上来, 这 是一种 路线。
第二种 路线 就是说 10万卡 集群 也是 一个 路线。 就是 刚才 说 的, 比如说 短期 不 成功, 那 可能 就 还是 算 力 不够, 对 吧? 处在 一个 中间 的 死亡地带, 那 总 有人 要 试试 更大 的 集群。 万一 怼 更大 集群 队 成功了, 队 出了 更强 的 模型, 那 我 觉得 会 让 不是 的 人 可能 会 傻眼 了。 但是 客观 来讲, 就是说 10万卡 集群 中心 互联 的 难度 可能 还是 比 预期 的 要 更难 的。 甚至 有可能 这是 全人类 目前 遇到 的 最难 的 一个 项目, 可能 比 SpaceX 发 重型 火箭 可能 还要 复杂。 聊到 多 模态 和 10万卡 集群, 这 两个 其实 都是 叫 确定性 会 发生 的, 我 感觉 就是 时间 问题。 但是 其实 是 还 不够 本质, 或者 能 称得上 范式 级别 的。
其实 能 称得上 范式 级别 的 就是 一个 强化 学习, 这个 事儿 今天 整个 业界 不管 说 硅谷, 包括 中文 媒体, 其实 提 的 还 很少, 或者说 大家 今天 也 不知道 怎么做。 就 今天 的 强化 学习 就是 soft play r, 我 感觉 这条 路线 还是 最 make sense 的, 天花板 也 最高。 其实 我们 能 看到 那个 unsorted, 那个 cloud SONY, 它 从 三 走向 3.5, 你 能 明显 的 看到 代码 和 数学 很大 的 提升, 对 吧? 其实 这里 就是 强化 协议 R 带来 的, 你 用 self play 这 种种 方法 提升 模型 的 逻辑推理 能力, 我 感觉 是 接下来 最 重要 的 一个 范式。 我 觉得 这 是一个 最 核心 的 变化。
然后 当然 多 模态 10万卡 和 强化 学习 这 三条路 其实 并不矛盾 的, 其实 也是 可以 并行 的。 但是 你的 资源 有限, 你 就 掰 上 你 最 相信 的 一条路, 对 吧? 如果 我是一个 A I 公司 的 C E O, 我 肯定 会 200%的资 源 al l in 到强 化 学习。 而 这条 路线, 我 感觉 这是 目前 最有 机会 走向 A J 的 一条路。
我 来 试图 理解 一下 你说的 这三条 路线。 第一条 是 多 模态, 它 不能 确定 到底 能不能 带来 智能 水平 的 提升, 起码 到 现在 为止 他 没有 证据 能 表明。 第二条 是 10万卡 集群, 它 能不能 涌现出 更强 的 模型, 要 依赖于 skin law, 能不能 继续, 我 现在 也 还 不知道。 第三条 是 你说的 这个 范式 转移, 就是 强化 学习。 现在 的 R L 主要 讲 的 是 self play R L 我 理解 的 对不对? 是的, 那 能不能 给 大家 解释一下 这个 R L reinforcement learning, 简称 是 R L 中文 是 强化 学习, 给 大家 解释一下 这个 概念。
对, 就是 我们 回到 2018年, 其实 lex 邀请 伊利亚 去 M I T 课 客座 讲 了 一节课。 伊利亚 选 的 主题 其实 就是 强化 学习 结合 self play。 他 当时 就 认为 这是 通往 A G I 路上 最 关键 的 方法 之一, 就是 当时 伊利亚 用 一句话 概括 了 强化 信息, 我 觉得 非常 准确, 就是说 让 A I 用 随机 的 一个 路径 去 尝试 一个 新的 任务。 如果 效果 超 预期, 那就 更新 神经网络 的 权重, 让 A I 记得 多 使用 这个 成功 的 时间, 然后 再 开始 下一次 的 尝试。
其实 我们在 实现 强化 学习 的 过程 当中, 其实 有 两个 元素 是 最 重要 的, 这 两个 元素 一直 在 反复 的 交互。 第一个 就是 环境 A I 你 探索 完成任务 的 环境。 你 比如说 下棋 的 时候, 那个 环境 就是 19乘19 的 一个 棋盘, 对 吧? 你 训练 你家 的 一条狗 的话, 那个 有可能 就是 狗主人 的 家和 小区, 其实 环境 会 发生变化。 那 环境 发生变化 的 时候, A I 就会 从 环境 变化 中 收到 reward 的 value, 去 判断 过去 的那 几步 探索 是否 有 明显 的 收益。 比如说 你 距离 下棋 胜利 是否 更 接近 了。
然后 这 是一个 奖励 机制 对 吧?
对, 这 是一个 奖励 机制。 这个 奖励 机制 其实 是 强化 体系 当中 应该说 最 重要 的 一个 要素。 其实 第二个 就是 一个 agent 这个 智能 体, 其实 agent 这个 智能 体 是从 强化 学习 来 的 一个 定义。 Agent 对 环境 的 观测 和 感知, 它 会 来 输出 一个 动作, 就是 agent 他的 目标 就是 要 得到 奖励, 这个 是 最 重要 的这 里面 有 几个 基础 概念, 我 觉得 可以 有 一些 科普。
就是说 刚才 我们 聊 的 智能 体, 比如说 我们 训练 一条狗, 这个 狗 就是 那个 智能 体, 它 就是 一个 agent, 它是 一个 学习 的 人 或者 是一个 决策 的 人。 这 环境 可能 就是 狗主人 的 家 或者 小区。 狗 还有 动作, 比如说 狗 的 动作 是 叫 坐下, 可以 握手 一些 行为, 对 吧? 然后 包括 狗 的 状态, 他 所处 的 一个 位置, 包括 你 对 这个 狗 的 奖励。 要么 你 给 它 一些 吃的 零食 对 吧? 或者 你 就 责骂 它, 这是 正面 信号 和 负面 信号。 那 我们 可以 把 狗 换成 大圆 模, 大元 模型 就是 一个 智能 体, 一个 agent 本身 了。
今天 T G T 它 就是 一个 文本 或者 对话 场景 的 东西。 它 可以 输出 不同 的 文本 或者 各种 action, 甚至 各种 模态, 对 吧? 包括 他 也有 奖励, 只不过 今天 文本 的 奖励 的 噪音 比较 多, 我们是 不好 定义 这个 reward model。 我 感觉 这个 可能 是一个 今天。
还 不清楚 的, 就是 对于 LLM 来说, 小 零食 是什么 不清楚, 给 狗 是 小 零食, 他 很 明确, 就是 给他 零食 他 就 知道 这是 正确 的。 但是 或者 摸摸头, 这 对于 他 来说 就是 一种 奖励, 但是 对于 LLM 来说, 就 不知道 他的 奖励 反馈 到底是什么, 没有 一个 清晰 的 界定。
你看 我们 今天 上亿 人 用 X G T, 其实 我们 给 到 X G T 的 反馈 是 没 那么。
有效 的对, 因为你 可能 很快 就 进入 下一个 话题 了。
对你 包括 点 赞和 点 踩, 有可能 噪音 也 比较 多能 不能。
进一步 举 一些 例子 来 阐释 这个 R L 我 觉得 有一个。
比较 好的 例子, 你 比如说 咱们 去 一个 叫 深山 去 探矿 寻宝, 对 吧? 一个人 他 有一个 藏宝图, 但是 我 有 5000个特种兵 带着 一些 专业 探测 设备, 你可以 说 我 资源 浪费, 但是 只要 有 宝贝, 我 有可能 是 几乎 百分百 都能 探测 出来 的, 而且 比 拿着 藏宝图 的 那个人 有可能 还 更快。 我就是 把 各个 地方 各种 路径 反正 都 探索 一遍。 但是 假如 说有 其中 的 两三个 特种兵 的 鉴宝 能力 不足, 他 就会 漏掉 这个 宝贝, 或者 捡回来 很多 垃圾, 这就是 那个 奖励 模型 reward model, 那就 出错 了。
或者说 还有一个 更 形象 的 一个 身边 的 例子, 就是说 我们 要 训练 一个 运动员, 比如说 一个 马拉松 的 运动员, 对 吧? 我 今天 是一个 GPT, 我 已经 通过 语言 和 录像 已经 学成 了 博士, 各种 知识 道理 都 懂了。 今天我 就 设置 一个 目标, 就是 取得 马拉松 的 一个 最佳 成绩, 吧? 那 我 就会 探索 各种 方法, 甚至 找 漏洞 的 方法, 取得 一个 怎么 获得最佳 成绩 的 方法。 比如说 每次 比赛 都 有一个 正面 信号 和 负面 信号, 那 比如说 怎么 科学 的 饮食, 什么 姿势, 怎么 肌肉 发力, 你 比如说 前一天 如果你 运动 消耗 过量, 那 其实 也会 影响 第二天 的 比赛, 这就是 一个 负面 信号? 甚至 我可以 找到 捷径。 你 比如说 之前 比赛 没有 禁止 兴奋剂 之前, 其实我 可以 吃 兴奋剂 的那 这个 就是 hike 的 比赛规则, 那你 就要 制定 新的 比赛规则, 这 其实 就是 A I 的 safety 或者 aligned 这个 价值。 我 感觉 包括 狗主人 训练 一条狗, 其实 这些 例子 我 感觉 都是 逻辑 都是 一样的。
然后 我 觉得 可以 延伸 的 说, 就是说 这 意味着 什么 呢? 如果 基础 模型 变强, 其实 我们 每个 人都 可能 有一个 5000个 特种兵, 或者 你 有一个 世界冠军 一样, 他们 在 各个领域 去做 探索。 那你 可能 就是 一个 教练员, 指导 他们 怎么 做人, 和 A I 一起 去 在 各个领域 拿 金牌。 我 觉得 这个 是一个 蛮有意思 意思 会 发生 的 事儿。 这 里面 的 奖励 模型 其实 就 很 重要 了。
今天 业界 奖励 模型 最 核心 的 还是 在 代码 和 数学。 因为 它 就是 刚才 提到 它的 环境 和 目标 很 简单 很 清楚 对 吧? 容易 设定。 但 其他 领域 的 目标 和 环境 其实 还 不太好 设定 的那 这里 也有 一个 更 关键 的 问题, 就是说 代码 和 数学 在 未来 两年 可以 确定性 的 变得 非常 强。
但 能不能 泛化 到 其他 领域 是 目前 还没有 证明 的, 就是 刚才 提到 阿尔法 狗 下棋 很 厉害 了, 对 吧? 但 其他 领域 不行。 那 计算机视觉、 人脸识别 也很 厉害 了, 其他 领域 也 不行。 AI 最 重要 的 还是 一个 通用 和 泛化 性 的。 如果你 不能 泛化 到 其他 领域, 我 觉得 那 还是 挺 麻烦 的这 波 技术 天花板 有可能 还是会 受限 的。 但是 即便 不能 泛化, 我们 借助 大 语言 模型 在 各个 垂直 领域 做 强化 学习, 我 感觉 应该 也能 在 很多 场景 找到 一些 最优解。 我 觉得 下限 有可能 也是 会 替换 掉 传统 的 机 学习 那 一套。
当我们 说 强化 学习 的 时候, 它 应该 跟 什么 概念 对比? 它 应该 跟 大 语言 模型 对比 吗?
它是 一个 交替 的。 我 感觉 历史上 神经网络 和 强化 学习 一直 是 交替 发展 的。 就是 每一个 神经网络 变强 了 之后, 大家 后面 都 会提 强大 学习。
那 强化 学习 和 大 语言 模型 的 区别 是什么?
我 觉得 可以 这样 说, 就是 大 语言 模型 是 利用 现有 数据, 主要是 强调 在 利用 这 一个点。 强化 学习 更多 强调 探索, 他 探索 一个 长距离, 你 给他 一个 非常 粗 的 颗粒度 的 目标, 然后 他 自己 去 探索 各种 能 做成 这个 目标 的 一个 路径。 我 感觉 强化 学习 的 核心 就是说 在 探索 和 利用 之间 做 一个 权衡。 大 语言 模型 在 利用 现有 知识 上, 我 感觉 已经 做 的 很 极致 了, 但 探索 新 知识 方面 基本上 还没有 做 太多。 那 强化 学习 的 引 其实 就是 为了 让 大 语言 模型 能 探索 进一步 怎么 提升 逻辑推理 能力。
我们 可以 回 看一下 A I 最 经典 的 三大 范式, 就是 监督 学习、 非 监督 学习 和 强化 学习。 其中 只有 强化 学习 的 假设 是 让 A I 进行 自主 的 探索 和 连续 的 决策。 我 觉得 这个 方法 是 最 接近 人类 学习 的。 我们 现在 说的是。
这个 self play R L self play 强化 学习, 它 跟 传统 的 强化 学习 的 区别 是什么? 还有 之前 有 个 概念 是 R L H F, 它 和 R L 的 区别 又是 哪些?
对我 感觉 传统 L 其实 跟 今天 的 self play r 我 感觉 最大 的 一个 变量 和 区别 就是说 这个 R 的 主体 的 agent 计算 量 增加 了 3到4个 数量级。 你看 最早 的 那个 阿尔法 zero, 它 应该 就是 一个 千万 参数 的 神经网络, 和 今天 的 语言 模型 应该 差 了 3到4个 数量级。 然后 R H F 其实 更大 的 一个 目的 是不是 获取 机器 智能, 而是 一个 人机 对齐。 其实 是 让 A I 做到 更 像 人, 但是 不能 做到 超越 人的 一个 叫 超级智能。 我 觉得 一个 简单 的 例子 就是说 R H F 其实 能 像 人类 一样 更 喜欢 好 理解 的 东西, 而 不是 喜欢 逻辑 更 严谨 的 内容。 Self play r 其实 更多 还是 奔 着 怎么 提升 逻辑 能力 去 的。
Self play R L 能 提升 智能 水平 吗?
目前 在 coding max 这个 是 很 明显 的, 其他 领域 还 没看到 大元 模型。
和 强化 学习 和 A G I 它们 三者 的 关系 是什么?
我 觉得 这 是一个 特别 有趣 的 话题。 就是说 之前 有一个 特别 有趣 的 描述, 就是说 语言 是 走向 A G I 的 一个 拐杖。 虽然 最近 推特 上 很多人 在 批评 这个 表述, 其实 很 有 道理。 我 这个 表述 我 体会 了 很久, 首先 说 为什么 是 语言? 语言 是 人类 积累 了 几千年, 对 吧? 是对 人类 历史 几千年 的 一个 压缩 总结。 又 经历 了 30年 数字化 变成 了 互联网 的 token。 其实 大 语言 模型 诞生 也是 一个 技术 发展 的 必然, 这是 机器 能 学到 的 最高 密度 的 一个 知识点。
另外 语言 还有一个 好处 是什么 呢? 它的 通用性 很强。 其实 同一个 事物 可以 用 不同 的 语言 描述, 对 吧? 同一个 语言 你 也可以 有 不同 的 理解 方式, 它的 弹性 和 容错性 就会 很高。
你可以 说 语言 是 今天 唯一 走 通 泛化 性 的。 传统 的 二号 book 其实 是 没有 泛化 的, 只能 下围棋 对 吧? C V 视觉 也没有 走 通 泛化 性, 只能 做 人脸识别 对 吧? 我 觉得 有一个 猜想, 就是说 可以 借助 语言 这个 通用 和 泛化 性, 让 这 一波 的 A I 能力 泛化 走到 更多 领域。
通用 人工智能 的 核心 还是 通用 和 泛化, 所以 语言 和 预 训练 还 真的 有可能 就是 个 拐杖, 它 就是 一个 中间 态 的 甜点 前菜, 对 吧? 那 后面 的 强化 学习 有可能 才是 主菜。 我 觉得 一个 更 形象 的 比喻 就是说 你可以 把 语言 和 预 训练 比作 人类 的 一个 基因组, 携带 着 人类 几千年 进化 的 基因, 那么 强化 学习 就是 人类 成长的 一生。 你 从 出生 那天 起 就 开始 接受 正面 信号、 负面 信号。 其实 一个 职业运动员, 他的 职业生涯 也是 一个 目标 和 环境 定义 很 明确 的 特定 任务, 就是 拿 成绩 拿 奖牌。 所以 我 感觉 不管 黑猫白猫, 能 实现 通用 和 泛化, 我 觉得 这 才是 实现 A G I 或者 S I 超级智能 的 一个 关键。
所以 今天 看 光靠 大元 模型 可能 走 不到 A G I。 也可以 想 比如说 A I 可能 是一个 偏科 语文 的 大学生, 如果 他 要 就业 的话, 还需要 新的 范式 引入。 那大 语言 模型 和 强化 学习 应该 怎么 相互 补充 呢? 他们 两个 应该 怎么 结合?
我 感觉 是一个 接力 关系, 或者说 语言 模型 是一个 做 强化 学习 的 必要条件。 因为 这 里面 非常重要 的 一个点 是你 必须 要有 很 聪明 的 模型 才有 能力 做 self play, 做 探索。 如果 一个人 他 没有 一定 的 能力, 他 做 自我 的 探索 其实 能力 不强 的。 我 觉得 这个 标准 有可能 是 至少 卖 过 G P4 或者 cloud 3.5 这个 水平。 如果你 模型 能力 不足, 那你 做 self play 的 效果 还是会 很差 的。 那你 想 做好 强化 学习, 我 感觉 还是 必须 要有 retrain 这 一步 的。 其实 retrain 还是 一个 必经之路, 但 L 又是 一个 pretend 确定 的 未来。 我 感觉 做 A I 的 人 应该 都会 意识到, 就是你 做 protein 最终 往后 一定 会 走向 R 的, 不是 今天, 那 就是 明年 对 吧? 刚才 提到 pretrail 其实 是 让 模型 学 光 了 网络 上 的 数据? 总会 学 完 的那 通过 soul play 这种 自主 探索, 那你 再 选出 更 高质量 的 一些 case 去 学习, 这 是一个 长期 才 更能 sky log 的 一个 路径。
但 我 觉得 还有一个 更 深层次 的 一个 就是说 soap play 这个 方法 本质 是用 A I 无线 的 算 力 来 补 数据 不足 的 这个 短板。 就是 数据 不够 算 力 来 凑, 我 感觉 也是 符合 当下 A I 的 一个 优势 的。 其实 一个 好的 sort play, 其实 能 合成 大量 的 高质量 的 数据, 甚至 可能 比 人类 历史 上见 过 的 棋局, 游戏 的 数 可能 还 更多。 其实 用 这个 数据量 有可能 也能 做到 叫 超级智能。 其实 你看 阿尔法 狗 下棋, dota 游戏, 其实 都 探索 出了 跟 人类 不一样的 玩法, 也 战胜 了 很多 叫 金牌 选手, 那 还有一个 循环 我 觉得 很 有趣, 就是说 soft play 合成 的 数据 再 用到 pray, 激发 更大 的 pretend 的 一个 计算 的 需求。 那那 这样的话, 整个 大 语言 模型 的 preach, 其实 就 变成 了 强化 学习系统 的 一 环。 强化 学习 变成 了 一个 更 核心 的 系统, 那那 这样 一个 循环 有可能 才能 更好 的 走下去。
我可以 理解 这个 范式 变化 是 硅谷 现在 通用 人工智能 领域 当下 发生 最大 变化。 这个 变化 你 观察 到 什么时候 发生 的? 它 很 突然 吗?
我 感觉 Anthony cloud 3.5 是一个 标志性 的 产品, 它 应该 是 6月20 号 发 的 那个 3.5。 其实 我们 能 看到 那个 代码 和 数学 是 显著 提升。 因为 anthropic 很 早就 重视 强化 学习。 我 感觉 sorry 好像 就 掰 成了 两件事, 一个 是 下一代 模型, 一个 是 L 强化 学习。 好像 也 不搞 骚扰, 不搞 好像 主线 就是 R R 这个 事儿 我 感觉 在 研究 层面 其实 很久 了。 其实 你看 open a 最早 就 用 强化 学习 的 方式 去 打造 它 游戏, 对 吧? 但 我 感觉 核心 变量 还是 语言 模型 的 能力 发展 到了 一定程度, 就是 用 大 模型 做 self play 这个 事儿 其实 变得 有效 了。 我 觉得 之前 是 做 的 效果 不太好, 但是 我 感觉 语言 模型 pre train 遇到 瓶颈。 就是 最近 两个月, 外界 可能 还 不一定 意识到 说 语言 的 pretrail 已经 到了 一定 boat like 了。
你 预计 R L 的。
上限 是什么? L 的 上限 就是 code mass, 没法 泛化 到 其他 领域, 以及 其他 领域 你 制定 不 出来 好的 reward model。 但是 如果你 把 coding 能力 变得 很强, 我们 未来 用 自然语言 后 端 实时 编程, 它 有可能 也会 巨大 的 加速 我们 整个 数字化 的 进程。
你 刚才 提到 的这 几条 路线, 在 一些 明星 公司 里面, 他们 资源 会 怎么 分配?
我可以 这样 说, 我 应该说 只有 一两家 公司 把 L 当做 了 最高 优先级。 我 感觉 好像 对 语言 的 pretrail 优先级 放到 了 第二位。 如果 是 放到 最高 优先级 的话, 那就 应该 给 最多 的 computer 资源吧。
因为 九月份 anthropic 和 open I 应该 都有 新 模型 要 发布, 大家 都 挺 关注 的。 对于 这 两个 模型 有什么 可以 值得 期待 的?
我 感觉 首先 是 cloud 3.5 ops 这个 进步 幅度 应该 还是会 很大 的。 因为 你看 sonate 从 3到3.5 进步 幅度 挺 大 的, 不知道 欧 盘 会 发 什么样 的 东西。 但是 你看 草莓 已经 造势 很久 了, 我 感觉 应该 也是 在 R 这条 路线 下, 代码 和 数学 肯定 是 大幅 提升 的, 我 感觉 这个 提升 的 幅度 应该 都 不会 亚 于 骚 内 的 从 3到3.5, 但是 会不会 真的 发 新 模型。
这个 不好 说, 这样的话, 如果 是 有了 新的 范式, 那 之后 GPT6和 7还会有 吗?
我 感觉 如果 只 靠 传统 加 参数, skin 觉得 短期 预期 不高 的, 我 觉得 范式 还是 变了。 但是 我 还是 相信 接下来 一代代 的 模型 还是会 变得 很强。 不知道 还 用 不用 GT567 这种 代号, 也 不确定 的 是 模型 的 参数 会不会 倍数 级 的 变大。 我 觉得 还有一个 可能 就是说 参数 并 不会 增加 很多, 有可能 比如说 就是 G P O 或者 靠 3.5 这么 大 参数 的 模型。 但 未来 也能 持续 变得 很 聪明, 也能 达到 大家 对 GPT 伍 67的1个 预期。 我 觉得 还有 一个点 就是说 我 明年 有可能 就会 看到 很小 的 一个 模型, 可能 比 今天 的 GP4O 还要 聪明 了 很多。 单位 参数 下 智能 水平 提升 还是 很快 的。 所以 这 里面 有一个 期待, 就是说 有可能 实现 A G I 到 不一定 需要 巨量 参数 的 模型。
所以 在 硅谷 实现 A G I 的 方法 和 范式 其实 已经 彻底 变了, 但是 我们 可能 到 今天 还没有 意识到。
我 感觉 是 不过 新的 范式 下 有可能 也有 很多 卡 点对 吧? 你 比如说 刚才 提到 reward model, 它 能不能 泛化 到 更多 领域? Coding 和 meh 其实 提升 的 确定性 是 非常 高 的。 因为 下棋、 游戏、 数学 code 这些 环境 都有 明确 的 胜负, 对 吧? 可以 比较 好的 做 sof play, 尤其是 coding 极其 乐观。 但是 你看 物理 和 医药, 那你 做了 soft play 有 一些 结果 之后, 你 还要 做 临床 的 验证, 这个 周期 物理 的 周期 是 很长 的那 你看 法律 和 金融, 这 里面 其实 没有 太多 标准答案 的, 但 有可能 我们 做到 偏好 和 偏 坏。 比如说 我 写 了 一个 memo, 他 写 了 一个 memo, 有 个 裁判 来 comments 说 哪个 memo 好。 那 也有 可能 的 投资 里面, 其实 你看 一级市场, 你 构建 reward model 其实 就 过于 前瞻 了, 这个 反馈 就 太 长 对 吧? 那 二级 的 噪音 有 很多, 但是 你看 文字 创意 这些 领域, 有时候 经常 各种 剧情 反转 跳变, 这个 其实 A I 是 比较 难 捕捉 的。
我 觉得 其实 还有 挺 多 问题 要 解决 的, 就是 能不能 有一个 绝对 通用 泛化 的 reward model 应用 到 各行各业, 这个 是 不好 说 的, 或者说 你 只能 在 垂直 领域 一个个 的 构建。 但 我 觉得 还有 一个点, 就是说 大家 期待 另类 架构 也 很多, 从 更 基础 更 底层 的 架构 出发, 不是 transformer, 而且 是一个 未来 应用 到 全 模态, 尤其是 视觉, 这个 有可能 也是 需要 天才科学家 去 突破 的。 另外 我 觉得 可以 提 一 嘴, 就说 大家 对 天才科学家 的 value, 我 觉得 还是 应该 更高 的。 其实 你看 carica norm 这个 就 超过 了 20亿美金。 Google 收 了 character 主要 还是 为了 norm, 其实 这个 账 也很 清楚。 其实 你看 norm 如果 对 整个 google 能 提升 1%, 那 就是 200亿美金。 那 你看 google germany 肯定 也能 占 到 google 的 市值 的 10%。
那那 我们 肯定 是 确定 了 能 对 gm 提升 1%, 其实 也就是 20亿美金。 我 感觉 这个 在 传统 估值 体系 下 其实 是 不 被 认可 的。 这个 收购价格 就 等于 google 一天 的 利润。
好吧, 说到 这一点, 你怎么看 carrot 点 A I 的 出售? 它 给 今年 的 A G I 市场 带来 了 什么 信号?
我 感觉 就是 上半场 完全 结束了, 下半场 正式 开始了。 能 进入 下半场 的 选手 其实 不多。 我 感觉 nom 加入 google 也 是从 google 进入 下半场 了, 那 就是 这个 新 范式, self play。 L 这个 事儿 成为 主角 了。
大元 模型 的 关键 要素 大家 觉得 是 算 力、 数据、 算法。 那 这个 新 范式 self play R L 它的 关键 要素 是什么? 它 对比 大于 模型 来说 难度 怎么样?
我 感觉 R O 它 其实 不是 一个 模型, 它 其实 是 一整套 的 系统, 包含 了 很多 东西。 其实 刚才 我们 提到 那 几个 包含 智能 体, 那个 agent 可能 就是 模型。 还有 包括 环境, 这个 环境 有可能 是一个 狗主人 的 家, 一个 是 coding 的 环境, 还有 可能 是 垂直 领域? 那 动作 action 也是 很 重要 的。 到底 是 狗 的 这种 坐下 或者 一些 行为, 还是 说 其他 的 模态 的 输出, 包括 奖励 模型 也很 重要。 如果说 最 重要 的 两个 东西, 我 感觉 就是 环境 和 智能 体。 智能 体 的 目标 其实 是要 来 得到 更多 的 奖励 的。 其实 这 里面 L 在 语言 模型 中的 一个 思路, 本质 上 是 inference 的 time 去 换 training time 其实 是 来解决 模型 向上 scare up 时 暂时 边际收益 递减 的 一个 现状。 我 感觉 这个 势必 也会 对 skin 了 带来 很多 新 变化, 或者说 应该 是 传统 的 skinning law 不 work 了, 但是 新的 skinning law 又 开始了。
By the way, 这个 新 犯 事件 还需要 那么 多 G P U。 很多人 可能 会 很 关心 英伟 达 的 股价。
这个 其实 有点 不确定。 我 感觉 在 R 的 新 范式 下, 其实 skin law 就要 被 重新 定义 了。 因为 训练 时候 的 计算 量, 它 不 只是 和 参 数量 上升 有关, 还 多了一个 新的 变量, 就是说 self play 探索 时候 influence 的 这个 计算 量。
因为 R 的 思路 本质 是用 inference time 换 training time。 来解决 这个 边际收益 递减 的 问题 之前 我们 算 过 一个 账, 就是说 对 GPT4和 cloud 3.5 这种 水平 的 模型, 我们 算下来 就说 你 要 合成 一个 T 的 高质量 的 推理 数据, 大概 要 6亿美金。 如果你 合成 十个 T 的 高质量 推理 数据 可能 要 6亿美金, 其实 这个 量级 也很 高。 但 跟 预 训练 不同 的 是, inference 其实 对 单张 卡 的 性能 和 集群 规模 的 性能 其实 相对 低 一些。 也就是说 不一定 非得 用 最 顶尖 的卡 或者 3万卡、 10万卡 的 集群, 分布式 的 集群 其实 也可以 跑 R 的 influence。 所以 我 感觉 新的 范式 下, skin law 依然 存在。
计算成本 可能 还是会 大幅 的 提升 来 提升 模型 能力。 但 提升 的 并不一定 是 模型 参 数量 的 快速 增加。 长期 是否 还需要 那么 多 G P U, 我 感觉 就得 看做 强化 学习 的 效率。
今天 看 资源 是 比较 浪费 吧? 因为你 跑 的 步骤 99% 最终 都是 无效 的, 但是 你 还是 得 跑, 对 吧? 因为你 一开始 没有 那 张 藏宝图, 对 吧? 那 也要 解决 的 是 很多 没 碰到 过 的 新 问题。 我 觉得 确实 是 存在 大量 资源 浪费 的, 除非 说 未来 更 高效。 另外 如果 做 推理 的话, 我 感觉 不一定 也 非得 依赖 英伟 达 的 G P U 了。 其实 其他 的 A M D, 包括 其他 的 asic 芯片 有可能 也能 work 的。 当然 英伟 达 G P U 还是 性价比 最高 的, 就是说 英伟 达 有可能 比 其他 芯片 公司 的 领先地位 还是 拉大 的, 他 肯定 也是 能 cover 住 这个 新的 范式 变化 的。
英伟 达 股价 我 感觉 因为 二级 市场 是 容易 线性 外推 的。 也许 明年 后年 英伟 达 就是 全球 利润 最高 的 公司, 对 吧? 可能 比 苹果 利润 还要 高千 亿美金 利润。 但 我 感觉 线性 外推 的 订单 短期 可能 没问题, 但 A I 的 叙事 变化 我 感觉 还是 很 剧烈 的。 如果你说 长期 变化, 我 觉得 还是 挺 难 下盘 的。
H I 范式 发生 转移 这件 事情 在 硅谷 的 共识 程度 到底 怎么样? 是 所有人 都 共识 了, 还是 只是 一部分人 开始 这么 做了?
我 感觉 只有 在 最 核心 的 researcher 中间 有 一些 共识, 有可能 也就 几百个 人我 感觉 还没有 完全 扩散。 或者说 很多人都 知道 R 很 重要, 但是 不知道 怎么做。 这方面 人才 也很 稀缺, 还 不是 传统 二 的 那些 人我 感觉 很多 A I 的 管理层 可能 还没有 意识到, 因为 最近 也 只有 少量 的 一些 paper 才 开始 发出 来了。
杨乐 坤 最近 又 在 批评 强化 学习 R L 说 的这 是 资源 浪费。
但 你看 爱迪生 发明 灯泡 也 浪费 了 大量 的 实验 资源, 对 吧? 但 你 只需要 成功 一次, 那你 就可以 大量 复制。 我 觉得 the 坤 现在 喜欢 说话 引起争议, 有 争议 才有 流量, 效果 才能 被 放大 了。 他 要 流量 干嘛? 我 感觉 这是 文人 的 好胜心, 彼此 有时候 瞧 不上, 有 不同 流派, 其实 每个 流派 都有 各自 的 道理 的, 都要 给 自己的 流派 站台。 对, 我们是 博客 说 的 都很 扎实 的, 不 追求 流量。
所以 基于 上面 说 的 这些, 你 对 A G I 的 现状 是 更 乐观 了 还是 更 悲观 了?
一开始 这 几个 月 发现 语言 模型 的 person 遇到 瓶颈 不 顺利, 我 感觉 还是 悲观 的。 之前 觉得 2526年 可能 才会 碰到 瓶颈, 没想到 这么 快。 但是 想 了 两个月 之后, 感觉 更 乐观 了, 觉得 so play 二 这个 事儿 work 了 之后, 感觉 离 实现 A G I 和 S I 超级智能 我 感觉 更 清晰 了。 我 感觉 强化 学习 打开 后 的 天花板 还是 更高 的。 我 觉得 离 实现 A G I 更 make sense 了。 包括 我自己 使用 cloud 3.5 也是 一个 切身体会。
有什么 最 有效 的 指标 能够 衡量 R L 的 进步?
我 感觉 一个 是 A I 能 写出 的 有效 可靠 的 代码 的 行数。 就 去年 的 时候 只能 写 二十 行, 今天 能 写 几百 行 了, 也许 明年 就能 写 几千 行 了。 你 比如说 今天 你 让 他 写 一个 美团 官网 的 这个 程序, 对 吧?
其实 那个 cloud 3.5 sonate, 我 感觉 是一个 显著 的 提升。 其实 最近 你看 那个 cursor 很 火, cursor 很 火 背后 就是我 感觉 很大 的 原因 是 他 接 了 clo 3.5, 以前 不 work 的 事, 今天 work 了。 我 觉得 这 是一个 很大 的 代码 的 行数, 是一个 能 有效 体现 的 很 量化 的 一个 指标。 然后 我 觉得 还有一个 指标, 就是说 这个 有一个 公开的 比较 权威 的 数学题 的 测试 集。 GPT 今天 就 解决 七八 十分, 我 觉得 未来 在 没有 人工干预 的 情况下, 能不能 得到 100分全部 解答, 不 追求 速度, 让 他 self play 自己 去 解。 如果 全 对了, 那 我 觉得 是一个。
很大 突破 的 强化 学习 R L 目前 全球 来看 谁 最 领先? 这个 是不是 google demand 强项?
我 感觉 还是 R W 和 open I 比较 领先。 因为 去年 dal 访谈 的 时候 就 公开 提到 过, 包括 你看 欧派 也 在 造势 草莓 对 吧? Q star 我 感觉 背后 其实 也就是 强化 学习 l。 Google demand 的 它是 在 传统 的 强化 学习 很强 新 范式 的 这种 self plane 其实 还 不太 确定, 但 低 人才 优势 还是 挺 强 的, 但 不确定 管理层 是不是 重视。 我 感觉 除了 这 几家 之外, 其他 的 模型 公司 应该 还没 开始 重视, 或者 不知道 怎么做, 甚至 llama 应该 还 完全 没有。
接下来 我们 有什么 值得 期待 的 一些 大 的 事情 或者 节点。
我 感觉 就是 接下来 的 一两个 月, cloud 3.5 ops 和 hypo 这些 模型 发布, 包括 open a 肯定 也会 发 新 模型 对 吧? 因为 草莓 也 造势 很久 了, 你 看看 效果 怎么样。
你 觉得 会 让 我们 吃惊 吗? 就是 超出 我们的 预期 吗? 草莓 这个 项目。
我 感觉 能力 还是会 变强 很多, 某些 能力 上 会 很强, 尤其是 coding max 对 吧? 那 在 局部 领域, 在 未来 一两年 我 觉得 coding 是 确定性 更高 的, 能 看到 局部 的 A G I, 或者 局部 超过 人。 你 让 他 写 一个 很 复杂 的 程序, 在 人的 指导 下一个 不会 写 代码 的 能 生成 一个 很 复杂 的 程序, 我 觉得 这个 是 很有可能 的。 最 主要是 人的 预期 太高了, 我 不确定 模型 的 迭代 是不是 满足 大众 的 一个 预期, 因为 毕竟 coding 还是 专业 领域 的, 有 很多 大众 群体 有时候 感觉 会 不到 的。 我 觉得 更 长期 的 一个 期待 就是 看 强化 学习 的 天花板 能 走到 哪, 能不能 在 更多 领域 泛化 通用, 我 觉得 这个 是 更 重要 的。
在你看来 国内 公司 现在 应该 全面 的 跟进 R L 吗?
我 感觉 如果 model size 短期 上不去 的话, 这样 其实 对 欧派 这种 头部 公司 是 比较 麻烦 的。 就是说 对 后面 跟进 的 公司 应该 还是 利好 的。 我 感觉 如果 是我 的话, 那 应该 all in 200%的资 源 跟进。 或者说 怎么 去 发挥 人力 的 优势, 用 更多 的 人 去 标 数据, 去 设计 真的 有效 的 reward model 对 吧? 但 这里 有 个 前提, 就是你 没有 一个 很强 的 底座 模型 是 没办法 做 self play 的。 你 做 那个 效果 是 很差 的。 或者说 别人 用 很强 的 模型 看到 的 东西, 你 用 很差 的 模型 是 看不到 的。
大家 有可能 利用 这个 R L 弯道 超车 吗?
我 觉得 会有 的。 但是 我 感觉 语言 模型 跟 R 它是 一个 乘积 关系, 是一个 A 乘 B 的 关系。 如果你 这个 A 别人 是 八分, 你是 两分, 那你 那个 B 变化很大, 乘 不 上去, 乘 不 上去, 我 感觉 是一个 成绩 关系。
范式 变化 有可能 会给 市场 带来 什么样 的 结构性 改变?
我 感觉 就是 下半场 开始了, 以后 就是 R 的 天下 了 吗? 我 感觉。 目前 看 reward model 能 泛化 到 整个 文本 推理 领域, 这个 概率 目前 还是 比较 小的。 因为 不同 领域 对 robot model 的 定义 很 不很 不一样。 其实 这就 给 了 很多 创业 公司 去 建立 垂直 领域 reward model 的 一个 创业 机会。 但 我 感觉 更 具体 的 你 得 看 open and 是不是 把 reward model 的 vtune 接口 开 出来, 我 觉得 这个 是 很 关键 的。
其实 每个 领域 都 值得 建立 一个 垂直 的 reward model, 这样 我 感觉 在 每个 垂直 领域 都有 很多 的 收益。 那 创业 公司, 就得 找到 这个 reward signal, 我 觉得 这个 是 比较 重要 的, 我 觉得 机会 挺 多。 比如说 一类 是 给 垂直 领域 建立 reward model 的, 比如说 金融 法律 对 吧? 还有 一类 是 通用 的, 就是说 你 用 一个 agent 建立 一个 通用 的 场, 比如说 一个 浏览器, 也有 一些 公司 在 做吧。 当然 还有一个 大 的 变化 就是说 有可能 不需要 叫 超大规模 的 单一 互联 集群 了。 其实 这 里面 不确定 的 是 G P U 需不需要 那么 多, 但 短期 肯定 是 需要 的, 长期 不好 说不过 我 感觉 这 里面 我自己 最 兴奋 的 是 coding 编程 编程 能力 的 民主化, 我 觉得 这个 是一个 很 重要 的 赛道。
By the way 再问 一个 问题, 假设 模型 能力 就 停留 在 H D F O 的 这个 水平 会 怎么样?
我 觉得 也有 一半 的 概率 能 实现 A G, 如果 能 泛化 的话。
那 我 觉得 没问题。 如果 不能。
那 下线 可能 也是 能把 传统 的 机器学习 都 剃 掉, 以及 coding 会 很强。 那 coding 如果 很强, 有可能 也会 在 很多 领域 加速。
我们 接下来 聊聊 硅谷 的 A I 的 赛道。 我自己 先 说说 我 对 国内市场 的 感觉。 因为我 觉得 去年 和 今年初, 大家 中国 投资人 在 狂热 的 用 club deal 的 方式 投 了 一波 大 模型 公司 之后, 今年 中国 最 火 的 投资 主题 好像 就是 人形 机器人。 硅谷 就是你 怎么 定义 硅谷 的 A I 赛道?
对, 如果 是 新的 A I 赛道 的话, 因为 我们 自己 只看 模型, 我 觉得 具体来说 就是 得靠 A I 这 一波 模型 为基础 的。 我们 自己 画 了 几个 圈, 最大 的 一个 圈儿 就是 大 语言 模型, 对 吧? 这是 这 一轮 技术革命 的 核心。 围绕 大 语言 模型, 其实 外面 有 3到4个 圈。 我 感觉 就是说 搜索、 coding 视频, 包括 理解 和 生成, 还有 机器人, 我 感觉 就是 一个 大圈 可能 套 四个 小圈。
可以 展开 聊聊 哪个 赛道。
我可以 先 说 一下 代码, 就是说 为什么 代码 会 成为 一个 单独 的 一个 赛道, 是不是 足够 大? 其实 你看 代码 这个 方向, 过去 一年 在 硅谷 还 蛮 热 的, 就是 有 四五个 独角兽 公司。 A I 程序员 dave argument, 还有 magic, 还有 巴黎 的。 其实 这 几个 公司 最新 都 已经 二三十 亿美金 估值 了, 包括 好几家 产品 还 没法用。 包括 还有 cursor 对 吧? 一个 最近 特别 出圈 的 编程 工具 cursor 火, 我 感觉 背后 最 核心 的 还是 class 3.5 代码 能力 变强 了。 就是 刚才 聊到 有效 代码 从 几十 行 变成 几百 行, 我自己 有 个 比喻, 就是说 class 3.5 senate 可能 就是 这个 行业 的 iphone 的 摄像头。 今天 的 curse 可能 就是 一个 基于 这个 摄像头 之上 的 一个 的 拍照 工具。
今天 的 科技 我 觉得 还是 给 专业 群体 的 一个 工具, 还是 很 早期 的。 其实我 觉得 最 期待 的 就是 能 一个 给 大众 级 消费 的 口径 编程 工具。 为什么 期待 大众 级 呢? 就是我 感觉 背后 还是 有 一条 叫 技术 民主化 的 一个 趋势。 就是说 你看 adobe 的 photoshop, 其实 在 创意 和 内容 里面 很强。 全球 两三千 万 的 专业 设计师 吃饭 都 靠 这个, 对 吧? 但是 你看 在 大众 群体 里面, 基本上 还有 抖 音 剪 映 看吧, 这种 消费 级 的, 而且 活跃 用户 都是 上亿 级 的, 比 photoshop 几千万 的 还要 大 一个 量级。
其实 你看 iphone 是 有 摄像头 的, 但 抖 音 没有。 在 苹果 还是 有一个 独立 的 超级 应用。 我 觉得 未来 有 一种 情况 就是说 我 用 一个 自然语言 描述 我的 任意 一个 需求。 比如说 我 给 手机 说, 让 超市 每 周一 八点 给我 家门口 送到 一些 水果, 这 周 的 食材? 今天 是 没有 一个 程序 能 满足 我的 需求 的, 甚至 说 以前 的 程序 只能 满足 头部 的 需求, 长尾 的 需求 就是 没有 被 满足 的。 我 感觉 未来 就是 一个 自然语言 编程, 然后 agent 是 叫 多步 长距离 的 推理 能 完成?
我 感觉 如果 投 coding 的话, 只 做 专业 开发者 群体 是 有限 的。 我 感觉 上线 天花板 可能 就是 给 十个 币, 然后 我 觉得 最有 想象力 的 故事 还是 应该 去做 大众 消费 级 市场。 它 有可能 就会 有一个 叫 task engine, 叫 任务 引擎。 Google 是一个 叫 搜索引擎 search engine。 我 感觉 这 不就 新一代 的 google, google 是 信息 对 吧? 那 task engine 就是说 完成任务, 完成任务 才是 这 一轮 技术革命 下 最 核心 的 一个 主题。 当然 这 里面 谁 来完成 不好 说, 是不是 拆 G P 完成 了, 甚至 说 现有 的 搜索 公司 完成 了, 还是 说 落到 这些 coding 的 公司, 我 觉得 不确定。 甚至 说 今天 做 专业 群体 的 编程 工具 的, 是不是 能 下沉 做到 消费 级 群体。
我 觉得 也 不好 说。 之前 我们 播客 说到 plastic 是 能够 匹配 现在 模型 能力 的 最好的 应用。 在 R L 的 这个 新 范式 下, 现在 能 匹配 这个 模型 能力 的 最好的 应用 方向 是 就是 coding 的。
对我 感觉 就是 coding 有可能 cursor 就是 今年 的 proxy 模型 能力 匹配 产品 最 match 的 一个 阶段。 因为 刚才 提到 代码生成 能力, 从 几十 行 到 几百 行, cursor 变得 更。 Work 了, 但 curse 跟 propular ity 我 感觉 我们 也 在 想 这个 对比。 就是说 搜索 和 广告 这个 市场 是 足够 大 的, 你 抢过来 1% 这个 生意 都 很大。 但 代码 其实 付费 群体 是 不够 大 的, 其实 这 两个 领域 它 都有 个 巨头 的 编程 工具, 最大 的 是 微软 的 V S code, 那个 垄断性 也很 强。 但是 广告 的 生意 足够 大我 感觉 这个 是个 相对 的 不同。 但 另外 就是说 proxy 和 cost 今天 它的 门槛 都 还是 偏高 的, 就是 怎么 下沉 到 更大 的 大众 消费 级 市场, 我 感觉 这个 可能 是 大公司 出现 机会 的 所在 的 地方。
中国 有 plastic 和 科学 吗?
米塔, 真 Spark 科 sir 还没有。
这是 coding。 下面 是 视频, 除了 coding 呢?
除了 coding 就是 视频。 我 感觉 coding 和 视频 是我 现在 最 兴奋 的 两个 赛道, 觉得 应该 去 bat 的 两个。 为什么 视频 那就是说 首先 我们 能 看到 偶尔 出来 之后, 过去 的 半年 视频 生成 的 进步 效果 非常 大。 其实 你看 半年前 一个人 走路 那个 动作 是 很慢 的, 今天 是 很 丝滑 的。 其实 sora 给 行业 的 推动 我 感觉 是 很大 的, 就是 给 大家 指明 了 可以 走向 D I T 这个 路线。
为什么 看 视频? 我 感觉 就是 大家 可能 远远 的 低估 了 创意 和 内容 这个 赛道 了。 其实 你看 手机 有了 摄像头 之后, 每个 人都 可以 拍 视频 了, 就有 了 抖 音 对 吧? 其实 很多 抖 音 的 视频 播放量 能能 几个 亿, 影响力 完全 比 传统 的 大导演 影响力 还要 大。 但 如果 视频 生成 能力 如果 很强 了, 那 我 觉得 人人 可能 都是 电影 级别 的 一个 导演 了。
我们 每个 人都 有 自己的 想法 和 创意, 只是 说 之前 没有 能力 实现, 今天 可以 低成本 的 实现 了。 就 以前 一部 电影 可能 几千 万美金, 上 亿美金 的 拍摄 成本。 那 未来 有可能 很多 爆款 的 电影 可能 就 几 万美金 的 成本, 从 编剧 到 生成 到 甚至 到 营销。 我 觉得 甚至 可以 简单 的 说, 就是说 未来 A I 能不能 产生 更多 的 李白杜甫、 毕加索、 梵高。 就是 A I 生成 的 内容 质量 是 更高 的, 人和 A I 共创 可以 有 更多 的 天才 的 想法 能被 实现, 我 觉得 这 是一个 很 兴奋 的。
我 觉得 电影 只是 一个 例子, 因为 今天 A I 的 可控性 还 有限, 那 有可能 在游戏 领域 可能 是 更 早 容易 落地 的。 我 觉得 游戏 是一个 非常 有意思 的。 但是 今天 的 视频 生成 整个 格局 特别 不稳定, 它 不像 语言 模型 一样, 大哥 老二 做 次 比较清楚。 视频 生成 其实 这 整个 领域 的 风险 我 感觉 也是 巨大 的。
就是 为什么 它 不能 稳定下来?
技术 架构 没有 统一, 今天 叫 各领风骚 100天。 每家 都 有一个 自己的 bt 比如说 有的人 去 做广告 群体, 有的人 去做 电影 动画, 用 的 数据 也 不一样。 有可能 我 感觉 这个 会 像 内容 行业, 有可能 它 不 像是 语言 模型 一样 赢家 通吃。 它 有可能 是 分 那一个 视频, 这个 赛道 是 很 诱人 的, 但是 风险 很大。 如果你 往 大 了 说, 他 可能 有 新的 tiktok 这种 级别 的 机会, 但是 这个 窗口 有可能 是 比较 长 的, 今天 已经 开始了。 但是 有可能 这个 决胜 的 窗口 可能 是得 持续 个 三四年。 所以 我 感觉 这个 过程中 就得 紧密 的 去 跟着, 甚至 说 你 今天 可能 就得 下场 或者 去 拜访 一些 东西, 包括 未来 技术 架构 也是 会 变化很大 的, 有可能 会有 完全 全新 的 架构 出来。
视频 不止 在 深层, 理解 也很 关键。
对, 其实 你看 meta ribbon 眼镜 这个 就 蛮 有趣 的。 它 现在 可能 销量 有 个 上百万 台, 但 假如 全球 有 1亿人 每天 戴 着 这个 眼镜, 我 觉得 他 能 从 我们 日常 习惯 里面 总结 出来 更多 的 人类 的 习惯, 商业 的 习惯, 我没有 发现 的 规律。 我 觉得 他 就是 新的 牛顿, 能 总结 出来 很多 我们 没有 发现 的 规律。 而且 这个 可能 还是 采集 的 非常 关键 的 一类 数据, 有可能 是 机器人 需要 的 很 重要 的 数据。 第一 视角。
你怎么看 语言 和 视频 模态 的 关系?
我 感觉 语言 还是 最难 的, 就是 刚才 提到 它是 一个 人类 几千年 的 一个 抽象 语言 的 竞争。 其实 是 最 激烈 的 座次 排名, 我 感觉 今年 跑 完 基本上 是 就 吻 了。 别人 想 再 翻盘 我 感觉 挺 难 的。 但是 视频 的 格局 其实 做事 很 模糊, 变化 会 很大。 我 感觉 有可能 有一个 语言 底座, 再加 其他 模态 有可能 是 相对 容易 的。 但 其他 模态 想 反向 的 在 做好 语言 模型, 你的 底座 我 感觉 是 比较 难 的。 视频 那块 有可能 会 独立 或者 多家 共存, 就像 内容 产业 也是 有可能 的。
视频 生产 你 最 看好 的 是 哪家 公司?
我 觉得 现在 比较 难说, 因为 格局 不稳定。 拜托 任何 一个 初创 公司 风险 都是 很大 的, 你 只能 在 这个 阶段 相对 选 最优。 因为 之前 最早 runway 很 火, 后来 皮卡 的 营销 很 出圈。 今天 从 视频 上面 的 流量 上, 鲁 马 是 runway 和 皮卡 的 七八倍 了。 包括 helper 有些 产品 做 的 也 不错, 包括 今天 我们 还 不知道 open SA2.0 进展 怎么样, 它 肯定 是 资源 上 人才 上 肯定 是 更强 的。 你 包括 字节 跟 meta, 它 肯定 是在 他们的 核心 辐射 之下。 我 感觉 今天 不好 说 哪 一家 最好, 我 觉得 这 是一个 在 未来 三四年 也是 一个 关键 的 角逐 的 赛道。
除了 coding 和 视频, 第三个 是 机器人。
通用 机器人。 其实 硅谷 这 波 通用 机器人 的 hip, 我 感觉 还是 open 带 起来 的。 就说 大家 想 赌 一个 巨 深 领域 的 open, 但 这个 赌注 我 感觉 不是 一个 商业 和 投资 问题, 其实 还是 一个 基础科学 能不能 突破 的 问题。
好像 还 挺 早期。
的对 硅谷 的 这些 通用 机器人公司, 我 感觉 本质 上都 还是 一个 research lab, 还 不是 一个 商业 公司。 但 这个 lab, 你 说到底 是 两三年 突破 还是 十年 突破, 我 觉得 不好 说 了, 今天 肯定 是 靠着 十年 这个 时间 维度 的。 我 感觉 这里 最 核心 的 是 说 谁能 像 open a 一样 能 融 到 二三十 亿美金, 你 能有 足够 的 资源 多 试错 几次。 如果 没有 基础科学 突破, 那 我 感觉 这 里面 优秀 的 人才 还是会 被 大厂 给 兼并 过去。
另外一个 你看 不同 的 是 大 语言 模型 跟 机器人。 机器人 的 重要性 对 大公司 来讲 其实 没有 像 语言 模型 那么 重要。 语言 模型 好像 在 每个 科技 巨头 的 主线 之下, 因为 不是 每个 巨头 都 得要 做 机器人 的。 今天 做 机器人 的 巨头, 我 感觉 主要是 google tesla 还有 amazon 这 三个 了。 其实 你看 google tesla 内部 的 团队, 我 感觉 都 比 外面 还要 强, 每年 投入 几 亿美金。 他们 自己 并不一定 会 像 微软 一样 去 支持 一个 巨 深 的 open。
艾玛 我 感觉 还有一个 很 关键 的 基础科学 问题, 就是说 今天 还没有 在 通用 机器人 领域 看到 通用 和 泛化 能力。 大家 都是 针对 特定 场景 去做 一些 叫 模仿 学习。 A 设备 采集 的 数据, B 设备 现在 还 不能用, 我 觉得 这就是 一个 有趣 的。 甚至 说 你 今天 采 数据 的 成本 都 很高, 从 几十 美金 到 几百 美金 不等, 甚至 每个 场景 都要 采 几百个 小时。 场景 和 产品 定义。
今天 没有 看到 哪个 好的, 或者说 你 真的 愿意 买 一个 带回 自己 家的, 就 真的 有用的。 你 今天 让 他 帮你 把 衣服 放到 洗衣机 里, 再 放到 烘干机 里。 你 让 他 去 把 吃 完 的 这些 餐具 放到 洗碗机 里, 再 倒 上 洗碗 液。 这个 好像 都 做不到。
而且 他 可能 做到 了 A 这个 场景, B 就 做不到。 对, 完全 没有。
但 我 感觉 中国 的 语速 是 比较 好的, 他 起码 可能 是一个 机器人 的, 富士康 这是 打底 的那 其实 这个 背后 还是 中国 的 供应链 优势 比较 强。
现在 美国 的 通用 机器人 有 哪些 明星 项目? 欧文 安 投资 了 一个 机器人公司 叫 figure a.
你 这个 有 了解 吗? 对我 感觉 美国 我 认为 的 最 头部 的 是 两个。 一个 是 派 是 google robotic team 出来 的, Chelsea, soga 他们 几个 我 感觉 是 人才 上 绝对 最强 的 一个。 然后 还有 另外一个 是 自动驾驶 公司 cross 的 创始人 caro 做 的 the boat。 我 感觉 这 两个 是 核心 圈子, 包括 那些 researcher 认为 最 头部 的 两个。
除了 这 两个, 我 感觉 声量 和 融资 比较 大 的 还有 红杉 美国 投 的 一个 scale 的 A I 还有一个 figure 差不多 这 几家 公司 你 刚才 问 到 figure, 我 感觉 他是 融资 能力 比较 强, C E O 讲故事 能力 特别 强, 而且 投 了 它, 我 感觉 好像 就 投 了 几个 mini 并没有 投 那么 多 钱。 C E O 好像 讲 了 一个故事, 说 open I 的 机器人 的 模型 交给 他们 做 的, 我 感觉 其实 合作 形式 可能 就是 figure 给 open 一些 机器人 的 数据。 然后 open I 有一个 团队 帮 他 翻 出了 一个 机 模型, faker 去 把 这个 东西 端 到 端 弄 好。 但 我 就 感觉 faker 这种 定位, 你的 A I 能力 也 不是 最强 的, 硬件 能力 又 不如 中国公司 强。 他 只能 说 在 硅谷 的话, 硬件 能力 相比 其他 公司 强, 就是 端 到 端 优化 可能 好。 我 总 感觉 竞争力 定位 比较 尴尬, 那 硬件 肯定 还没有 特斯拉 强, 反正 我 感觉 这个 公司 是 有点 被 高估 的, 人才 密度 上 好像 也 不见得 有 另外 几家 公司 强。
所以 你 觉得 第一 梯队 是 the 派 和 the boat.
对。
中国第一 梯队 你 觉得 是谁啊? 在 通用 机器人 这个 赛道。
我 觉得 还是 非常 不清楚 的。 今天 去 投 通用 的 timing, 我 觉得 还是 比较 早 的。
投 人形。
我 觉得 人形 和 通用 是。
一致 的 一件 事儿。 他 没有 可能 先 把 人形 机器人 这个 形态 做出来, 然后 再 等着 通用 能力 灌到 这个 机器人 里面 吗?
我 觉得 最后 是 需要 fundamental 基础 可以 突破 的, 没有 泛化 通用 我 觉得 是 来 不了 的据 你 观察。
国内 的 机器人 和 硅谷 的 机器人 项目 团队 有 哪些 不同。
我 感觉 国内 应该 走 tesla 这个 路线, 从 模型 到 硬件, 端 到 端 A I 在 模型 上 可能 投入 不用 太大, 你 就 等 开源, 那 国内 做 你 肯定 是 先 定义 好 硬件 产品 或者 场景。 你 先 找 一个 特定 场景 去 落地 的。 你 像 tesla 就有 出行 这个 刚 需 场景, 手机 也是 一个 通话 这种 刚 需 场景, 你 才能 落地 把 轮子 转 起来。 我 感觉 今天 想做 场景 或者 动作 上 完全 通用, 这个 技术 上 本身 就是 不 work 的。 因为你 做了 A 动作 B 动作 是 没有 泛化 的。 你 在 A 设备 采集 B 设备 也 不能用, 对 吧? 我 感觉 硅谷 现在 都是 想 投 一个 机器人 的 大脑, 那 想做 I O S 或者 安卓, 在 国内 你 就读 整机, O V 小米 对 吧? 华为。
但 我 感觉 还有一个 就是说 从中 局 来看, 有可能 不会 是一个 A I 模型 适配 所有 硬件。 你 像 I O S 安卓 是一个 适配 所有 硬件。 但是 我 感觉 机器人 因为 A 设备 采 的 东西, B 设备 work, 它 有可能 就是 得 端 到 端的, 从 模型 到 硬件 到 数据, 端 到 端的 优化。 我 觉得 有可能 是你 就得 找到 一个 好的 大 的 场景 去 大规模 的 收集 数据, 针对 这个 单一 场景 去 端 到 端 优化。 而且 A I 能力 还 只在 这 一款 上 纤 体现。 我 觉得 tesla 那 套 逻辑 可能 还是 make sense 的。
其实 机器人 跟 自动驾驶 我 感觉 还是 相通 的。 但 硅谷 除了 tesla 以外 制造 能力 都不 太行, 我 觉得 肯定 还是 需要 中国 的 供应链 能 做出来 的。 硅谷 我 感觉 是 看不到 有什么 整机 全套 的 产品 出来 的。
人情 通用 这个 大 爆发 这个 timing 可能 还是 得要 5到10年 范畴。 很 可能 这批 公司 没有 真正 做出来。 我 觉得 很 可能 5到10年 大家 都 还是 在 一个 research lab 的 一个 阶段, 所以 那你 就得 白 上 最牛 的 最 独特 的 一些 科学家 人才 了。 你 等着 被 大公司 收购, 但 硅谷 是 容易 收购 的, 中国 好像 这个 收购 习惯 不多。 通用 机器人 最 核心 的 还是 技术 的 timing。 所以 你 在 硅谷 投 一个 精神 大脑, 在 国内 投 整机, 这个 我 感觉 是一个 比较 好的 害 者。
但 又有 一个 悖论, 就是说 是不是 有可能 不存在 一个 机器人 大脑? 有可能 这个 大脑 就是 GPT 或者 通用 的 大 模型。 你 做 一个 机器人 大脑, 有可能 它 也不 适配 所有 硬件, A 机器 的 数据 不能 用到 B 机器 上, 这 也 比较 尴尬, 还得 端 到 端的 适配。
今年 聚 生 智能 这个 赛道 真是太 火 了。 国内 的 投 机器人 的 投资人 说 在 大脑 层面, 国内 有 很多 做 这方面 研究 的 华裔 的 科学家。 所以 他们 不 担心 在 A I 能力 上 追平 美国, 他们 觉得 这个 差距 是要 比 大 模型 要 小的。 你怎么看? 以及 你 觉得 中国 的 这些 公司 有没有 这种 research lab 的 文化?
我 感觉 国内 硬件 能力 肯定 是 非常 强 的, 国外 的 A I 能力 是 非常 强 的。 我 感觉 如果 能 有什么 团队 能把 这 两个 能力 接 凑到 一起, 这个 肯定 是 最好的。 然后 你 从 大 模型 到 多 模态, 再到 具 身 智能, 包括 未来的世界 模型, 我 感觉 这 是一个 A I 发展 的 过程。 其实 每个 环节 都有 自己 价值, 甚至 说 这 里面 的 很多 的 A I 人才 是 可以 跨界 的。 你 比如说 做 多 模态 的 研究, 其实 就能 促进 机器人 和 世界 模型 的 研究。
这 里面 其实 挺 多 华裔 背景 的 科学家 的, 也有 不少 人 回来了。 我 觉得 是 有可能 培养出来 一些 比较 好的 A I research 的 文化。 但 我 感觉 除了 人才, 其实 经济基础 是 最 重要 的。 经济基础 这种 创新 环境, 甚至 说 信仰, 我 觉得 这个 比较 需要, 但 其实 很 重要。 其实 这 两年 愿意 回来的 人 还是 在 减少 的。
相比 七八年 前, 我 感觉 国内 也有 国内 的 优势, 就是说 各种 硬件 支持 供应链, 也 不一定 非得 照着 美国 那 套 逻 去 一等一 的 去 弄。 我 觉得 最 现实 的 可能 还是 说 解决 一些 具体 场景 的 具体 问题, 也 不一定 非得 用 最强 的 A I 能力。 我 觉得 今天 国内 做 通用 其实 还是 有点 早。
现在 是 投 机器人 最好的 时候。
我 觉得 看 什么 角度, 如果 期待 投 一个 很强 通用 的 能力 的, 或者说 在 家庭 工厂 做 完全 通用 的 任务 的 机器人, 我 觉得 今天 肯定 不是 最佳 的 timing 的。 我 觉得 这个 timing 还 挺 远 的, 但 今天 有 这么 多 资源 和 人才 进入 这个 领域, 最后 也 不至于 说 完全 做 不 出来 什么东西。 比如说 美国 的 机器人 大脑, 机器人 的 foundation model, 我 觉得 肯定 还是 会有 进展 的那 这帮 优秀 的 人才 团队 可能 还是 有 很大 概率 去 被 收购 的 吧, 比如 全球 在 机器人 的 投入 越来越大, 那 把 硬件 做到 极致, 卖给 全球 的 实验室, 感觉 这也是 一个 挺 大 的 市场, 有可能 机器人 的 研究会 带动 很多 周边 的 一些 研究, 有可能 某些 东西 先 出来。
这 国际主义 浪潮 对于 之前 成立 的这 机器人公司 会有 什么样 的 冲击 和 影响? 因为 这个 赛道 好像 有 十年 了。
对, 主要是 之前 的 机械 公司, 他 这个 商业化 还没 做好。 今天我 不确定 它 有没有 足够 的 资源 真的 投入到 通用 人形 的 研发。 其实 做 人形 是 很 容易 的, 大家 都会 发 一个 产品 对 吧? 好像 没有 人形, 今天 感觉 就 跟 落伍 一样。 但是 在技术上 真的 做 投入 的, 我 觉得 是 比较。
少 的那 如果 只有 一个 行, 它 一直 没有 技术 落地 的话, 这些 公司 怎么办? 拿了 很多 钱。
今年 我 感觉 还是会 走向 特定 领域, 就是 大家 有 理想 也会 有 现实, 就 看 谁能 先 定义 出来 一个 好的 场景 或者 一个 好的 产品。 今天 还 不太 多。
对, 我记得你 说 他的 那个 目标 不明确。
目标 不明确, 他 不像 扣 的 那样 那么简单。
对, 你我 我 设计 一个 人形 机器人 到底 是 帮 我 干嘛呢? 还是 帮 我 搬箱子, 还是 帮 我 洗衣服。
对我 感觉 现在 只有 军用 场景 或者 消防 场景, maybe 人的 生命 更 贵 吗? 那 这种 有可能 还行, 但是 军用 和 消防 它 还是 一个 特定 领域 去 优化 的, 更多 还是 一个 设备 的 角度。
对他 其实 对于 是不是 人形 关注度 不用 那么 高。
甚至 说 对于 这 里面 的的 能力 要求 是不是 有 多 高。
复盘 来看, 在 硅谷 过去 一年 哪些 东西 是 超出 你 预期 的?
我 感觉 超 预期 的 公司 层面 就 两个, 一个 是 anthropic, 就 是从 落后 18个月 到 从 模型 上 追平 了, 甚至 有 微弱 领先优势 了。 然后 还有一个 就是 A I 搜索 的 property, 这也是 我们 上次 博客 聊 的, 我 感觉 这 两个 公司 还是 有些 超 预期 的。 其实 其他 超 预期 的 我 感觉 不算 太多, open a 我 感觉 就 符合 预期, 甚至 说 它的 领先优势 没有 进一步 放大, 我 觉得 甚至 有点 低于 预期 一些。 我 感觉 最近 恶补 学习 了, 强化 学习 之后, 我 就 感觉 走向 A J 的 路径 更 清楚 了。 强化 学习 的 提前 到来, 我 感觉 是 超 预期 的。
你 最 近几个月 听到 最 让 你 兴奋 的 idea 有 哪个?
我 感觉 最 重要 的 还是 把 模型 的 能力 变得 更 聪明。 其实 没有 其他 的 idea, 这 还是 最 重要 的 一点。
站在 今天 拿 L L 我们 再去 重新 对比 一下 移动 互联网, 它的 主线 的 叙述 逻辑 是什么? 有 哪些 明线, 哪些 暗线?
对我 觉得 移动 互联网 跟 今天 的 R M 做 个 对比 是 蛮有意思 的。 我们 可以 画 一个 图, 就是说 主线 可能 有 一条 明线, 一条 暗线。 移动 互联网 的 明线 可能 是 全球 多了 四五十 亿 的 移动用户, 一条 暗线 可能 就是 有了 用户 行为 数据 做 推荐。 其实 过去 十年 没有 做 推荐 的 公司 都 没 做大, 我 觉得 是 蛮有意思。 你看 移动 互联网 还有 几个 关键 的 feature 能力, 就是 大屏幕、 摄像头, 还有 G P S。 其实 这 每个 feature 都 诞生 了 非常 大 的 一些 公司, 就是 大屏 用 摄像头 就 跟 tiktok 抖 音 一样。 G P S 就是 uber D D E 这些。
你看 今天 的 A I 的 主线 暗线 关键 feature 到底 是 啥? 我 感觉 一条 明线 还是 skin law。 虽然 是 skinning law 在 发生 范式 的 变化, 其实 scaling law 背后 的 核心 还是 computer。 这个 我 感觉 大家 有 一定 共识, 但 这条 暗线 到底 是 啥? 就 之前 咱们 那个 新时代 摩尔定律 里面 觉得 那个 暗线 是 成本。 对, 但 今天我 觉得 这条 暗线 有可能 是 self play 强化 学习, 大家 有可能 会 低估 了 强化 学习 的 重要性。 甚至 说 有没有 一个 可能性, 今天 不做 强化 学习 的 公司, 下 一波 浪潮 里面 都 跑 不 出来, 这就 跟 推荐 一样。
今天 R M 的 关键 能力, 我 感觉 可能 如果 让 我 排序, 我 感觉 是 coding 多 模态 数学 agent 这 几个。 甚至 可能 还有 一些 其他 的, 就说 个性化、 可靠性, 我 觉得 还是 跟 我们 之 前提 的 那个 观点 一致。 就是说 你 观察 这 几个 主线 暗线 也好, 或者 关键 能力 它 也是 渐进式 提升 的。 我 觉得 应用 也是 随着 它 现在 是 提升 逐渐 解锁 的。
你 什么时候 意识到 R L 这么 重要 的?
也就 最近 两三个 月。
A I 领域 的 最大 体量 的 数据 是从 哪里 来? 移动 互联网 最大 的 数据 来源 都是 新 产生 的, 而 不是 旧 的 应用 的 积累。
我 感觉 可能 是 做 强化 学习 的 过程中, AI 产生 的 数据 加上 人 指导 的 数据, 就是 一个 教练员 指导 一个 运动员 反复 训练 的 这个 过程中 产生 的 数据。
站在 今天, 你 能不能 重新 评价 一下 中国 这些 LLM 的 公司?
我 感觉 大家 在 模型 上 做 的 都 差不多, 技术 辨识度 依然 还没有 完全 拉开。 背后 我 感觉 还是 因为 做了 太少 的 基础研究。 其实 很少 有人 外放 前沿 的 研究, 大多数 都 是在 follow 硅谷 的 进展, 把 硅谷 的 一些 技术 做 产业化 落地。 另外一个 就是 想做 A G I 的 可能 不多, 大家 都 想做 k lab, 但 今天 可能 还没有 看到 kidnap 长 什么样 的 影子。 今天 可能 还 主要 局限 在 search 还有 character 这 几个 产品 形态。 我 感觉 今天 还是 A G I 的 故事 在 称呼 指 月亮和6便士。 但 也 没什么 好 办法, 是我 的话 我 可能 也 只能 这么 做。
我 感觉 还有一个 就是说 去年 的 时候, 大家 可能 都 花了 比如说 三五千 万美金 去 训练 了 一个 初 代 模型。 大家 有 可的 能力 上 做到 了 GP3.5 的 水平。 但 我 感觉 后面 可能 很少 有人 再 继续 跟进 几 亿美金 投入 再 训 一个 模型 了。 甚至 说 我 感觉 得 有 百分之七八十 的 公司 会 放弃 pressure 预 训练。 大家 直接 用 开源 去做 post train 就可以 了。 因为 大家 去做 预 训练 有可能 还 不如 开源 这个 水平。 我 感 可能 大家 是 没有 明确 看到 未来 的 收益, 包括 你 贸然 做 purchase, 这个 资源 投入 的 风险 也 太大 了。
年内 你 预计 有 几家 能够 达到 GPT four 的 水平? 你 觉得 GPT four 的 水平 还是 一个 关键 的 门槛 吗?
我 感觉 国内 会 真正意义 上 达到 G P four 的, 我 感觉 至少 能有 两三家 的。 比如说 字节 deep thick 还有 音乐 这种 还是 在 认真 的 做 skill up。 我 感觉 G P4 还是 一个 走向 下一阶段 的 必要条件。 如果你 这个 不行, 后面 还是 一个 A 乘 B 的 乘积 关系, 那 你的 A 不行, 那 我 觉得。
是 比较 吃亏 的。 但 GPT four 和 R L 可能 需要 同时 做对, 中国 应该 加大 投入 LLM 吗? 我 感觉 现在。
投入 还是 太少 了。 你看 移动 运营商 4G和 5G的 投入 应该 都是 七八千 亿人 币 的 量级。 公路 高铁 投入 也 比较 大对 AI 方向 你 再 怎么 投入 都 不为过。 我 觉得 这个 还是 挺 可怕 的。 我们 想想 为什么 会有 鸦片战争 或 海湾战争, 这是 不对 等 的 一个 东西。
为什么 我们的 基础研究 做 的 不够。
我 感觉 很 简单, 就是 经济基础 不够 厚, 你 失败 了 就得 出局 了。 其实 基础研究 我 感觉 是一个 社会 在 资本 富足 后 的 一个 奢侈品。 其实 你看 当时 为什么 有 贝尔实验室, 是因为 A T N T 它 很 赚钱, 包括 迪曼 的 之所以 存在 每年 的 投入 那么 大, 还是 google 它 有 印钞机 业务。 我 觉得 如果 没有 一个 强大 的 经济基础, 其实 没办法 支持 这些 科学家 去 冒险 的。 你 包括 愿景 和 文化 也很 重要 的。 比如说 A G I 就 很 诱人 对 吧? 就能 吸引 到 最 优秀 的 人, 他 也 不用 太 担心 这个 商业 压力。 我 觉得 一个 非常 纯粹 的 研究性 的 组织, 这个 文化 愿景 我 感觉 也是 很 重要 的。
基础研究 一般来说 需要 什么样 的 文化?
冒险 文化。 中国 以前 就是 一个 农耕 文明, 耕 好 自己的 一亩三分地。 你看 我们 写 的 这些 paper, 领导 让 这个人 写, 那个人 写, 对 吧? 量 很大, 但是 方 突破 的 极其 少。 因为 欧美 它是 一个 海洋 文明, 我 感觉 是 勇于 冒险 或者 探索 未知 的 东西, 也有 契约 或者 合作 精神。 我 觉得 研究 的 氛围 很 重要, 就是 要 一堆 很强 的 人 在一起 碰撞。 今天 我们的 很多人都 分散 了, 每家 都有 也没有 集中 起来。
怎么 才能 更好 的 支持 基础研究 呢?
我 感觉 就得 让 有 经济基础 的 富人 和 有 利润 的 公司 多 投入, 甚至 鼓励 科学家们 的 一些 造福 效应。 因为 社会 总是 有 少数人 创新 和 冒险 推动 的, 而且 这个 基础科学 研究 的 投入 亏了 对 富人 没 啥 影响, 但 成功了 也得 让 这些 人 赚 到 大钱。 我 觉得 千万不要 拿 穷人 的 钱 去做 科研 冒险, 亏了 钱 就会 有人 拉 横幅, 让 科学家们 的 包袱 负担 会 很大。 你 在 美国 创业, 你 融 一 亿美金, 亏了 可能 被 大公司 收购 了, 擦 了 屁股, 有可能 三年 以后 再来 了。 但 在 中国 你 亏 一人 币, 我 感觉 创始人 连带 好长时间 翻 不了 身。 我 感觉 同样 亏掉 一个亿 的 单位 货币, 其实 结果 还是 区别 很大 的。 所以 还是 得先 支付 再 冒险 和 创新。
最后 一部分 我们 照例 来 点评 一下 硅谷 各个 主要 的 player。 第一个 毫无疑问 是 OpenAI 了。 在 open a 的 商业 上 过去 一年 你 有什么 总结?
我 感觉 还是 有点 浪费 了 技术 领先 的 红利。 你看 G T4 刚 出来 的 时候, 去年初 多么 的 领先。 但是 这个 领先优势 并没有 转化成 很 明显 的 产品 或者 商业 的 飞轮 上 的 一个 优势。 你说 今天 他 可能 有 40亿美金 的 A R, 年底 可能 七八十 亿美金, 这个 也 不差, 数字 上 很 成功, 但 我 感觉 阿里 上 应该说 更好 的。 我 觉得 背后 有一个 很大 原因, 可能 就是 没有 找到 对的人, 做出 更好 的 天才 的 产品。
你 比如说 咱们 提到 self play r ChatGPT, 其实 今天 可能 没有 很强 的 数据 飞轮。 它 不像 推荐 系统、 广告 系统 这么 强。 包括 你看 open I 除了 chat t 以外, 其他 的 产品 好像 都 不算 太 成功。 So far 今年 又 发 了 sora 对 吧? 又 发 了 search GPT。 包括 之前 的 pluggin 也好, 大力 也好, G P S 也好, 好像 都 有点 感觉 产品 没 做好 就 发 了, 自己 也 没 啥 好处, 反而 是 启发 了 行业, 就 有点 给 行业 做 公益 的 感觉。 ChatGPT 的 订阅 这个 商业模式, 今天 看我 觉得 比 广告 还是 要 差 的。 广告 这个 商业模式 还是 今天 最好的 商业模式。
在 O P O I 的 组织 和 人才 上, 你怎么看? 他们 感觉 今年 一直 都很 动荡, 那么 多 离职 对 他们 影响 大 吗?
我 感觉 不会 有 fundamental 的 影响。 首先 是 最 核心 的 人 没 离开, 其次 欧派 也 不会 说 缺 了 某个人 就 转 不 下去 了。 我 感觉 他们的 人才 密度 极其 的 高, 反而 管理 可能 不一定 压 得 住。 我 感觉 人才 是 过剩 的。 但是 有 一些 核心 的 创始人 离开, 有可能 对 整个 公司 的 内部 信心, 包括 凝聚力 可能 有 一些 影响。 创始人 都 走了, 甚至 还 加入 了 竞争对手 公司, 我 觉得 这个 可能 会有 一些 信息 上 的 影响。
比如说 greg brock man, 他是 联合 创始人 和 总裁, 他 离开 影响 大 吗?
我 感觉 技术 上 影响 应该 不大, 也许 历史使命 已经 完成 了。 但 greg 应该 是 最 open 的 人, 就是 感情 极其 深 的 一个人, 我 觉得 也 不清楚 他 现在 的 状态。
他是 说 长期 休假 是 吧?
对, 也许 硅谷 也有 这个 文化。 但是 最近 在 湾区 也有 好几个 朋友 碰到 他在 跟 一些 比如说 人 聊天, 不知道 这是 founder 还是 招聘 还是 V C, 不确定 他 会不会 说, 比如说 自己 创业 什么的。 以前 是一个 比较 喜欢 0到1 的 人, 但 我 感觉 好像 open, 我不知道 算不算 完成 0到1了。 我 感觉 如果说 依然 去做 A G I, 他 应该 留在 open 做 A G I, 或者说 maybe 离开 后 去 创业 也 比较 有意思吧。
另一个 联合 创始人 john human d 他 宣布 加入 anthropic。
John 离开 应该 影响 也 不大, 因为他 以前 是 post training 和 hour 的 负责人。 按理说 our 是 今天 核心 的 核心, 那那 其实 他 平时 不太 喜欢 管理, 很多 工作 去年 都 已经 交给 另外一个 bright 了。 他们 现在 postion 的 核心, 我 感觉 他 就 想 独立 的 做 research, 做 I C, 一个 比较 纯粹 的 researcher lab。 可能 这种 文化 maybe 可能 更好, 但 我 感觉 他 可能 加入 anthropy, 也许 对 anthropic 未必 帮助 更大。 因为 有可能 两个 公司 的 信息 就 拉齐 了, 作为 核心 的 管理层。 但是 有可能 我 不一定 知道 and sorry 的 核心 信息 open I 人才 足够 的 多, 而且 核心 的 人 并没 走。 其实 这些 人 离开 可能 影响 并不大。
依恋 的 离开 今天 回头看 可能 的 原因 是 哪些? 大家 说 他 离职 跟 Q Q star 有关。
我 觉得 一种 概率 就是 伊利亚 可能 更 早 的 看到 了 实现 不止 A G I, 叫 S I 叫 超级智能 的 一个 更快 的 路径。 但 也许 比如说 去年 的 时候 跟 sam 没有 达成一致, sam 可能 更 追求 商业 或者 拆 GPT 这些 的那 要么 就是 管理层 可能 有 一些 不可 调和 的 矛盾。 其实 你看 伊利亚 的 新公司 叫 S S I 超级智能, 我 感觉 它 很 自信, 似乎 看到 了 实现 超级智能 的 路径, 不然 也 不会 轻易 开 一家 公司, 甚至 说 可能 近期 都在 更 积极 的 招 人, 你说 伊利亚 能 拜托 啥 呢? 我 感觉 还是 拜 强化 学习 R O Q R 这些 东。
其实 q star 最早 是 基于 deep man 的 一个 paper, 应该 是 伊利亚 最早 提出来 的。 其实 刚才 我们 聊到 18年, 他 就在 提 这些 东西, 其实 做 强化 学习 是 open I 很深的 一个 传统 的。 我 感觉 如果 q star 真的 是 伊利亚 提出来 的, 我 感觉 他 应该 很早 看到 了 纯 语言 模型 pre train 的 一个 不足 了。 草莓 更 像是 一个 项目 的 代号。 L 其实 是 方法, q star 可能 是 最早 的 一个 缘起 的 paper.
q star 是 paper.
最早 盯 慢 的 有一个 paper。
A I 解释 今天 你 觉得 颠覆 了 任何 的 巨头 没有。
主要是 A I 的 颠覆性 好像 没有 那么 强, 或者说 时间 没有 到。 但 我 感觉 更 会 重构 很多 巨头。 其实 你看 今天 的 G P U 和 的 人才 都 很贵, 对 吧? 其实 有点像 你 去 组织 一个 战斗机 飞行 编队, 有的 飞行员 可能 就 开 100个小时, 有的人 能 开 1000个小时, 有的人 开 1万个小时。 这就是 所谓 的 白卡 人才、 千卡 人才、 万 人才。 其实 你 没有 开 过 战斗机, 经历 过 大量 的 训练, 有可能 他 就 不一定 是一个 好的 飞行员。 创业 公司 今天 就 缺 卡。 我 觉得 还有一个 比较 大 的 不同, 就是说 今天 的 A I 只是 改变 了 生产 环节, 但是 分发 和 消费 环节 都在 成熟 的 老 公司 这里。
美国 红杉 的 合伙人 David, 他 不是 发表 了 一篇 文章, 是 说 A I 的 6000亿美元 之问 吗? 他 就说 每年 需要 填补 AI 的 收入 缺口 增加 到了 6000亿美元 的, 强调 了 这个 收入 增长 与 基础设施 投入 之间 的 差距。 你 怎么 回答 他 这个 问题?
我 觉得 挺 难 回答 的。 这个 文章 标题 我 感觉 也 有点 标题党, 其实 也 肯定 也没有 华丽 前景 那么 多。 因为 大头 还是 有些 大公司 语音、 广告 用到 的 多, 真的 用到 模型 上 的, 其实我 感觉 还 可能 没 到 千 亿美金, 我 感觉 revenue 和 use case 肯定 是 低于 预期 的。 我 觉得 这个 是 共识, 但 这个 也 没办法。 但 我 感觉 只能 说 看 下一代 模型, 尤其是 G P5 或者说 草莓 这些 的 进展。
我 感觉 David 讲 的 这个 问题, 其实 是一个 历史 规律 问题。 其实 每一次 科技 变革 都是 经历 先 硬件 投入, 在 英 菲尔 建设 再 应用 爆发。 历史上 也都 是 先 有 铁路 建设, 再有 后来 的。 经济 活动 先 有 芯片 P C iphone 再有 移动 互联网, 先 有 数据中心 才有 企业 上 云。 我 觉得 还有一个 有意思 的, 就是说 2010年 的 时候, amazon 当时 只有 思科 的 3分之1 的 市值。 那个 时候 科 已经 1500亿美金 了, 但 现在 思科 是 2000亿美金, amazon 是 2万亿美金, 十倍 了。 所以 我 觉得 硬件 投入 info 建设 可能 还是 需要 时间 的。 应用 和 收入 其实 是 后半程 体现 的 更好 的。
我们 其实 前段时间 做了 一个 A G I 的 指数, 代号 叫 A G I X, 其实 就是 反映 了 不同 阶段 的 公司 变化。 其实 这个 指数 里面 40% 就是 硬件 公司 的 权重, 尤其 半导体 产业。 40% 是 英特尔 的 公司, 20% 是 应用 的 公司。 我 感觉 随着 A I 建设 的 发展, 其实 后面 这些 的 权重 比例 肯定 是要 增加 的。 你 比如说 我们 看到 service now、 polenta, 其实 这些 公司 在 应用 上 进步 还是 比较 快 的。
在 2024年 Q 3, A I 叙事 还有 哪些 非 共识?
这个 问题 也 比较 有意思, 有可能 开源 模型 和 小 模型 在 很多 特定 高 价值 任务 上 并不 work。 比如说 我们 就 拿 property 来看, 其实 你 同一个 用户 问 同一个 问题, 用 不同 的 模型, 这个 答案 差异 很大。 因为你 用 这个 产品 去做 探索, 其实 一个 大 的 模型, 一个 小的 模型 对 你的 结果 用户体验 影响 是 很大 的那 其实 在 很多 复杂 任务 上, 你的 问题解答 率就 比较 低, 最后 你 还得 又 回到 G P C O 或者 3.5。 我 觉得 这 是一个 过去 几个 月 观察 到 一个 很 有趣 的, 就是 发现 用 开源 或者 用 小的 很多 问题解答 不了, 这个 是一个 高 概念 分 公式。
第二个我 感觉 是 很多 硅谷 或者 这 一波 的 A I 公司, 它 不是 商业 公司。 我 觉得 本质 上 还是 一个 research lab 的 一个 感觉。 有可能 在 美国 就是 个 常态, 就像 贝尔实验室 A N T 支持 一个 lab 对 吧? 巨头 以 投资 的 形式 给 到 founding 支持 发展 这个 lab 的 研究成果, 再 给 到 巨头 做 商业化, 其实 这样 也 挺好的。 因为 巨头 内部 的 文化, 包括 人才 不够, 可能 也 做 不 出来 lab 有一个 自己的 好的 文化。 而且 巨头 投 的 这些 钱 还 不算 亏损, 巨额 的 亏损 还 不用 并 表, 我 感觉 有可能 还是 不错, 有可能 会不会 这 是一个 常态。 这些 公司 就是 一个 live 的 形式, 我 觉得 有可能 也不 指望 它 真的有 大规模 的 商业 爆发。
我 觉得 还有 其他 很多 好玩的。 你 比如说 可 解释性 的 研究, 我 觉得 研究 是 一方面, 但 如果 可 解释性 研究 真的 突破 了, 其实 更 重要 的 是对 后面 怎么 设计 新的 模型 是 有 很大 帮助 的。 其实 你看 今天 的 模型 的 参数 很大, 但 真的 你每 一次 query 它 激活 的 参数 是 很小 的, 你 把 那些 其他 的 参数 砍掉 是 没问题 的, 这个 就 很 像 人的 脑科学 的 研究, 人脑 也是 分区 的那 最后 真的 研究 清楚 模型 的 可 解释性 激励, 我 觉得 这个 是 蛮有意思 的。
很多人 预期 多 模态, 但 多 模态 真的 能不能 带来 智能? 有没有 skinning law 不好 说, code 有没有 skinning law 不好 说, 我们 相信 是 有的。 包括 刚才 聊到 数据 和 代码 能不能 放到 更多 领域。
后面 的 追赶 者 相比 领先者 的 结局 到底 是 怎么样 的? 历史上 有 非常 多 的 追赶 者, 但是 结局 往往 是 不太好 的。 虽然 说 头部 可能 遇到 一些 路线 上 饭时 长 的 变化, 但是 追赶 者 真的 能 追上 或者 反超 吗?
这个 不好 说。 志愿者 为什么 一般 命运 都 不好? 国内 的 模式 创新, 他们 就会 觉得 一般 都是 第二名。
赢 追赶 者 成功, 第二名 反超 第一名 成功 的 好像 只有 抖 音, 反正 快手, 其他 历史上 好像 美团。
好像 也 不是 第一个 对 美团。
做 外卖 也 不是 这种。
也有 Carry 点 A I 之后, 哪些 A I 公司 还有 可能 被 收购, 你们 做 个 预测。
Popular 比如说 amazon、 meta, apple. 我 感觉 好像 每个 科技 巨头 都 有一个 做 搜索 的 梦想。 像 proposal 这种 搜索 的 意图 数据 是 极其 有 价值 的。 能 让 平台 公司 能 更 深入 的 了解 用户 的 需求, 提升 广告 或者 服务 的 一些 匹配度。 另外 搜索 的 整个 技术 栈 其实 是 最前沿 的, 能 反向 带动 整个 平台 的 技术 站 的 升级。 其实 你看 微软 有了 必应 才能 在 做 挨着 这个 云 的 时候 是 更有 优势 的。 Mr 我 感觉 也是 mr 并 不是说 做 不 下去 了。 我 感觉 他 做 的 其实 还 蛮 好, 但是 他 不一定 能 进 到 新的 赛场 里面, 所以 有可能 我 觉得 值得 一个 巨头 去 买 掉 它。
2000年 互联网 到 burst 以后, 只 留下 了 M 总。 今天 如果 A I 的 hip 破灭 了, 谁 会 是 下一个 M 总?
这也是 很 好的 一个 话题。 我 感觉 硬件 公司 是 值得 看 的, 一个 是 apple, 一个 是 tesla, apple iphone 是 还 值得 继续 好好 研究 的。 虽然 apple 的 A I 能力 不是 最强 的, 但是 大 概率 未来 的 k lap 还是 长 在 手机 上 的。 Apple 肯定 还是 一个 叫 无形 的 受益者, 我 觉得 这个 还是 一个 挺 大 可能 的。 我 感觉 tesla 也是 长期 值得关注 的。 真正意义 上 从 一个 卖 车 的 公司 变成 一个 真正 的 A I 的 公司。 整个 交通 行业 还是 变化 更大 的, 而且 它 也是 一个 机器人公司。 但 今天 的 自动驾驶 我 感觉 还是 受限于 端 侧 算 力 有限。
在 A I 的 大量 场 变化 下, 你 对 一 二级 市场 有没有 一些 预测?
今天 看 AI 好像 不是 颠覆 老 公司, 我 觉得 很大程度 上 一个 关键词 叫 重构, enable 一批 老 公司。 其实 A I 提升 了 生产力, 但 并没有 改变 生产关系, 它 只 改变 了 生产 环节。 在 分发 和 消费 环节 都 还在 成熟 的 老 公司 这里, 生产关系 和 生产 环境 都 还在 老 公司 手上, 那 老 公司 大概 也 还是 受益 的。
其实我 觉得 之前 我们 内部 经常 举 的 两个 例子, 一个 是 adobe, adobe 在 当年 上 云 之前 就是 一个 几十 亿美金 的 传统 软件公司。 你看 转 云 之后, 商业模式 变 好了, 市场 规模 变大 了。 现在 是一个 两三千 亿美金 的 公司, 包括 中国 的 海康威视, 对 吧? 之前 就是 一个 卖 摄像头 的 公司, 一个 硬件 公司, 经历 了 上 一波 计算机视觉 的, 它的 商业模式 变 好了, 规模 也 变大 了, 然后 增速 也 变了, P E motor 都 变了。 这 一波 A I 肯定 也会 有 类似的 故事, 但 这 一个 大幕 我 感觉 还没有 开始。 H I 的 第一幕 还是 科技 巨头 受益 了, 第二幕 之下 我 感觉 会有 更多 的 可能 几百 亿美金 的 公司。 因为 A I 这 一波 商业模式 发生变化 了, 规模 发生变化 了, 我 觉得 这个 是 更 期待 的。 所以 我们 自己 也 推 了 一个 二级 市场 的 追踪 A I 的 一个 指数, 叫 A A I X, 能 更好地 追踪 这些 成熟 公司, 也能 更好 的 理解 希望 成为 一个 A I 领域 的 Q Q Q, 或者 长期 受益 能 beat Q Q Q, 我 觉得 这也是 一个 A N A T 的 产品。
So he gets me, gets me too long.
结果 在哪里?
好, 这 期 节目 就是这样。 如果 你喜欢 我的 节目, 欢迎 前往 苹果 podcast、 腾讯 新闻、 小宇宙、 喜马拉雅、 QQ 音乐 订阅 张小军 商业 访谈录。 如果你 有 其他 想 邀请 的 嘉宾, 想听 的 内容, 或者 你 有 任何 想 探讨 的 话题, 都 欢迎 各位 听众 朋友们 在 评论 区里 留言。 我们 下期 再见, 拜拜。
问 你 如何 介意?