cover of episode 76. 王小川返场谈o1与强化学习:摸到了一条从快思考走向慢思考的路

76. 王小川返场谈o1与强化学习:摸到了一条从快思考走向慢思考的路

2024/9/25
logo of podcast 张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

AI Deep Dive AI Chapters Transcript
People
王小川
Topics
王小川:OpenAI的O1模型代表了从‘快思考’向‘慢思考’的范式升级,标志着AI向真正拥有智慧的雏形迈进。‘快思考’如同‘读万卷书’,代表大模型的学习能力;‘慢思考’如同‘行万里路’,代表强化学习的思考能力。两者最终会融合,O1模型正是这种融合的体现。Sam Altman被董事会下课以及强化学习大神Noam Brown加入OpenAI,可能与OpenAI在强化学习方面取得突破性进展有关。O1模型通过将思考过程和结果分成两个阶段,增强了模型的泛化能力,尤其在数学和编程领域表现突出,这得益于这些领域有明确的对错标准。O1模型隐藏思维过程是为了保护商业利益和技术独特性。未来AI会从强化学习范式转向写代码解决问题的范式。百川智能将专注于医疗领域的强化学习应用,目标是构建‘生命数学模型’,实现‘水涨船高’的应用模式,而非‘沿途下蛋’模式。 张小珺:引导访谈,提出问题,并对王小川的观点进行总结和补充。

Deep Dive

Chapters
讨论了大模型和强化学习的结合,以及它们在智能提升中的作用。
  • 大模型代表快思考,强化学习代表慢思考。
  • 强化学习在阿尔法狗等项目中展示了其潜力。
  • 大模型和强化学习的结合是智能提升的关键。

Shownotes Transcript

在 猫 特曼 之前, 在 宫斗 下课 的 时候, 那个 事情 我们 当时 理解 里面 就 觉得 并不是 狗血 的 事儿。 就 因为 他的 董事会 其实 也是 又 聪明 也 挺 正直 的 人, 都 不会 有 犯傻, 有的 出生 是 要么 蠢 要么 坏, 其实 这些 既不 蠢 也不 坏。 传传 是 有点 懵, N O A M 之前 也是 在 对外 做 强化 的 一个 大神, 加入 了 OpenAI。 并且 的话 也 号称 在 跟 其他 的 朋友 在 讲说 他们 在 有 一些 突破性 的 事情 了。 所以 它 不是 个 转弯 的 过程, 而是 怎么用 大 模型 的 快 思考 之后, 能够 让 他 学会 了 这个 慢 思考, 这 是一个 进阶。

Hello, 大家好, 欢迎 收听 张小军 商业 访谈录, 我是 小俊。 这是 一档 提供 一手 高密度 信息 的 商业 访谈 节目。 在 过去 两季 节目 中, 关于 OpenAI o 一和 A 范式 转移, 我们 先是 推出 了 一集 预言, 之后 又 推出 了 一集 解析。 在 一个 新 范式 来临 的 临界点 上, 我们 希望 听到 更多 的 来自 业界 不同 视角 的 声音。 哪怕 这些 声音 是 切片 的、 冲突 的, 我们 都 希望 把 它 当做 一种 记忆 和 留存 收集 起来。 今天 这 集 是 王小川 的 返场, 王小川 在 创业 开始 就 关注 到了 强化 学习, 并且 很早 开始 公开的 谈论 他他 曾经 说 大 模型 代表 快 思考, 他 叫 学, 强 化学 型 是 慢 思考, 他 叫 思 学 和 思 这 两个 系统 最终 会 走向 融合。 除了 欧 万, 王小川 也 聊 一 聊 强化 学习 在 一个 具体 的 特定 场景 医疗 中的 应用。

今年年初 OpenAI 发布 sorrow 的 时候, 我 其实 记得 你说 你们的 技术 同事 很想 跟进, 但是 被 你 摁 死 了。 这次 o one 其实。

在 我 看起来 的话, 我会 认为 这个 技术 的 范式 核心 的话 是 语言 模型, 然后 走向 强化 学习, 这是 智能 提升 的 两个 阶段。 因此 的话 当我们 去做 sora 的 时候, 它 既 不是 语言 学习, 也 不是 强化 学习, 就 不是 在 提升 治理 这个 方向 里面 的, 它是 另外一个 独立 的 产品。 因此 在 我 认为 去做 索尔 只是 对于 从技术上 并不 代表 智能 的 提升, 常理 上 也 不是 百川 所 追求 的。 因此 我 当时 认为 有 同学 这么 想, 这个 属于 叫做 技术 也 没 想 明白, 场景 也 没 想 明白。

O I 发布 的话, 这个 方向 和 这个 时间 也 在 我们的 这样 一个 预期 范围内。 实际上 从 去年 4月份 这个 板凳 下场 的 时候, 他 当时 就在 强调 强化 学习 对 吧? 以及 强调 多 模态, 这 不是 智能 提升 这个 方向。 甚至 到 后来 在 各自 我们 对外 的 演讲 中间 都在 用 几个 基本 的 概念, 一个 概念 我们 提到 是 他们说 这个 大 模型 是 叫做 读万卷书, 要 用 强化 学习 是 行万里路。 大家 就 比较 抽象 或者 举例子 讲 的 强化 学习 大 这个 大 模型 本身 在 讲 是 叫做 学而不思 则 罔, 他 会 读 很多 书, 但是 他 自己 内心 是一个 偏 比较 混乱 的 状态 的对 吧?

然后 这个 强化 学习 单独 强化 学习 的话, 有 个 典型 的 作品 大家 就 懂了, 就是 之前 的 阿尔法 狗。 我相信 阿尔法 狗 是对 大家 对 人工智能 的 启蒙, 对 它是 强化 学习 的 特别是 自我 博弈 的 一个 典型 的 代表。 这个 技术 而言 的话, 是 之前 deep mind 一直 沿着 这个 技术 是 走走 到 后来 发现 他 就 不幸 被 言中 叫做 思 而 不学 则 的 代, 就 停 在 一个 问题 里面 就 走 不 出来 了。 所以 这 两个 技术 都有 自己的 局限性。 所以 之前 这个 deep mind 做 的 工作 里面 就是 强化 学习 典型 代表。 就 说明 在 人工 智 发展史 上, 它 既有 很多 的 成果。 这种 诞生 阿法 go up zero, 甚至 一点 数据 都 不用, 甚至 延迟 开始 继续 打游戏, 打 德州。 因此 的话 这个 技术 而言 实际上 也是 很 核心 的。 只是 很 不幸 的话, 我会 从 语言 里面 把 这个 通用 智能 给 往前走 了 一步。

这种 学习 的 方法, 一种 思考 方法。 因此 这种 技术 早晚 会 何必 的这 之前 的 一个 理解, 因为 在 这 里面 的话 听到 过 一些 说法。 比如说 之前 在 猫 特曼, 之前 在 宫斗 下课 的 时候, 那个 时期 我们 当然 理解 里面 就 觉得 并不是 狗血 的 事儿。 就 因为 他的 董事会 其实 也是 又 聪明 也 挺 正直 的 人的, 都 不会 有 犯傻, 有的 出事 是 要么 蠢 要么 坏, 其实 这些 既不 蠢 也不 坏。 因此 在 中间 这种 分支 而言 的话, 一定 背后 是 有 某些 确实 可能 大家 没 发现 的 事情。 并且 在 之前 一周 时间 的 时候, 我也 听到 当时 他们 一个 核心 的 人 那 传传 是 有点 low。 N O A M 之前 也是 在 对外 做 强化 的 一个 大神 加入 了 OpenAI。 并且 的话 也 号称 在 跟 其他 的 朋友 在 讲说, 他们 在 有 一些 突破性 的 事情 了, 是 有所 强化 背景 大脑 在 做做 强化 大 的 突破。 可能 强化 那 一周 后 的话, 奥特曼 又 出点 事儿。 所以 在 那个 时候 我们 就 开始 感受到 他 可能 真的 是 有些 突破 了。

他 跟 sam 奥特曼 被 公斗 的 关系 是什么?

这 前后 两个 事儿, 第一个 来讲 的话, 被 宫斗 这 事儿 我 就 讲 他 这个 既不 澄 也不 坏。 所以 大 面上 一定 是 技术 上 讲, 游戏 大家 没看到 东西, 他们 内部 有 质疑 说 三方 层 比较 激进 对 吧? 有些 东西 他 对 安全性 不足, 确 但是 确实 一个 说法, 他 把 安全性 的 重要性 放在 了 技术 突破 的 后面 了。 有些 突破性 的 技术 可不 安全, 但 他 其实 有点 无所谓, 还是 依然 想 尽快 的 把 这 技术 突破 做 下去。 恰巧 我们 就在 说 他们 有 技术 突破, 那么 就是 代表 强化 学习 的这 两个 串 一块儿, 确实 有可能 强化 学习 里面 有有 突破。

因为我 看你 去年底 的 公开 采访 里面 就 提到 强化 学习。 你说 大 模型 代表 快 思考, 一 拍脑袋 就 给你 答案, 张口 就说, 但是 它 不 叫 思, 它 叫 学。 你说 强化 学习 是 慢 思考, 这个 才是 思。 那 学 和 这 两个 系统 合在一起 会 很 厉害。 所以 你是 在 什么 情况下 想到 强化 学习 的?

阿法 狗 有的 时候 就 知道 强化 学习 了。 所以 做大 媒体, 我在 应该 是在 公开信 里 就 讲 到了, 就要 做 强化 学习 的那 四月份 下场 的 时候, 这个 是从 创业 开始 就 知道 的 这个 路径。

但是 你是 去年底 意识到, 可能 open I 内部 已经 有 突破 了。

对, 是 这 意思。 评价 一下 open .

I 刚刚 发布 的 o one 模型。 有 评论 说 相比 GPT F O 来说, O Y 模型 感觉 向前 迈 了 一步, 却 又 退了 两步。 你是 用 完 这个 preview 版本 整体 感受 怎么样?

对, 一个 是用, 但是 评价 里面 有时候 你 也 加上 自己的 对于 这个 行业 的 思考, 就像 TP3.5 来 的 时候, 他 也有 这种 不会 的 东西。 是 有人 在 说什么 七位数 乘法 都 不会 做, 但 不 影响 对 他的 这样 一个 评价。 所以 更 重要 的 地方 的话, 它是 一个 范式 的 升级。 我不 认为 它是 叫做 进步, 退 两步 也不 叫 转弯, 就是 范式 升级 了。 因为 从 慢 思考 诞生 的话, 它 其实 是 快 思考 是 它的 一个 过程。 就是你 现在 有 快 思考 才能 有慢 思考, 所以 他 不是 个 转弯 的 过程, 而是 怎么用 大 模型 的 快 思考 之后, 能够 让 他 学会 了 这个 慢 思考, 这 是一个 进阶。

实际上 我 现在 在 沿用 的 D I K W 的 模型, D I K W 是 指 从 data 到 information 到 信息 到 到 westen 就有 四 步骤。 因此 的话 之前 的 搜索 就是 information 这 一层 的, 叫 帮你 获得 信息。 到了 大 模型 的 这个 L A M 之后, 就 到了 knowledge 这 一层 了, 有 知识、 有 沟通, 有 这种 快 思考。 而 今天 有了 这么 一个 mysql 之后, 它 已经 从 knowledge 开始 进化 到了 有 这个 wisdom 的 雏形, 就 真的 开始 有 智能 了。 他 这个 是 办事 升级, 是 把 原来的 这个 模型 作为 它的 组件 之一, 而不 只是 用 今天 的 这么 一个 强 学习者, 服务 于 大莫 小大 模型 是 它 这个 组件 了。 所以 这 是一个 大 的 这种 跨越, 就 既 不是 这个 转弯, 也 不是 进退 的 这么 一个 看法。 他是 摸 到了 一条 走向 慢 思考 的 道路。

为什么 我们 需要 有一个 这种 慢 思考 的 A I, 它 能 帮 我们 解决 哪些 事情?

就像 我们的 讲 来讲, 其实 是 智能 本身 它 一定 就是 一个 思考 的 这么 一个 过程。 但是 无人驾驶 可以 做 一个 端 到 端的, 它 这个 它是 端 到 端 里面 的话, 也是 需要 能够 一步、 两步、 三步 去 想 的。 就像 我们 现在 做成 几何 定义 说明 题, 然后 你 求解 的 问题, 他 一定 是得 有 你的 这个 思路 他他 就有 这么 一个 过程。 当你 有 这个 思考 过程 时候, 他 就 本身 就是 个 慢 思考 了。 所以 我会 认为 这个 智能 的 本身 上 就 需要 有 一个多 步 的 一个 思考。

所以 的话 我们 大多数 比较复杂 点的 问题, 不管 是 代码 的 问题, 还是 一些 数据 的 问题, 还是 一些 逻辑 问题, 还是 一些 咱们 日常 想 提 的 事儿, 他 都 得分 步骤 去 进行。 而 不是 只是 叫做 就 一 拍脑袋 就有 快 思考 的 结果 的。 因此 我 认为 除了 这个 文学 写作, 你可以 用 快 思考 去 写诗, 就 一鼓作气 就 做 完了。 大多 时候 他 都 需要 有 多步, 那 这个 就 需要 慢 思考。

说到 这个 多步 的 问题, open A S 发布 了 o one, 它 其实 是 隐藏 自己的 思维过程 的, 甚至 有人 破解 欧 one 的 思维 链 会 被 警告 说 要 封号。 你 觉得 他 为什么 要 这么 做?

首先 而言 的话, 两个 方面。 第一个 证明 他 首先 是 之前 做大 模型 之后, 其实 各家 用 他的 数据 做 蒸馏, 其实 是 能够 迅速 接近 他的。 因此 的话 这个 open 它 毕竟 其实 是个 商业 公司, 他 不是 一个 公益性 的 公司。 因此 的话 一旦 公开 之后 的话, 更容易 被 大家 不仅 是 仿效 他的 这个 逻辑, 更容易 去 针对 他的 这种 数据。 不仅 破解 它的 算法, 就是 他的 数据获取。 这个 时候 这个 会 让 别人 家的 进步 就会 变得 很快。 也 说明 这个 技术 本身 它的 独有 性 也 有限 的。 所以 他 封锁 这个 事情, 这个 竞争 策略。

那你 能不能 给 我们 解读 一下, 就是 关于 open A O O one, 我们 应该 关注 哪些 核心 的 要点?

我 觉得 几点 你 关注 的。 第一件 事情 的话, 他 坚持 还是 以 语言 为 中心 的, 老陈 提 又 叫 语言 中轴。 但是 这个 在 之前 大家 知道 就是 很多 个 态势 的 提示 里, 从 几个 声音 就 是从 欧派 里 传 出来, 觉得 这样 多 模态 对 帮助 不大。 现在 还是 语言 为 核心 的, 甚至 更进一步 从 远 核心 走向 了 C O T, 就是 更 强调 思维 链 了。 因此 这个 语言 在 中间 在 承载 思考 的 时候, 是 变成 了 一个多 步 的 思考? 所以说 语言 升级 到了 tem sort, 这是我 觉得 需要 关心 的 这么 一个 的 要点。

然后 第二 的话, 关注点 是谁? 他 把 这个 思考 过程 和 给 结果 把 它 分成 两个 步骤。 这样的话 会 对 思考 过程 能 更好 进行 的 一个 泛化。 比如说 我们 解 数学题 的 时候, 你 可能 是 学会 一个 思路, 你的 一个 思路 就能 解 好多 题。 因此 的话 并不是 他的 追求, 只是 这个 题解 对 了的 一个 结果, 而 追求 解题 的 这个 过程 是 对的。 这种 情况下 也 使得 蹭 蹭 两 阶段 之后, 能把 C O T 变成 一个 能够 泛化 到 重新 解 数学题, 甚至 更多 题, 是 到 其他 领域 里面 的 一个 能够 共性 的 能力 的 提升。 我 觉得 核心 关注 这个 语言 为 核心 的 C O T, 然后 还有 分两 阶段 的 泛化 能力。

以 语言 为 核心 的 C O T 和 分两 阶段 的 泛化 能力, 它 里面 包含 哪些 关键 的 技术 原理? 复合 它 难 吗?

我会 认为 讲 的话, 里面 其实 还是 有 很多 的 数据 问题 和 工程 问题 要 去做 的。 所以 复合 它 本身 而言 的话, 如果你 深究 它 会 变得 很 简单。 在 复刻 起来 的 时候, 对 你的 算 力, 还有 对 你的 专家 来 标注 这个 系统 都 还是 蛮 多 的 挑战 的。 复刻 和 GPT 会 变得 更难 一些。

它 还是 需要 有 专家 来 标注 系统 的对 吧? 它 还是 需要 人工 的。

对我 我 觉得 需要。

所谓 有一个 self play R L, 它 能够 让 人工 的 成分 变得 更 少 吗?

是 肯定 会 的。 在 数学 上 的 计算机领域 有 句 话 是 这么 说的是 叫做 首先 在 强化 学习 里面 我们 讲 的 求解 一个 问题 比 验证 一个 问题 会 更难。 举 个 例子 讲, 像你 走迷宫 是 走迷宫 走 通 了 找到 那条 出路 是 难 的。 但是 验证 你的 迷路 走 的 对不对, 是不是 走 通 了, 这个 没有 撞墙 是一个 简单 的 事情。 或者说 我们 咱们 讲 做 一个 几何 定理 证明题, 你 要 证明 他 这件 事 求解 他是 难 的。 但是 你 找到 有 求解 过程 之后, 让 另 一个人 验证 他 这个 求解 过程 有没有 bug, 是一个 简单 的 事情。 所以 基于 这种 做法 而言 的话, 我们 就 很 愿意 用 强化 学习 其中 一 大件 事情 就是我 并不知道 怎么 解决 题, 但是 我们 验证 你 解 的 对不对。 这种 情况下 就 能够 使 整个 系统 的 能力 得到 很大 的 提升, 也 降低 了 标注 数据 本身 的 难度。 或者 同等 标准 数据 难度 里面, 它 就能 解 更 复杂 的 题目, 这是 中间 这个 核心 逻辑。

刚才 也 提到 了 强化 学习, 能 给 大家 展开 介绍 一下 这个 概念。 因为 你们 关注 的 非常 的 早, 之前 在 alpha go 里面 是 怎么 应用 的, 并且 它 到 今天 它的 技术路线 有 发生 任何 的 变化 吗?

就 从 两个 维度 解释。 从 刚才 讲 的 大概 话 里面 来看 的话, 强化 学习 跟 之前 的 监督 学习 的 区别 是 监督 学习 告诉他 解题 的 过程 是什么, 然后 的话 他 就 一 糊涂 画 瓢。 强化 学习 的话 是 不 告诉他 过程, 只是 判断 你 做 的 对不对, 就 像教 小孩 一样的 对 吧? 你说 你 要 做 的 事儿 就 123怎么做, 那 啥 可能 学 的 是 快, 但是 他 其实 并没有 能够 知其所以然, 这是 但是 如果说 他 做对 了 说 对, 说错 了 你 说错, 那 这 小孩子 他 这个 学习 上 他 要 自己 花心思 去 找 方法, 这是 强化 学习 跟 之前 监督 学习 本质 的 区别。

而在 这 里面 的话, 对于 大 模型 为什么 特别 需要 强化 学习 呢? 因为 大 模型 它 本身 是 把 全 天下 最 优质 的 语言 来做 的 训练。 其实 我们 做 一个 压缩 的 过程, 这 压缩 过程 的话, 它 其实 是一个 在 原有 的 数据分布 内 的 一种 智能。 就是 它的 这样的 一个 思考 的的 能力, 是 不会 超过 你 原始 的 这个 数据 的。

但是 我们 知道 单 台 智能 的 时候, 是要 跳出 原来的 框架 去 想 事儿。 那 我们 就 从 这个 数学 上 讲 叫做 分布 外, 大部分 在 分部 内 就是 探索 以前 未知 的 事儿。 所以 这个 时候 就 需要 创 这个 环境。 然后 让 你 环境 互动 当中 的 时候, 环境 的 反馈 能 给你 原来 这个 语言 数据 里面 之外 的 这些 内容, 能 提升 你的 这样 一个 解析 问题 或者 智力 从 分部 内 走向 分布 外, 这是 自己 必须 的 一个 过程。 所以 这件 事情 用 强化 就 变成 必须 的 一件 事情。

我 有一个 很 基本 的 疑问, 就是 为什么 o one 它是 在 数学、 编程 科学 这些 领域 发挥 更好。 而在 之前 G B T 的 优势 领域, 语言 英语 这些 方面 反而 发挥 的 一般, 发挥 的 不佳。 为什么 它是 偏科 的?

因为 不加 就 原来是 偏 文科。 对 文科 来讲 的话, 它 更多 是一种 叫做 模仿, 或者说 是 把 全 天下 的 画 都 看过 了, 全 下 文字 都 看过 了, 中间 去去 找 优美 的 东西, 那是 文科 的 这样 一个 做法, 它 其实 是一个 见多识广 的 过程。 但是 对于 数学 这个 问题 的话, 更多 的 是 它 有一个 叫做 绝对 的 结果 的, 对不对? 所以 像 有 句 话吧, 叫做 文无 第一, 武无第二。

做 文科 来讲 的话, 这个 好不好? 其实 没有 统一 的 标准 的, 一直 在 没法用 标准 去 改进 的 系统 的 时候, 他 文科 就学 的 是 挺好的。 但是 这个 时候 他 并不是 要 走 标准 来了 之后 怎么 去 发展 他的 理科 这 原来的 系统, 而 恰巧 的话, 理科 叫 55。 无 第二 就是 他 有 绝对 对 和 错的 标准。 最后 对 和 错 就 变成 了 它 上面 的 叫做 reward model, 或者说 是 叫做 critical model。 就是 它 一个 评价系统 来 评价 你 对不对 了, 表示 无 第二, 就是 谁对谁错 就能 判断 了。 这个 系统 一旦 增加 了 强化 学习 之后, 就 能够 把 这个 没有 第二 的 对错 变成 它的 一个 训练 信号 放进去。 因此 理科 的 功率 就 大 涨。

所以 强化 学习 能 实现 足够 的 泛化 性, 它 能 带来 通用 智力 水平 的 提升 吗?

强 化学 本身 不 代表 这个 泛化 性, 强化 学习 其实 还是 代表 着 一类 问题, 之前 他的 方法 其实 是 不好 的对, 为什么 就 坚持 这个 阿法 狗 其实 就 做 的 不好 呢? 因此 的话 今天 我们 看到 这个 O I 的话, 基于 两个 事儿, 我 就 把 程序 做 一个 事儿 的话, 所以 还是 局限 在 数学 代码 这个 局部 领域 里面 是 有有 足够 大 的 突破, 也 说明 这 两个 领域 里面 它 其实 是 有 足够 好的 数据 来 验证 它 有 数学 你的 题 做 的 对不对, 吧? 然后 你 就 程序 是否 能 编译 通过, 运行 完了 跟 你 想要 结果 就 不一样。 所以 的话 这个 在 具有 没有 泛化 性 和 绝对 答案 的 情况下, 它是 做 的 特别 好的。

然后 我 认为 它的 泛化 性 来自于 之前 是 把 它 分两 阶段 的, 就是 把 C O T 和 后面 的 这么 一个 执行 过程 分开 了。 因此 的话 就像 之前 训练 代码 训练 了 之后, 整个 系统 逻辑 能力 就 提升 了 一样的。 之前 咱们 也 讲 了 GP3.5 的 两个 版本 都 合在一起 之后, 然后 逻辑 的 提升 是 来自于 代码 的 学习。 所以 现在 也 一样的, 这个 其他 场景 的 泛 发性 是 来自于 对于 数学 和 代码 的 C O T, 它 这个 本身 掌握 的 更好 了, 然后 这个 C O T 就是 泛化 到 其他 的 这个 思考 环节 里 去。

那 o one 和 G P T four o 他们 如果 相加 会 出现 什么? 这个 合并 难 吗?

我 就 更 不需要 搞定 了。 其实 他 有 大概 有 能力, 现在 叫 O Y 版本 重置 了。 所以 我 认为 O Y 的话, 道理 上 讲, 如果你 需要 做 这种 思考 深度 的 时候, 你 用 这 模型 就 够了。 那么 用 其他 的 四个 原料 的 模型 的话, 可能 是在 哪些 成本 需要 特别 便宜, 也 不要 思考 就 用 它。 那 合并 也 本身 不难, 所以 本身 是 不难 的 事儿。 只是 的话 有 机会 在 O E 里面 就 全 包含 了。 如果 即便 包含 不了 的话, 分 两个 调用 也 行。

所以 你 觉得 没有 必要 出现 一个 各个 版本 都 融合 的 一个 大 统一 的 模型。

我不能 这么说, 我 觉得 现在 融合 也 不难, 但是 不 融合 你 也可以 用。

百川 在 强化 学习 这条路 上 走 的 怎么样。

他 一直 很 重视 强 化学 是 这样 一个 方向 的, 所以 去年 就 开始 成立 这样 一个 团队。 但 确实 来讲, O K I 是 走 在 我们 前面 的, 承认 他 这方面 思考 能力 是 优于 了 百川 的。 但 本身 在 之前 的话, 我们 在三 发布 的 时候 做了 一个 实验。

其实 大家 当时 可能 要 做 一个 关注, 就是 我们 说有 强 去 训练 的 诗词。 为什么 说? 因为 咱们 知道 强化 学习 之间 要 靠 金标准, 就是 能够 有 绝对 判 对错 的 地方 来做 训练。 所以 通常 知道 做 理科 任务? 你 做 数学 代码 是 可以 做 的, 文科 上 你是 没有 一个 对错 判断 的, 写 的 好不好 是 挺 难 让 机器 做 校对 的。

所以 当时 的话, 我们 就像 在 文科 里面 是否能够 也有 一个 reward model。 所以 就 想到 了 用 唐诗 和 宋词, 尤其 宋词, 咱们 知道 这个 东西 让 大家 写 起来 就 比较 难 了。 它的 它的 这个 字数、 平仄、 韵律、 对仗 都有 很多 的 要求, 但是 要求 的话 反而 是一种 规则。 因此 的话 我们 当时 就在 训练 模型 的 时候, 就 不是说 让 机器 仿照 人 这么 写 诗词。 而是 让 机器 写 诗词 之后, 我们 用 一个 程序 模型 来 判断 这个 诗词 写 是否 符合 平仄、 字数、 韵律 和 对账。 并在 电视 做了 这样的 一个 职业, 这 也 取得了 不错 的 效果。 就 代表 我们在 这方面 讲 之前 就有 这样的 积累 和 思考。

再往下 的话, 除了 数学 和 代码 以外, 我们会 认为 医生 其实 是 蛮 好的 一个 可以 用 强化 学习 提升 的 这种 领域。 因为 医疗 在 很多 问题 上, 它是 有有 标 答案 标准 的。 比如说 一个 病人 综合 的 症状 他 到底 有什么 病, 或者 该 做什么 检验 检查, 然后 该 开 什么 药, 这 地方 他 都是 有有 答案 的。 所以 这种 情况下 的话, 如果 去 仿照 医生 的 这个 C O T 再来 验证 他的 这个 答案, 对不对?

这个 能 使得 这个 模型 的 功率 就 大 涨。 一个 医生 解释, 因为他 不是 光 看 医学院 的 书, 读完 了 就会 了。 他在 临床 中间 大概 一辈子 可能 看 几万个 病人, 要 得到 自己 提升。 所以 医生 是 靠 病人 的 这个 互动 当中 去 得到 自己的 这种 提升 的, 而且 很多 数据 是 被 记录下来 的。 因此 的话 从 这个 大 模型 这个 领域 发展 上 强化 学习 用来 做 医疗 是 特别 好的 一个 应用 范。 这个 应用 方法 也能 使得 医生 他的 可行性 和 质量 得到 很大 提升。

为什么 你们 当时 做 实验 选择 的 是在 诗 和 词? 这个 领域 是一个 文科 领域, 没有 选择 像 比如说 数学 编程 这种 理科 领域。

最简单 就能 上手。 这个 领域 里面 你 在 做 范式 时候, 你 在 做 任何 突破 时 都是 有 它的 挑战 的对 吧? 因为他 本身 文科 上 就 好了, 在 文科 上 的 不足 就 实施 这个 事儿, 你 使用 它 来做 验证, 比 当时 在 那个 情况下 做 数学 和 这个 代码 会 更容易 上手 做 实验。

在 这 其中 你们的 那个 reward model 是 怎么 设计 的?

我们 审 完 之后 有 程序 能够 判定 有 这样的 一个 叫 诗词 自述。 比如 中国 词坛 名, 它 一百多 100 100多 首 一百多 词牌名, 每个 词牌名 它的 格式 我们 其实 是 有 数据分析 的。 并且 的话 这个 平则 1323334声 韵律 是 吧? 押韵 这 事儿 都 可以 用 程序 来做 校验。 所以 其实 我们 当时 就 已经 写 了 一个 rever reward model。 先是 有 个 规则 的 判定, 然后 再 把 它 转化成 一个 模型。 因此 这个 路线图 的话 是 比较 接近 这 O E 的 这个 做法 的, 但 还是 没 他 去做 的 更加 的 完整。 这个 O E 其实 特别 好, 只有 C O T 的 过程, 我们 当时 这么 一个 reward model 是 不 带 C O T 的。

今天 看到 O E 以后, 你 能 复 现出 他的 什么 技术 路径, 从中 改进 你们 之前 的那 做法。

更强 的 C O T。 就 原来 讲 的话, 中间 是 没有 C T 这 一步, 是 直接 从 你的 这个 输入 要求 到 答案 的 正确。 对 有 C O T 之后 的话, 两个 意义。 在 第一个 意义 的话, 比如说 我们 做 医疗 的 时候, 就会 更 找 医生 去 要 他们 这个 思考 路径。 这样 更快 提升 他的 能力, 就有 C O T 的 过程, 而不 只是 完整 的 端 到 端。 第二块 的话, 有 C O T 之后, 它的 算法 能力 也会 得到 很大 的 提升。 找 思路。 对你 答案 就 对。

你 觉得 你 在 做了 一年 多 的 强化 学习 以后, 有没有 积累 更多 的 关于 强化 学习 的 know how?

这 肯定 会有 的对, 还是 很 有意思 的 一件 事儿。 就是 大门 强 学习 他 一部分 是从 环境 上学 到 新 东西。 一会儿 我们 发现 它 会 激活 你 原有 的 一些 的 能力, 就 通过 强化 激活。 比如说 你 当做 写 诗词 的 时候, 我们 让 他 学会 了 自述, 然后 学会 了 对仗, 学会 了 平 则不 不应该 是 没 学 对账, 就 学科 的 字数 平则 和 韵律。 结果 大鹏 自己 就 把 这个 对账 就 输出 了。 本来 还没 教 他 学 对账, 就 说明 他 还好 的。 潜藏 的 这种 记忆 和 能力 就可以 激活 出来。 所以 在 强化 里面, 就 一方面 是 面向未来 的 范式, 一方面 它 跟 以前 的 这个 强化 学习 逻辑 也 不完全 一样。

我们 应该 怎么 看待 o one? 它是 一个 过渡性 的 产品 形态 吗? 也就是 相比 GPT3GB ChatGPT 和 sora 欧曼 的 重要 程度 到底 怎么样?

我要 添加 欧曼 发布 的话, 就 有点像 当年 的 GPT3 的 发布。 就 离 最后 你 像 这个 3.5和 4的突破性, 它 还是 有 这个 距离 的那 三 的 发布 在 这个 业内, 其实 大家 觉得 已经 很 震撼 的 一件 事情 了。 就是 在 这个 语言 已经 是 基本 就 跑 通 了, 所以 我 相当于 GPT3 的 这个 时刻。

它 相比 GPT3更 重要。

你是 个 沉积 的 效果, 因为 现在 它是 在 G P4 的 基础 上去 做 的, 所以 的话 我 认为 叫做 更 重要。 它的 这个 GPGP3代表 也是 一种 范式 的 跑 通。 他是 在 原有 的 GPT four 基础上 又 跑 通 了 新的 范式。 所以 确实 来讲 的话, 这个 重要性 不亚于 G P3。

对我 前几天 采 了 一个 前 open I 的 研究员, 他的 研究 方向 刚好 就是 强化 学习。 他说 现在 相当于 从 阶段 一 进入 的 阶段 二 状态。 他 跟 你的 观点 是 一样的, 就是 他 不 认为 是一个 技术 办事 的 大转弯, 而是 一个 升级。 之前 pre training 能 挖 的 金矿, 大家 可见 的 可能 已经 越来越少 了。 这时候 大家 意识到 以 强化 学习 为基础 的 这个 post training 是 第二个 大金矿。 我 就让 迈向 A G I 的 这个 梯子 多了 几节。

他是 这么 描述 的, 是的, 是 这 理解 完全 一样的。

但是 我 感觉 这 几个 月 其实 AI 有点 变冷 了。 这 市场 环境 你 觉得 O Y 能够 重振 大家 对 A I 的 信息 吗?

我 不太 关心 外界 这个 环境, 因为 确实 也 听说 外界 是在 这种 辩论, 大家 觉得 比较 迷茫。 就 技术 突破 变慢 或者 就能 找到 应用 场景。 然而 对于 百川 而言 的话, 一开始 就 明确 了 我们 自己的 这样 应用 场景 是在 这种 知识 领域 面 找 顾问, 尤其 找 医生。 对 我们 而言, 我们 认为 我们的 场景 很 清晰, 就是 离 的 结果 更 近 了, 而 不是说。

开辟 了 一个 新大陆。 你说 O 1比复刻 GPT four 要 难, 那 现在 复刻 G P four 进展 怎么样 了? 然后 复刻 o one 需要 多少 资 远 数据 算 力 算法 需要 怎么 突破 等等等等。 你 觉得 预计 的 时间 周期 会 怎么样?

我 觉得 会 比 那会儿 做 后排 都会 快 一些 的。 难 归 难, 但是 毕竟 现在 随着 国内 也好, 美国 也好, 这么 多 开源 的 这么 一些 项目 产生, 有些 不管 大厂 还是 创业 公司 进入。 所以 其实 资本 的 充裕 度 和 人才 集中度 已经 比 刚刚开始 发布 了 GP3.5 之后, 或者 发 G P four 之后, 整个 市场 的 人才 储备, 资金 储备 就 多 很多 了。 所以 我们 认为 也就 在 一两个 月 时间 里面, 就 开始 有 一些 接近 他的 模型 就 开始 会 出现了, 会 很快。 只是 达到 四度 的 高度 来讲 的话, 是 需要 花 力气 的。

现在 达到 GPT four 了 吗?

国内 的 公司 我 觉得 在 接近 在 接近 G P.

T four, 然后 o one 可能 会 更快。 你是 觉得 对对对。

机会 可能 用 比如 用了 咱们 18个月 对 吧? 欧曼 尼 可能 做到 他 那样 也许 九个月 时间, 但是 如果 起步 能够 有一个 现在 的 样子 出来, 可能 一两个 月 就有 了。

之前 大家 对于 GPT four 有一个 诟病, 是 觉得 他 处理 能力 比较 差, o one 变成 了 数学 编程 方面 的 天才。 之前 大家 对于 大 模型 认知 是 会 出现 一个 全知全能 的 大 统一 模型。 偶尔 会 改变 这个 看法 吗? 会 出现 更多 的 专注 于 特定 领域 的 A I 模型, 而 不是 一个 全知全能 的 大 统一 模型。 就 对于 相对 垂 类 的 模型 和 大 统一 模型 的 看法 是 怎样?

你看 我 也不 觉得 他是 天才, 只是 他 理科 变 好了 之后, 大家 觉得 你 文科 这个 东西 就是 看淡 了 之后, 把 它 当成 一个 片。 文科 我 觉得 咱们 的 系统 去 发 的 评测, 我 认为 跟 之前 的 这个 4PC 也 不会 有 多大 的 差距 的。 甚至 听说 他在 一些 小语种 翻译 上面 还 变得 更好 了。 但是 在 我的 概念 里面, 我不是 叫做 一个 偏 文科, 一个 理科。 现在 就是 一个 叫做 文科 也 不错, 理科 一下子 变得 特别 强 的 一个 模型。

但 未来 还是 全知全能 的 大 统一 模型 吗?

我 觉得 各种 层面 都有, 至少 是 欧派 代表 的 路线图 是一个 走 通用 的 道路。 所以 会 逐步 把 这样的 一个 领域 给 拓展 开 的。 在 各个领域 使用 的 时候 的话, 也 一定 会有 这个 专业 领域 的 数据 会 扮演 很 重要 的 角色。 这 并不 代表 说 现在 这个 路线图 以 欧派 自己 积累 的 这个 数据 闭环 就能 做到 全知全能。

还是 需要 一个 通用 大 模型 和 结合 相对 专业 的 领域。 就 比如说 你 选择 的 医疗。

对, 一定 需要 这个 专业 领域 知识 进入, 才能 把 一个 产业 给 吃透。 所以 知道 GPT for 为什么不是 个 to c 的 模型, 全 是 全能 直接 to c 了 对 吧? 他 最后 还有 大量 A P I 开 给 to b 的 公司 在 调用 它。 然后 在 场景 中间 是 加入 场景 的, know how 才能 实现 一个 好的 服务。

你怎么看 jim fan 他说 模型 不仅仅 拥有 训练 时 的 skinning law, 还有 推理 层面 的 skinning law, 双曲线 共同 增长 将 突破 大 模 能力 的 提升 瓶颈。

你可以 叫 更多 的 词。 总之 来讲 的话, 就是 确实 说 训练 阶段 的 计算 有用。 但 其实 开始 慢慢的 随着 数据 的 耗竭, 所以 那个 skin o 它的 意义 就 开始 下降 了。 而在 这个 推理 阶段 的 阶段, 我 觉得 还是 处于 一个 上升期。 首先 来讲 的话, 就是你 训练 阶段 的 能力 和 这个 推理 阶段 能力 是 沉积 的 效果, 这是 第一件 事儿。 第二 的话 就是 推理 之间 增加 更多 算 力, 它的 效果 会 更好。 现在 也是 在 一个 爬坡 期。

大概 有 做 一个 O Y 需要 多少 的 算 力 数据 等等等。 有没有 一个 预估?

没有 什么 预估, 但 我 觉得 可能 跟 做 个 GPT four 差不多。

O Y 只是 新 范式 的 第一步 嘛嘛 之后 他 会 怎么 演变?

对我 那 我 觉得 他 这个 算 力 的 继续 的 这种 增加, 然后 训练 效率 这种 提升, 以及 如何 在 领域 数据 更好 的 能够 去 使用。 其实 还有 大量 可以 挖掘 的 内容。

你们 接下来 准备 怎么做?

一方面 是 美国 领先 的 地方, 我们 实际上 是 跟进 的。 另一方面, 我们 还 坚定 的 在 这个 医疗 里面 能够 有所 成绩 上 的 突破。 他 现在 大家 讲到 这种 数学 也好, 代码 也好, 这种 能力 现在 不管 是 我们 也好, 还是 国内 大厂 也好, 开源社区 也好, 大家 都会 去去 效仿 和 跟进去 追赶。 这 是一个 复线 在 过程 当中 是 最 容易 比较 我们 技术 深度 的 参与 路线图。 其次 的话, 会 加速 我们的 医疗 里面 的 强化 学习 的 突破。

Open I 曾经 定义 A I 的 五 几个 level, level one 是 聊天机器人 叉 box, level two 是 推理 者, 现在 就 已经 实现 了。 你 觉得 他们 接下来 的 level 3、 level 4、 level 5或者 更 远 的 未来 会 是 什么样?

其实 挺 难 去做 帮 他们 预言 这件 事情 的那 我 觉得 往 下 有 几个 事儿 可能 还会 发生 的对 一个地方 是 领域 的 这么 一个 更好 的 泛化 能力, 这是 找到 这种 范式, 能把 领域 知识 给 做 起来 这 一个 要 突破 的 事儿。 这个 是在 这个 现有 框架 内 的, 在 现有 范式 内 去 提升 领域 能力, 这 就要 做 的 事情。 第二块 再往下, 我也 在 做 个 预言, 就 未来 代码 会 扮演 更 重要 的 角色。 像 以前 代码 是 帮你 提高 的 逻辑 能力, 或者 帮助 这个 程序员 辅助 写 代码。 我 认为 未来 代码 会 变成 这个 大 模型 下一步 的 一个 核心能力。 也就是 通 大部分 通过 写 代码 能够 去 解决 更多 的 问题, 解决 自身 的 一个 像 他的 思考 过程, 从 强化 学习 还会 走向 写 代码 来 解决问题 这个 新的 范式, 我 就 未来 几年 内 会 实现。

关于 o one 你 有 哪些 想知道 但 不知道的事 儿?

挺 多是 不知道。 比如 他用 了 多少 算 力 是 不清楚 的对 吧? 他 有 多少 领域专家, 这个 也 不太 清楚。

你 觉得 他的 可见 上限 是什么?

还 会有 他的 这些 瓶颈。 所以 我 这边 讲 就是 可能 在 未来 两三年 内, 这个 方式 就会 跑出 它的 这个 结果 来, 就 跟 这个 G P 3.5到41样的。 剩下 这个 代码 就 可能 会 扮演 更 重要 角色 了, 就是 机器 自己 写 代码 这种 代码运行 完了 生成 一个 神经网络, 甚至 把 神经网络 跟 它的 模型 再 融合 到 一块 去。 未来 还有 这个 新的 范式 会 产生 的那 内部 做 完了, 我 觉得 基本上 A J 就 接近 了。

话说 为什么 他们 对于 这个 项目 从 之前 的 q star 到 后面 的 草莓 预热 了 这么久, 调 组 大家 的 胃口, 你 觉得 为什么?

我 觉得 他们 有 竞争 压力, 各家 竞争 里面 虽然 是 很多, 所以 如果你 一直 没有声音 出来, 那么 显然 这件 事情 大家 都 会有 很多 质疑。 但 现在 他 也 没 那么 快 能 发出 来, 所以 他 就 只是 在 预热。 比如 他 对 这个 数据 做 的 靠 不 靠谱, 安全性 够不够, 还有 他的 研究 工作。 因此 在 这个 竞争激烈 环境 里面, 他的 一个 策略 就是 选择 了 这个 预热, 然后 到了 阶段 成果 再 公开。

一 辩 的 离开 会对 他 后面 强化 学习 的 发展, 对 post training 的 skinning low 有 影响 吗?

我 觉得 这个 可能 已经 不会 影响 了, 毕竟 这个 思想 已经 成熟 并 走 通 了。 但是 如果 有 新的 大 的 思想 突破, 我不知道 是 印尼 亚 之外 的 其他人 是不是 能 顶上, 对 强化 学习 的 影响 不大。

你 去年 说 状态 是 为了 赶上 这个 时代 的 火车, 是一个 快速 rush 的 状态。

今年 今年 而言 的话, 我 开始 就是 能够 在 场景 当中 能够 面向未来 了。 比如说 我们 去年 的 时候 都 不敢 大声 啼 医疗, 对 吧? 因为 那会儿 时候 喜欢 看不懂 医疗 在 中间 既 在技术上 它的 这个 意义。 我 讲 的 医疗 大 模型, 黄河 上 的 明珠 也 不太 理解 这个 场景, 它的 这个 可 及 性, 还会 没有 商业模式, 然后 是 伦理 问题, 既有 技术 问题, 有 商业 问题 在 后面。 今年 的话 我 认为 这个 开始 能够 不停, 我们 就 开始 正好 对 上了 双轮 驱动 了。 去年 只是 造 一个 轮子, 就是 模型 厂 入场, 今年 确实 我想 的 是 叫 超级 模型 加 超级 应用, 而且 是一个 叫 水涨船高 的 这个 应用, 不 只是 沿途 下蛋 的 模式。 因此 今年 开始 我们 就 能够 大胆 提议, 聊到 明天 的 是 我们的 双重 驱动 的 模式, 我 就 希望 能 得到 这个 市场 的 检验。

因为 大家 提到 的 这个 现实主义 就 赶快 赚钱, 没有 场景 是 不行 的。 但是 有可能 有 场景 之后, 你 就 走 不远 了。 比如说 你 为了 一个 写 个 广告 的 模型, 写 个 客服 机器人 儿, 可能 一个 小 模型 就 够了。 但是 如果说 是 你是 理想主义者, 我 一直 憋 大招, 你 没 场景 落地, 也 可能 迷失方向, 也 可能 就 没有 足够 多 的 资金 来 支持 自己的 这样 一个 想法。 所以 如果 把 理想主义 线路 走 一块儿, 我们 这个 双轮 驱动 的话, 最后 就 用了 这 叫做 需要 一个 水涨船高 这个 场景 来 支撑。 什么 一个 意思 呢? 就是 模型 越大, 我 这个 领域 能 做 的 更好。

而 不是 模型 大 的 一个 阶段 就 跟 我 领域 没关系 了。 沿着 颜色 下蛋 的 意思 就是我 下 个 蛋 放, 那 就是 模型 再 好 就 下 个 新的 蛋。 这种 情况下 你的 这个 蛋 越越 多, 你 自己的 压力 就会 反而 就会 被 拖累 了。 因此 的话 你说 先 做 个 广告 模型 放 那, 你 再做 客服 模型 放 那, 这种 情况下 就 不 叫 水涨船高, 随着 模型 大体 被淹 掉 的 状态。 而 说到 医疗 这个 行业 的话, 是 模型 越大, 你的 行业 可能 成功率 越大, 这 叫 水涨船高。

你 先是 找 了 一个 终极 形态 的 应用 场景, 就是 假设 模型 能力 特别 强 以后, 什么 场景 可以。

更 受益 的 就 更 受益 的对, 但是 话 模型 能力 在 一般 上 我 也能 进入, 进入 门槛 没 到 那么 高, 但是 这个 模型 越大 的 场景 就 越 受益。 得 找 这样 一个 场景。

就是 进去 以后 等着 呗。

当时 努力 工作 等 就 等着 也 对 吧? 就是 这个 模型 越 好的 场景 就 越 受益。

那 现在 如果说 是 双轮 驱动, 你 觉得 在 模型 能力 和 应用 上, 你 对 哪一条 腿 跑 得 更 满意?

我 觉得 都 差不多, 就 叫做 都在 一个 初始 的 状态。 未来 的话 两个 也有 关系 的。 因为 你的 场景 越 清楚, 对模型 的 要求 也 能够 更 细化。 比如说 做 场景 的 时候, 当你 做 医疗 组配 需要 多 模态。 第一 方面 是 像 人 一样的 跟 他人 去 对话, 对 吧? 甚至 能够 让人 有 视觉 去 看着 这个 病人。 开始 对 大 模型 的 这个 轮子 也会 有 这样的 一个 要求。 所以 这 两 轮子 之间 的话, 一个 是 练 肌肉 的, 然后 一个 的 场景 的话 是 能 牵引 你的 发挥 的。 所以 两个 地方 我 认为 叫做 都 需要 足够 多 的 投入。

你 觉得 就是 对于 在 医疗 场景, 你 他 最终 的 一个 我们 能 看见 的 形态 是什么? 因为 它 好像 不会 是一个 super up 对 吧?

大 模型 它 跟 以前 不一样, 以前 的话 老是 APP, 这个 叫做 P M F 对 吧? 就是我 去 发现 一个 需求, 去 满足 的 需求, 去 创造 个 需求, 这是 以前 的 逻辑。 去年 我 刚刚 提到 一个 叫做 T P F, 就是 因为 我们 一直 从 这种 需求 驱动 开始 变成 一个 供给 驱动 了。 所以 供给 驱动 就是 这个 需求 已经 建设 存在, 只是 供给 不足, 我 把 它 造出来 它 就有 市场。 我 更加 强调 技术 跟 产品 的 匹配度。

所以 大门 西 核心 很大 的 一个 逻辑, 我 觉得 就在 造人, 在 造 数字。 员工 因为他 会 语言、 会 思考、 会 沟通, 这 本身 就是 这个, 而且 学 的 是 人类 之前 遗留下来 的 这些 知识 和 经验。 所以 他 不是 在 造 计算器 造 车 这种 逻辑 了, 他是 在 造人。 因此 的话 从 造人 逻辑 里面, 我们 认为 就 把 这个 灶 医生 当成 我们 重点 的 这样 一个 突破 突破性。 所以 的话 如果你 从 产品 形态 看, 你就是 找 了 一个 能够 去 用 的 医生, 对 吧? 前期 是从 全科 儿科 入手, 未来 会 走向 专科 的 医生。 到 最后的话 会 走向 生命 的 数学模型。 所以 是 下 个 阶段 从 智能 模型 走向 生命 模型 是 远期 的 目标。 在 机器 智能 模型 里面, 像 智能 人 一样的 他 就是 一个 医生, 所以 他是 个。

APP 不重要。 对我 觉得 上次 你 讲 造 人的 时候, 其实我 是 挺 不 理解 的。 我 觉得 这 几个 月 我 可能 有 一点点 的 理解, 但是 还是 不 那么 理解 哈那 比如说 是 造人, 那 我 跟 他的 交互 界面 会 是 什么样 呢?

就 靠 语言, 自带 语言 交互。

它的 界面 是一个 网站 还是 一个 不一定 是个 APP。 那 它是 一个 机器人, 就是我 是从 哪个 渠道 去 跟 他 沟通, 还是 我 通过 百川 的 那个 APP.

有可能 是个? 有可能 医院 里面 一个 终端设备, 但 最后 他 跟 患者 交互, 他是 靠 语言 去 进行。 语言 或者说 是 这种 死 学 跟人 一样的。

他 今天 还不 限定 他的 那个 交互 的 硬件 是什么, 或者 软件 是什么。

对你 或者 这么 想, 他们 有 个 电影 号 对 吧? 电 号 你说 它是 一个 超级 应用, 它的 交互 形态 是什么 呢? 而且 你可以 拿 个 手机 也 行, 拿 个 耳机 也 行, 然后 放在 兜里 也 行, 这个 电脑 也 行。

对, 像 比如说 杨志林, 前几天 他说 他 认为 这个 超级 应用 会 是一个 AI 助理。 他 一说 AI 助理 我 就会 想到 her, 因为他 很 直接。 你说的 是 医疗 里面 的 医生。

这些 助理 的 词 是个 比较 模糊 的。 大家 没 见过 有 多少 人 用过 助理, 他 就 不是 一个 今天 大家 见过 的 职业。

但是 你 想 我们 现在 在 用 这些 新的 什么 文心 一言 这些, 包括 你们的 软件 这些, 大家 还是会 觉得 他 就是 一个 助理。 对, 大家 会有 一个 映射。

这 是个 错误 的 理解。 因为 我们 总结 它是 浮云, 我们 动脑子 和 动手 助理 的话 还有一个 词 叫 助手, 就是 他 动手 对 吧? 但 我 觉得 大 模型 很多 动脑子 会 比 你好 使的。 以前 这个 笑话 就是 我们 以为 这个 机器 去 扫地 洗碗 的 人是 写字 画画 的。 现在 机器 已经 会 写诗 画画 了, 我们 还是 扫地 洗碗。

说明 机器人 还没 来。

总之 机器 动脑子 是 它 可以 做到 的 一个 事情, 而 不是 动手。 它是 可以 提供 动画, 所以 我 更 愿意 把 它 做成 一个 顾问, 而 不是 一个 助手。 助手 帮你 省 时间 的 娱乐, 帮你 杀 时间 的。 但是 一个 顾问 其实 不是 帮你 省 时间 和 杀 时间 的, 他是 给你 提供 know how 让 你 变得 更加 强大 的。 这 是个 创业 公司 应该 选择 的 地方。 因为 省 时间 三 时间 已经 都是 上 一代 的 这个 思考 逻辑 了。

所以 你 要 做 医疗 造, 医生 就是 医生。

是 帮你 省 时间, 帮你 杀 时间 的, 都 不是。

你 觉得 需要 多久? 很快, 能不能 预演 一下? 比如说 今年 能 做到 什么? 明年 能 做到 什么, 后年 能 做到 什么?

对, 今天 可能 能 接触 到点 了, 甚至 是 语音 跟 你 对话 的。

因为 今天 他 报 其实 是一个 红海 市场, 你 觉得 这个 市场 的 终局 会 是 什么样?

它 是不是 跟 市场 都 不知道, 你 别说 叫 红海 市场。

你 觉得 六 小龙 能 活 几家?

六 小龙 至少 活 一家。

智商 活 一家。 今天 自己 也 非常 的 猛, 你怎么看 他们 这个。

宝宝 是 攻击, 对 吧? 所以 就是 在 也有 共识 的 里面, 他 自己是 会 发展 非常 快 的, 就 一定 有 比 他们 更高 的 认知, 他们 看不到 东西 或 他们 组织 能力。 这个 做不到 才 会有 创业 公司 生存 的 机会, 叫做 走出 大厂 的 射程。 就在 这件 事情 内。

你是 没什么 好 活 的。 你 上次 说 会 造 三个人, 除了 医疗 那 两条线, 你是 怎么 想 的?

现在 更 通用 的 顾问 我们 也是 会 做 的。

娱乐 娱乐。

我们 降低 了。 我们 认为 讲 今天 做 娱乐 上 的话, 这个 时代 还没有 说 其实 娱乐 我们 目的 是 造 虚拟世界, 我 觉得 时代 还没有 到, 所以 我们 现在 可以 再 等一等, 像 先 把 这种 通用 的 这样 一个 顾问 和 医生 先 造出来。

所以 你们 有一个 新的 战略 优先级。 为什么 你 觉得 医生 会 比 娱乐 更快?

我们 讲 的 娱乐 不是说 是 跟 你 一个 聊天 的 这么 一个 是 造 一个 能够 去 创造 一个 世界, 一个 叙事 的 故事。 其实 缺少 足够 多 的 数据 以后 的 费用 来 训练 它。

你 觉得 今天 百川 还 应该 叫做 一家 大 模型 公司? 你 会 怎么 重新 定义 它?

这是 一线 的 想 不清楚 的 大 模型 公司 唯一 一个 过去。

一年 你 觉得 最 艰难 的 时刻 是 什么时候?

我会 觉得 一开始 就 开始 搭 团队, 就是 一开始 是 最难 的 时候, 只要 团队 有 之后 就会 很难 很多。

能不能 评价 一下 你的 对手 吗?

我 就 他妈 在 努力 找 方向。

你 最近 状态 怎么样? 焦虑 不?

最近 这个 确实 不怎么 焦虑, 更多 是要 兑现 自己的。 因为 现在 钱 已经 到了, 然后 方向 也很 清楚 了, 团队 也 开始 有了。 所以 这种 情况 里面 的话, 更 多是 能够 面向未来, 能够 把 自己的 这样 一些 想法 一点点 去 兑现。

好, 这 期 节目 就是这样。 如果 你喜欢 我的 节目, 欢迎 前往 苹果 podcast、 腾讯 新闻、 小宇宙、 喜马拉雅、 QQ 音乐 订阅 张小 珺 商业 访谈录。 如果你 有 其他 想 邀请 的 嘉宾, 想听 的 内容, 或者 你 有 任何 想 探讨 的 话题, 都 欢迎 各位 听众 朋友们 在 评论 区里 留言。 我们 下期 再见, 拜拜。