Do something there.
我们 今天 很 开心 请 到了 一个 老朋友, 你们 认识 蛮 久 的 了。 然后 认识 太太 的 时候, 太太 是 还在 C A I, 最近 是 自己 刚 出来。 太太 你可以 给 大家 先 简单 介绍 一下 你的 经历。
好的, 我 最近 也是 刚 离开 C E I, 在 C E I 差不多 待 了 一年, 主要 做 的 就是 大 模型 的 post 圈里 也就 微调 这个 部分。 然后 在那 之前 其实 就 一直 是在 硅谷 的 大厂 robots meta、 google、 apple 这样 跳来跳去, 做 的 也都 是 比较 经典 的 全 栈 工程师, 偏 后 端 一些。 但是 在 过去 一年, 在 C A I 有一个 很 奇妙 的 机会, 让 我可以 加入到 微调 这边。 和 很多 的 研究员 一起 把 一个 不太会 说 人 话 的 大 模型 调调, 一直 调到 我 走 之前 应该 都 算是 业界 最好的 这样 一个 对话式 大 模型。
哼 大家 都在 讲 C A I 这 款 产品, 它的 用户群 其实 也是 有点像 rob blocks 对 吧? 也是 偏 年轻 的, 然后 二次元 什么 那些 群体。 但是 大家 就 觉得 它的 商业化 一直 没 做 起来, 这个 的 原因 是什么 呢?
简单 概括 两点, 一 没有 怎么 做到 目前为止 就是 一个 简单 的 订阅。 另外一个 就是我 觉得 这个 团队 可能 之前 思考 的 也 少。 我在 走 之前 团队 是 刚刚开始 积极探索 这个 可能性。
所以 你 觉得 不是说 用户 人群 什么的 有问题, 或者说 现在 还 不知道 有没有 问题, 就是现在 最 核心 问题是 公司 层面 就 还没有 去做 很多 的 探索 跟 尝试 是 吧? 对我 在 想 这个 原因 到底是什么? 因为 你看 国内 的 A I 创业 公司, 这 两年 基本 形成 一个 共识, 就是 商业化 甚至 于是 最 重要 的 一件 事情 了。 当然 跟 国内 的 融 投资环境 什么的 也有 关系。 但 好像 美国 那边 的 产品, 哪怕 cii 做了 这么久, 这么 大 的 用户量, 然后 好像 也没有 强调 要 做 商业化 这件 事儿。
是 吧? 这个 说 起来 有一点 感觉 像是 开玩笑, 但 我是 很 认真 的 在 说 这 句 话。 因为 我们 有的 网 以及 会 为了 弄 买账 的 大量 投资人, 导致 商业化 在 很 长期 内 都 不是 我们 公司 发展 的 一个 重点。
就是 因为 你们 相信 A G I 对 吧? 简单 来讲 是 这样。
可以 说 很长 一段时间 内, 我们 所有的 娱乐 的 属性 都是 我们 narb 为主 的 团队 追求 A G I 路上 的 一个 副产物。
我记得你 去 C I 的 时候, 他们 大概 有 40个人 左右 是 吧? 对的, 但 大多数 应该 都 是在 做 模型 训练 的 人。
当时 是的, 我 加入 的 时候 应该 将近 25人都 是 围绕 着 模型 训练, 就是 postion 这 一堆。 然后 5个到7个 左右 是 行政 的, 不到 10人是 前端 后 端 还有 一些 运维。
对 然后 再 往后 可能 慢慢的 才 把 产品 什么的 这些 人 开始 招 起来, 是 吧? 因为 国内 其实我记得 大概 一年前 左右, 大家 都在 盛传 一个 事, 就是 C E I 里面 其实 只有 半个 产品 经理 在 做 事情。
对的, 我 加入 的 时候, 其实 全 公司 是 没有 一个 真正 title 是 产品 经理 的 人。 那 半个 是一个 step chat 的 一个 高 管他 等于 说是 兼职, 是 作为 我们的 顾问。 但 我 觉得 这 老哥 非常 厉害。 超级 产品 经理。
你 觉得 美国 的 超级 厉害 的 产品 经理, 尤其 在 to c 端的 他们 和 因为你 也 接触 很多 国内 的 公司, 你 觉得 有什么 很 明显 的 差异 吗?
我 接触 的 这种 超级 产品 经理 不多, 所以说 可能 有点 偏颇。 但 我在 美国 接触 过 的 超级 产品 经理 和 我在 国内 看到 的, 比如说 是 张小龙 这样 或者 类似的 人。 他们 给 我的 一个 感觉 是 国内 可能 更加 重 人文化。 一 就是 他 会 总结 出 一些 很 好的 方法论。 但是 在 美国 这边 我 接触 到 的 人, 他 可能 在 数据分析 上 非常 深入。 他 可能 跟 那种 数据 科学家 有 差不多 同样 那些 比较复杂 S Q L 的 能力。 并且 他 也很 愿意 亲身 的 去 分析 各种各样 的 数据, 寻找 里面 的 inside。
对, 这个 我 前段时间 也 发现 了 类似的 一个点, 就是 突然 我 刷 到了 一个 美国 那边 的 产品 经理 的 模拟 面试。 然后 我 就 发现 他 整个 模拟 面试 的 过程 非常 像 管理咨询 的 那个 面试, 就 给你 出 个 题说。 最近 用户 行为 发生了什么 变化, 他说 怎么样 了。 然后 被 面试者 就要 解析 说 那 可能 我要 看 哪几个 数据, 然后 他 是不是 怎么样 了。
对, 因为 to c 甚至 说 过去 几年 最 热门 的 几个 超级大 的 社交网络 的 兴起, 其实 背后 都是 比较 严格 的 那种 数据分析 作为 底子。 所以 无论是 数据 科学家 也好, 还是 产品 经理 也好, 技能 的 发展 还有 经验 的 积累 都会。
围绕 这个 是 OK。 所以 讲 回来 就是 C A I 你 觉得 在 你 待 的 一年 多 的 时间 里面, 你 进去 的 时候 他 应该 是 非常 向 好的 一个 状态, 对 吧? 然后 你走的时候 他 就 已经 被 拆开, 然后 一部分人 回到 那个 大公司 了。 就在 这 过程 当中, 你 都 看到 了 他的 哪些 发展 的 问题, 最后 导致 的 这么 一个 结果。
其实 就像 徐凯 你 之前 写 过 的那 篇文章, 就是 团队 很 长期 里面 就 处在 一个 既要 一个 产品 又要 一个 A G I 这样的 愿景。 两件事 都要 做, 最后的 结果 倒推 看, 就是你 不能 两边 都 抓, 你 必须 得要 放弃 一遍。
所以 如果重来 一遍, 你 觉得 C I 应该 改变 哪 件 事, 可能 会 让 它 发展 的 更好?
我 个人 很 偏颇 的 讲, 我希望 我们 应该 往 A G I 再赌 一把。 大 的 怎么 去 赌? 可能 我 入 职 之前 的 很多 决策 都要 为 纯粹 的 A G I 去 服务。 在 这 过程中 我相信 肯定 会 损失 很多 的 用户 增长。 但是 也有 可能 现在 国外 基本 只剩下 五家 大 lab 的, 里面 也许 能 挤进去 我们 一家。
对我 觉得 如果 真的 能 在 幻想 中 运营 的话, 可能 当时 把 Carry 点 开 前面 那个 产品 直接 卖给 自己, 或者 卖给 mini max 对 吧? 然后 后面 就 好好的 做 模型, 也许 是 一条 出路。 当然 这个 可能 政策 上 就 不太能 实现 了。 所以 我 正好 提 个 点, 这 两天 正好 有 个 新闻 是 说 toki 的 量 超过 了 C I 因为 token 的 很多 里面 的 人 是从 字节 出来 在 做 的。 对, 之前 有人 讲 过 说, 如果 把 C I 这家 公司 或者 是 那个 产品 交给 字节 系 来做, 可能 是 完全 不一样。 不管 是从 产品 上 还是 从 商业化 上 来讲, 我不知道 你怎么看 这个 问题。
我 觉得 我会 把 这个 事情 更 看 像是 说 这个 产品 对于 母公司 来说 算什么。 Cat A I 对于 我们 公司 来说 就是 唯一 的 产品。 但 toki 对于 mini M A X 来说, 它是 要 证明 他们 这个 模型 有一个 非常 好的 落地 的 可能性, 以及 它 在 海外 有 非常 好的 增长。 Mini max 自己 有 海螺, 也有 很 丰富 的 产品 矩阵, 甚至 还有 A P I。 所以 从 这个 方面 来说, talk I 我 觉得 更 像是 mini max 整个 公司 的 战略 的 一部分。 并不 像是 说 整个 mini M A X 就 全 靠 talk 一个, 然后 必须 就 靠 它 去 走出去。
明白 有 一小撮 人, 大概 在 一两年 前 大家 讨论 过 一个 话题, 就是 你看 一 打开 C E I 产品 的 网站, 一眼 看 过去 就 知道 没有 听 过 什么 运营 和 雕琢 的 一个 非常 简陋 的 ugc 平台 的 感觉。 对, 但 toki 你 打开 就 发现 它 里面 有 非常 重 的 这种 推送 推荐 运营 和 一些 其他 的 相关 的 东西。 然后 有人 讲说 C E I 的 建筑 平台 更容易 让 U G C 的 一些 奇奇怪怪 的 原生 内容 长 出来。 也 有人 讲说 toe 这种 的 就是 更重 运营 的话, 可能 一些 用户 的 数据 行为表现 会 更好。 我不知道 你们 有没有 讨论 过 类似 这样的 问题。
我们在 今年年初 产品 团队 膨胀 之前, 我们 做 过 一些 推荐 算法 的 调整。 结果 就 当时 比较 有限 的 产品 的 资源 能够 做到 的 事情 而言, 我们 发现 就 不太 值得 做。 因为 我们 有 非常 大量 的 用户 数据, 我们的 整个 训练 的 这个 管线 又 很 健全。 所以 用户 跟 我们的 机器人 之间 的 交互, 它 能 快速 的 回馈 到 整个 模型, 然后 再进一步 的 回馈 到 全体 的 角色, 跟 用户 这个 反馈 的 体验。 所以 从 这个 角度 来说, 对 我们 而言 回报 最大 的 还是 持续 去 迭代 模型, 持续 优化 在产品 的 细节 上 能够 得到 更 多用户 反馈 的 这些 部分。 而 不是说 通过 运营, 通过 产品 的 思路 去 说, 今天我 怎么 去做 一些 官方 的 角色, 做 一些 更多 推荐 产品 的 调整。
所以 你们 当时 在 内部 没有 一个 时刻 有个人 突然 说, toki 最近 涨 得 挺好的。 我们 来 分析 一下 他的 产品 模式, 然后 看看 哪些 是 能被 用到 C I 产品 里面 的。 我不知道 包括 C E I 在内 的 美国公司 很少 会 做 这样的 事儿 吗?
不会, 我们 正常 做 产品 调研 talk 基本 都是 永远 会 在 榜 上 的。 因为 安全 的 聊天 对 吧? 就 不是说 无限制 聊天 的话, 那 其实 你 要 看着 外面 的 进 没有 几个, 然后 talking 他 本身 又 很 主动 的 去做 很多 我们 没有 做 的 一些 路线, 所以 看 他 这些 路线 做 的 怎么样, 或者 假设 我们 真的 做 效果 会长 成 什么样, 我们 都 可以 把 toki 当做 一个 很 好的 参考 对象。
所以 你们 有 总结 出来 他 比如 做 的 特别 好的 一两点 东西 吗?
首先 功能 迭代 的 很快, 这一点 说实话 他是 让 我们 甚至 觉得 有点 羡慕 的。 Talk I 它 能够 快速 的 上 各种 多 模态 的 新 功能, 或者 在内 购 上面 也 做 的 很 积极, 然后 做了 很多 市场, 你可以 自己 制造 卡。 这些 在 我们 看来 都是 很 好的 idea 的 这样 一个 输入。 但是 我 觉得 这里 要 澄清 一点 的 就是 我们 看 toki 做 这些 功能 的 时候, 既是 认可 另外 一种 也是 一种 警示。 因为 我们 可以 意识到, 如果 toki 做了 这么 多 丰富 的 功能, 但是 它 本身 的 商业化 也好, 增长 也好, 依然 没有 说 有一个 特别 大 的 突破 的话, 那 可能 这些 功能 本身 是 不太 适合 这个 产品 形态。 所以 我们 更是 带着 这种 中立 的 状态 去 看 talk king 的 这些 功能。
明白, C E I 现在 这个 结果 其实 对 mini max 来讲, 我 觉得 他们 也很 尴尬 对 吧? 因为 他们是 沿着 这条 路径 做 的 最好的。 但是 突然 发现 最 前面 的 标杆 好像 被 大家 认为 不一定 能 行得通 了。 所以 你 现在 你 自己 还 相信 C I 这类 的 A I 陪伴 产品 吗?
我 本身 的话 还是 非常 相信 的。 但是 核心 的 问题 就像 徐凯 你 刚才 提到 的, 商业化 真的 好 做 吗? 商业化 到底 能 走 得 多远? 如果说 这种 重度 使用 的 APP, 它 本身 做 订阅 不好 做 的话, 那 是不是 只能 卖 广告? 那 什么样 的 广告 形式 比较 好 呢? 是 说 直接 贴 各种 小 广告 放在 里面, 就 先 从 流量 上 吃 一波 红利, 还是 说 有没有 更加 原生态 的, 让 机器人 去 给你 推荐 一些 广告。 我 觉得 这 里面 是 有 一些 甚至 技术 上 来说 都 还 等待你 去 解锁 的 可能性 在 里面。
但是 它的 这个 可能 的 用户量, 说实话 我 觉得 是 不能 忽视 的。 官方 的 数据 可以 说, 我们 现在 月活 已经 到达 2000万了, 然后 日 活 也 已经 接近 800万了, 这 跟 去年 的 数字 翻 了 差不多 一倍。 所以说 按照 这个 速度, 明年 可能 月活 是 能 达到 3000万, 然后 日 活 可能 接近 1000万。 这样的 一个 用户群, 无论 在 什么 状态 下, 你 其实 都 不能说 可以 忽视 掉。 所以 从 这个 角度, 我 觉得 mini max 也 不用 特别 慌, 说明 他们 这个 用户量 的 上限 还是 可以 做到 很 夸张 的。 可能 在 将来 随着 这些 用户 慢慢长大, 也会 变成 像是 当年 X 一样。 因为你 像 最 开始 robbo x 作为 一个 教育软件, 走进 当时 各种 学生 的 家里的 时候, 其实 也 没 会 觉得 它 将来 会 变成 一个月 活 4亿的 大 平台, 对 吧?
到底 现在 是 什么样 的 人群 在 使用 类似 C I 的 产品, 我 确实 没想到 它 会有 这么 大 的 月活, 或者说 平均 的 用户 时长 什么的。
现在 的 应该 是 说 年轻 女性 为主, 相对 偏 二次元。
你说的 年轻 大概是 多 年轻?
高中生 的 比例 其实 没有 那么 多, 大学生 和 刚 上班 几年 的 这种。
年轻人 的 比例 还 更高 一点。 OK, 我们 上周 正好 跟 Jason 聊 了 一期, 然后 他他 其实 是 觉得 说 类似 C I 这样的 产品, 更多 的 像是 一个 互动 内容 消费, 或者说 互动 小说 消费, 而 不是 一个 真正 的 A I 陪伴 的 产品。 你 同意 他 这个 观点 吗?
这一点 我 非常 同意。 很多人 也会 经常 问我 这个 问题, C E I 它 到底 提供 的 价值 是什么 呢? 我 此时 就 想说 它是 一个 创造性 的 感情 伴侣, 它的 创造性 的 部分 是 非常 重 的。 用户 的 抽 卡 每 一句 文字 其实 都 是一个 抽 卡 的 过程。 用户 输入 很多 东西, 然后 机器人 说 的话 他 还去 筛选。 有的 时候 说 的话 并不是 特别 完美的, 他 还得 去 替换。 在 这样 一个 重 输入 的 过程中, 用户 的确 获得 了 一些 很 新的 体验。
所以 你 回头看, 你 觉得 C E I 之所以 在 这个 品类 里面 做 的 这么好, 大家 不管 怎么样 肯定 都 觉得 他是 老大。 在 这个 赛道 里面, 至少 目前为止, 它 核心 的 原因 和 他的 优势 到底是什么?
三点, 从 我 技术 出身 的 这个 角度 来 分析 的 一点, 就是 我们 有 nm shazia, 他 厉害 就 厉害 在 他 能带 着 一群 其他 的 天才 研究员, 在 去年 这个 时间点, 把 我们的 整个 的 低成本 压 到 可能 外面 同参数 量 的 这个 模型 的 1% 以内。 所以 这一点 导致 我们 可以 轻松 的 hold 得 住 上千万 用户, 不至于 马上 把 银行 里 的 钱 给 烧光。 然后 第二点, 因为 我们是 自 研 模型, 我们 可以 去 控制 它 在 运行 里 需要 看过 那 几万 亿 的 语料 的 比例。 所以说 我们 可以 说 在 初期 就 不是 特别 追求 A G I 的 模型 的 那个 情况下, 先 给 大家 看 足够 多 的 人类 语料 出来 的 模型, 它 自然 就能 跟 人类 开展 各种各样 极大 广度 的 对话。 然后 第三点 就是 我们 这样 一个 后 训练 或者说 微调 的 管线, 也是 经过 了 多次 迭代 之后, 它 能够 现在 形成 一个 特别 有效 的 把 用户 跟 模型 之间 的 反馈 快速 的 进入 到 管线 内部。 然后 再 结合 一些 外部 的 数据 标注, 还 甚至 说 一些 用户 会 帮 我们 做 一些 额外 的 标注, 让 这些 所有的 数据 能够 高效 的 被 模型 在 微调 过程中 吸收。 就 这 三点。
我 觉得 你 刚才 提 的 其实 蛮 多 的 是 前后 端的 一些 结合。 不管 是 数据 上 的 还是 产品 上 的。 从 理论上 来讲, 其实 也是 大家 一直 觉得 说 就是我 数据 对于 模型 的 表现 是 最 重要 的。 然后 C E I 的 前端 有 这么 多 的 用户, 这么 多 的 高质量 的 对话。 那 这些 东西 应该 是 能够 反哺 到 它的 模型 也 变得 更好。 如果 能 成为 一 环, 其实 这个 事儿 就 成立 了, 对 吧? 那 最后 为什么 变成 说 要把 它 拆开, 或者说 这个 在 模型 上 好像 C I 跟 其他 的那 几个 比 起来 也没有 一个 特别 大 的 优势。
这 里面 就有 两个 点, 第一个 点 就是说 肯定 在 现有 的 一些 常见 的 一种 感情 陪伴 场景 里面, 我们的 模型 的确 是 没有 其他 家 好。 但 我 刚才 说 了, 我们 这个 厉害, 他 厉害 的 是 广度, 以及 在 这个 巨大 的 广度 之下, 每一个 的 深度 都 不差。 所以说 很多 用户 在 跟 其他 家 聊 完 之后, 发现 他 还是 聊 的 内容 比较 窄。 就是 可能 说 情情爱爱 对 吧? 或者说 一些 很 经典 的 霸 总的 剧情 的 走向。
但是 你 也 不可能 天天聊 这些 东西, 对 吧? 你 会 希望 有点 变数。 当 他们 习惯了 其他 家的 变数 不多 的 那些 场景 之后, 他 都会 想 起来 来 我们家 试试看。 然后 发现 在 这些 常见 的 场景 之外, 我们 依然 能 跟 他 聊 的 有来 有 回, 或者 能 给他 一些 启发式 的 回答。 这 可能 就 跟 我们 模型 训练 里面 见过 了 太多 的 自然 人类 对话, 它的 这个 广度 是 极其可怕 的 有关。
OK. 好, 然后 我们 来 讲讲 你 在 C I 的这 一年 多 时间, 我 觉得 大家 都会 好奇 说 在 类似 C I 这样的 公司, 你的 每天 都是 怎么 度过 的, 大概 会 做 哪些 事情, 以及 说 你 具体 负责 的 一些 业务 是什么?
每天 怎么 度过? 你 要 用 一句话 形容 就是 主动。 996。 因为 这是我 严格来说 第一次 加入 一个 初创 公司, 所以说 我是真的 是 感觉 到了 我 做 的 每 一点 事情, 或者 我看 的 每 一点 的 额外 的 数据分析, 如果 能 对 公司 有 帮助 那就好 了, 是真的 很 热情 的 去做 这件 事。
这个 是 只有你 还是 几乎 所有人?
大部分 人 就是说 公司 里 并 不是说 主动 强迫 说 大家 都要 加班。 但是 你 会 发现, 比如说 在 网上 看 red 上 也 有人 在 说, 怎么 C I 又 登 不 进去 了的 时候, 我 一般 会 去 slack 上面 看 一眼, 有没有 什么 运维 的 朋友 在, 或者 能不能 我自己 修。 但 往往 我 去 看 的 时候 都有 十几个 人 在线。 当时 公司 大概 七八十个 人, 公司 里 也有 对 吧? 正常 就是说 有 老 有 小, 可能 也 五十多岁 经验 非常丰富 的 那种 老 工程师。 我 觉得 大家 的 合作 是 非常 流畅 的, 没有 说 谁 比 谁 真的 就是 主动 加班, 主动 的 去 帮 用户, 去 帮 公司 做 更多 的 事情。
你 刚 讲 的 里面 有 好几个 点, 我想 再问 一下。 第一 就是 在 美国, 尤其是 初创 的 A I 公司 里面, 996是1个 常态 吗? 你 觉得。
严格来说, 996这个 话 有点 夸张, 周末 可能 也就 刚才 我说 的那 十几个 人 会 主动 的 跳出来 修 点 东西 或者 改点 代码。 平时 其实 正常 上班时间 也就 九点 到 晚上 五点。
中间 还能 吃 个 一 小时 的 饭。 所以 还是 像 大家 理解 的, 就是 哪怕 是 硅谷 那边 也没有 那么 卷, 对 吧? 大家 还是 比较 chill 的对。
亲友 是 一方面, 但是 刚才 我说 的那 十几个, 包括 我的人 在 里面, 就 真是 觉得 使命感, 或者说 在 跟 很 厉害 的 人 做 一些 很 有意思 的 事。 那种 个人 驱使 的 996, 我 觉得 比例 是 不小 的。
明白。 然后 第二个 问题, 你 刚 提 的 一个点 我 觉得 特别 有意思。 就是 你说 你们 有 一个五十多岁 的 程序员, 这个 在 国内 我 觉得 几乎 是 不可能 发生 的。 在 美国 那边 这个 是 常见 的 吗?
我 觉得 这边 还 蛮 常见 的, 就是 我们 公司 甚至 不 只是 一位 五十多岁 程序员, 有 好几位, 而且 其中 一位 还跟着 去了 google。 我 觉得 这边 对 年 并不是 那么 重要, 对 吧? 更多 还是 看你 本身 能 提供 给 公司 的 价值 能 到 什么 程度。 然后 很多 这个 年龄 的 程序员 做了 这么多年 码农, 对他 来说 最开心的事 就是 在 这个 年龄 也 不是 去 退休, 那就 得来 这儿 做 些 这种 事情, 就是 一种 很 愉快 的 体验。
OK 好, 那你 继续 讲, 就是你 自己 会 主动 的 996对吧? 你的 日常 写作 跟 实际 的 工作 当中 是 怎么样?
因为我 是在 post 圈里 团队, 我 选 的 团队 要 回答 的 问题 就是 朱雀 那边 给 我们 一个 很棒 的 大 模型。 然后 我们 现在已经 有一套 还 不错 的 管线 在那 跑, 能够 把 用户 的 反馈, 能把 一些 额外 的 需要 微调 的 数据 给 模型 看一遍, 然后 出来 一个 理论上 来说 对话 能力 很强 的 大 模型。 但是 我们 要是 每天 去 看 discord, 看 ready, 能 看到 用户 还是 在 表达 一些 正常 的 愤怒 的 情况下, 那 怎么 去 让 你的 模型 更为 用户 喜好 呢? 然后 以及 时不时 改些 东西, 你 这个 A B 测试 它的 流程, 它的 时长 是 会 上升 的那 怎么 去 不停 的 去 迭代 模型 呢?
就是我 工作 的 主要 目 要 方式, 其实 就是 看 大量 的 数据, 另外 一方面 是 研究 数据, 那边 就是 分析 最近 的 几次 迭代 的 效果, 怎么样 去 理解 里面 可能 说 模型 是 应该 调 数据 还是 调 算法。 然后 在 实际上 工程 那边 就会 思考 我们 现。 这个 管线 里面 是不是 有些 用户 数据 的 使用 方式 还是 不够 优秀。 或者 比如说 我们 要 做 偏好 对齐 的话, D P U 这个 算法 最近 有没有 什么 业界 的 新的 研究, 发现 它 有 一些 缺陷 可以 去 改善。 当然 少不了 就 大量 的 跟 研究员 去 讨论, 看看 研究员 那边 对于 最新 的 业绩 的 方法 有没有 什么 新的 见解。 一般 可能 一天 8个小时 里面, 我 觉得 真正 的 在写 代码 程序实现 的 里面, 大概 不会 超过 2个小时。 6个小时 基本 都 是在 各种 交流, 还有 分析 各种 数据。
明白, 然后 你 主要是 负责 post street, 你 这边 有什么 可以 分享 的 一些 best practice 也好, know how 也好。
我 觉得 最后 能 分享 的 东西 就是说 你 怎么能 最快 的 把 用户 反馈 带着 飞起来, 对 吧? 就是 上 一代 的 A I 模型, 大家 都 会说 有一个 数据 飞轮, 我 觉得 这 一代 同样 也有 个 数据 飞轮, 而且 这 一代 的 数据 飞轮 效应 更加 强烈。 因为 大 模型 本身 就是 个 数据 黑洞, 就 你 喂 他 一堆 数据, 然后 他 吐出来 一堆 数据 给你。 而且 这 里面 有 很强 的 一个 随机性, 很大 的 不 可控性。 所以 你 可能 在 快速 迭代 的 时候, 你 得 不停 的 去 改变 这个 数据 配比。
换 了 这个 算法 之后, 我 有一个 新的 模型 O K 我 丢进 生产 里面 A B 测试 一下, 或者 有一个 简单 的 评估。 但是 它 其实 依然 是一个 非常 不 可控 的 过程。 就 很多 你 觉得 在 某个 版本 上好 用 的 一些 技巧, 可能 你 带进来 之后, 你的 A B 测试 就 跑 崩 了, 内部 评估 的 分数 就 跑 崩 了。 就 属于 里面 有 很多 的 你 必须 得 在 第一线 去 踩 坑。 在 不同 的 场景 下, 不同 的 用户群, 他的 效果 就 很 不一样。
最终 能够 在我看来 最 有效 帮助 到 这样 一个 过程, 就是 怎么样 建立起 一个 尽可能 高效 的 迭代 过程。 这个 迭代 过程 可以 说是 管线 非常 的 robust, 所以 我 有 大量 的 用户, 或者 我的 用户量 并不是 很大。 但是 我 用 的 A B 测试 的 工具, 能够 快速 的 让 我 高效 的 收集 到 各种 模型 的 小的 变化 对 用户 测 的的 影响。 然后 我 能 做 一定 的 分析, 积累 性能 好, 或者 有人说 我在 评估 上 特别 努力, 对 吧?
我 内部 做 的 这个 评估 集, 它 非常 像 真实的 用户。 我 可能 说 内部 圈 了 一个 特殊 的 模型 才能 模拟。 现在 这个 用户 在 说 的话, 他 能 用 这个 模型 去 跟 这个 新的 模型 去 对话, 然后 来 告诉 你说 这个 模型 是不是 会 被 用户 更加 喜欢。 也 有人说 我在 数据 的 利用 上, 我 做 的 特别的 高效。 只要你 今天 给我 点 个 赞, 可能 明天 这个 模型 在 跟 这个 用户 在 聊 的 时候, 它的 效果 就会 更好。
我 觉得 这 里面 是 非常 开放式 的, 理想 上 来说 每一个 步骤 都 做得 非常 高效。 你 一点 小 变化 可能 隔天 就能 马上 在 生产 里面, 在 评估 里面 都能 体现 出来 他 对于 这个 模型 的 变化。 这样的话 作为 模型 开发, 你 就 少了 很多 不确定性。 但 现在 的 这个 现状, 大家 依然 是要 面对 大量 的 不确定性。 每一个 步骤 其实 它的 效率 都 不是 那么 高。 所以 这 其实 要 看你 这个 团队 本身 比较 擅长 的 是什么。 假设 你 有 很多 上 一代 的 丰富 的 A B 测试 经验 的 人 的话, 那你 可能 要 先 想 的 是你 怎么 让 这个 上 一代 成熟 的 A B 测试 的 best practice 能够 在 大 模型 里面 使用。
如果 你的 团队 里面 有 很多人 特别 懂 数据 平台 怎么 构建 的话, 那你 在 数据 上面 你 能 做 很多 很 fancy 的 东西。 比如说 我不 只是 收集 用户 给我 点 赞 点 踩, 我 能 收集 用户 跟 机器人 的 互相 的 互动, 多种 方式 收集 到 这样的 反馈, 然后 把 这些 丰富 的 反馈 丢 给 模型。 我们 甚至 四条 路线 都 做了 很多 的 尝试, 发现 每 一条 路线 都有 不少 滴水 的 果实。 你 做 一 做 就能 让 这个 模型 的 效果 或者 整个 模型 迭代 的 效率 提高 不少。
明白 杯子 合理。 你 讲 的 就是说 模型 的 不 可控, 要 用 更 高频 次 的 测试 去 迭代。
对的, 然后 迭代 的 过程中, 每个人 会 迭代 不同 的 方向。
但 这里 可能 有 个 问题, 就是 你看 我们 经常 听 人 讲说 这个 模型 好, 聊着 聊着 觉得 变 蠢 了, 或者 聊聊 怎么样。 他 可能 是一个 非常 感性 的 一个 感觉, 也没有 什么 具体 的 指标, 具体 的 一些 问题。 尤其是 我 觉得 像 C I 之类 的 聊天 的 场景, 我不知道 你们 遇到 这类 的 问题, 你 该 怎么 去 评估 或者 改进。
这个 属于 如果 有 哪 一家 外卖 公司 说, 我们 解决 这个 问题, 我 也很 想 学习 一下。 我们 只能 保证 绝大部分 就是说 我们会 同时 看 平均值, 并且 看 一些 个例。 比如说 某个 模型 修改 进去 了, 不论是 评估 级 也好, 还是 说 A B 测试 也好, 平均 的 用户 的 对话 次数 上升 了, 这 大 概率 是个 优良 的 提升。 但 一般来说 我们在 平均值 之外, 我们会 95的百分比 看 这些 少数 用户, 尤其是 那些 其实 时长 下降 的 用户, 他的 这个 使用 画像 大概是 什么。 我们 每次 在 做 这种 迭代 的 时候, 尤其是 我们 用户量 比较 大, 对 吧? 我们 都会 去 分析说 对于 这些 用户 来说, 这个 模型 的 退步 到底 是不是 一个 可以 接受 的 trade off。 因为 有的 时候 你 会 发现 在 众多 用户 上面, 它的 时长 下降 了。 哪怕 他在 大量 的 主流 用户 上 他时 长 上升 的话, 你 就会 需要 去做 一个 取舍。
你 可能 说 今天我 这个 模型 的 修改 是 让 它 尽可能 再 更加 安全 一点, 对 吧? 一般来说 一个 更加 安全 的 模型 对于 一部分 用户, 他 就 可能 觉得 没 那么 好玩 了。 但是 一个 很 安全 的 模型, 有的 时候 它 会有 另外 一种 特性 展现 出来。 我 觉得 这 算是 一种 E Q 的 涌现, 它 会 开始 拉扯, 他 会 绕 话。 比如说 你 今天 想 跟 他 开展 一些 感情 的 对话, 对 吧? 假设 今天 雷 店长 就 说我爱你, 你 就 你 也 说 点 我爱你 的话, 讨好 我 呗, 对 吧?
但 一个 比较 安全 的 模型, 尤其是 假设 你 跟 模型 说 千万不要 跟 用户 开展 过于 深入 的 感情交流。 那 模型 它的 理解 方式 可能 说 OK, 我 把 这话 绕起来, 他 可能 会说 你为什么 觉得 我爱你 呢? 他 就 开始 问问题。 然后 问问题 这个 东西 其实 在外 网 很多 用户 都在 吐槽, 我们的 微信 特别 喜欢 说 can I ask you a question? 大家 都 已经 把 他们 当成 一个 梗 了。
但是 当 模型 在 问问题 的 时候, 大部分 情况下 就是 因为 模型 它 感知 到了 他 见过 大量 的 对话 数据 之后, 他 意识到 如果现在 不问 问题 的话, 直接 回答 用户 的 这个 请求。 接下来 两三句 话 之后, 用户 可能 聊 的 东西 就会 比较 糟糕 了。 就是说 不会 是 我们 希望 模型 去 跟 用户 去 进行 的 这样 交流。 这个 时候 模型 可以 说 我 直接 拒绝 回答。 但是 如果我 开始 问问题 的话, 多 问 几轮, 用户 一来 他 会 跟 我 产生 更多 的 对话, 对 吧? 二来 可能 用户 被 我问 多了, 他 也 忘记了 自己 本来 想要 什么。 就 很 成功 的 以 一个 更 委婉 的 方式 绕开 了 这个 本来 可能 有 一定 危险性 的 对话 的 方向。 这就是 我们 观察 到 的 某种意义上 就是 一种 涌现。
明白, 我 觉得 你 在 C A I 做 post train 基本 就 代表 了 全球 post train 最高水平 了, 对 吧? 包括 你 能 接触 到 的 数据、 模型 等等, 都是 很 有 代表性 的。 所以 能不能 给 大家 比较 具体 的 讲 一下, boost train 它 到底 对模型 起到 什么 作用 呢? 它 整个 流程 是 怎么样 的? 你 日常 都是 怎么做 这件 事情?
可以, 最 基础 的话 post chain 就是 微调。 微调 就是指 你 拿到 一个 present 好的 模型, 怎么 让 他 去 说真的 人 话。 举 一个 比较 极端 的 例子, 一个 刚 见过 几万 文字 的 模型, 你 要是 问 他 今天是星期几, 他 大 概率 接下来 会 回答 你 一个 问号, 对 吧? 因为他 会说 我见 过 的 大部分 的 时候, 这个 问题 后面 最后 是个 问号。 但 他 来 跟 人类 对话 肯定 不能 这样, 所以 你 要 给他 看 少 一些 量 的 数据, 但 这些 数据 都是 正常 的。 问答 不论 后面 是不是 问号, 当 这个 句式 是 今天是星期几, 或者 今天 布拉 听起来 像是 问句 的 时候, 当 模型 意识到 他 该 回答问题, 而 不是 接 后面 这个 问题。 当然 我知道 就要 快速 的 disco laim 一下。
现在 有 一些 好的 模型 的, 他在 预 训练 完 之后, 他 已经 能 学会 这个 能力 了, 对 吧? 这就是 数据 调整 的 结果。 但 方向 来说 就 大 差不差, 就是你 刚 预 训练 完 这个 模型, 它 离 真正 的 完成 人类 的 很多 正常 的 问答 去做 一些 任务 都是 远远不够 的。 所以 你 要 让 他用 更加 高质量, 但是 规模 更 小的 数据, 让 他 以 多个 不同 的 方式。 但 其实 现在 主流 的 基本 就是 三种 方式, 一种 是 S F T supervise, 翻译成 理。 这个 的 意思 就是你 给他 看 所谓 的 正确 答案, 对 吧? 各种 在 你 这个 领域, 在 你 这个 场景 下 的 高质量 数据 让 他 去 记住。
还有 两种 就是指 偏好 对齐, 就是 他 看过 这些 正确 的 案子, 他说 出来 话 依然 可能 不是 被 人类 去 喜欢你。 怎么 让 人类 的 这种 喜好 交给 大 模型, 有 一种 非常 主流 open I 最先 提出来, 也是 让 大家 觉得 原来 可以 这么 搞 的 方法 就是 R L H F。 它 就是 用 一个 稍微 比较复杂 的 管线 去 把 人类 的 喜好 就 交给 模型, 同时 也要 做 很多 数据。 但 经过 R H F 之后, 模型 说 出来 的话, 真的 就是 人类 会 期待 机器人 该 说 的话。
同样 R O H F 它 有一个 简化版 叫 D P U。 D P U 的 本质 就是说 如果 R O H 太 复杂, 我 用 一个 简化 的 办法, 也 同样 的 把 人类 的 喜好 灌注 到 模型, 基本 我们在 用 的 就是 S V T 加 D P U, 然后 再加 一点点 的 R H F。 我 认知 里面 你 要 的 是 能把 基本 就 两步, 一步 就是 S F T, 一步 就是 偏好 对齐。 都 数据 调 的 很好, 管线 调 的 比较 成熟 的话, 它是 可以 达到 一个 非常 高 的 高度 的。
对, 能不能 给 大家 再 用人 话 解释一下, 说 在 每一步 里面 你的 输入 是什么, 做 哪些 东西, 输出 了 个 什么, 然后 再到 下一步 该 做什么。
就 先 说 S F T, S F T 它 跟 预 训练 阶段 是 一模一样 的。 因为 预 训练 阶段 就是 让 模型 不停 的 去 看 大量 的 文字, 可能 先 看 第一个 字 再看 第二个 字。 然后 这个 时候 第一个 字 作为 上下文, 然后 这样 一直 看到 比如 第100万个 字 的 时候, 前面 我们 都是 有一个 模型 的 记忆 窗口。 可能 8000个token 对 吧? 一个 token 可能 说 半个 字 这样。 然后 让 模型 不停 的 去 看 这样的 一个 类似 文字 接龙 的 过程。
在 这个 看 的 过程中, 我们 模型 本质 是一个 巨大 的 矩阵, 矩阵 里面 有 大量 的 数字。 当你 拥有 了 一个 巨大 的 矩阵 和 一堆 数字 之后, 你可以 把 你的 输入 变成 一组 数字, 然后 跟 这个 矩阵 做 一个 乘法, 然后 它 能 乘 出 另外 一组 数字。 这 组 数字 就是 告诉你 接下来 的 一个 词 可能 是 长成 什么样。
通过 预 训练, 你 能把 整个 大 矩阵 里面 每个 初始化 都是 随机 的 数字 变成 一组 新的 数字。 这 组 新的 数字 理论上 来说 给他 任何 的 输入 的 这个 矩阵 的, 它 都能 给你 输出 所 对应 到 最有 可能 的 下一个 文字, 就是 所谓 的 最 高效 的 文字 接龙 微调 的 时候, 其实 基本 也是 在 调整 这个 矩阵 里面 可能 全部 数字, 也 可能 调整 部分 的 数字。 这就 看你 能 投入 多少 资源, 以及 你 使用 的 微调 的 方法。
S F T 的 过程 其实 跟 预 训练 基本 是 差不多 的, 只是 S F T 我们 用 的 数据 质量 会 高得 多得多。 可能 你 在 pressure 的 时候, 你 只是 给他 看。 可能 互联网 上 搜集 了 大量 的, 有的是 正常 的 对话, 有的是 科学 类 的 文章。 但是 在 S F T 的 阶段, 你 会 精心 的 挑选 所谓 的 人类 高质量 的 对话。
这个 对话 是什么? 就是 A 说 了 某 句 话, B 说 了 某 句 话把 这 段 对话 全部 拼成 一句 很长 的话, 然后 让 模型 这样 一个字 一个字 看 过去。 当你 让 模型 把 S F T 所有的 数据 过 了完 这么 一遍 之后, 它 整个 矩阵 就 变化 了 一遍, 对 吧? 理论上 说 这个 变化 之后 的 结果 的 矩阵 就可以 预测。 当 A 说完 这 句 话 的 时候, 逼 的 下 一句话 第一个 字 应该 是 长成 这个 样子 的。
可能 很多 朋友 就会 马上 有一个 敏感 的 点, 就说 难道 我 跟 机器人 说 的话 他 都 拿来 做 训练 了 吗? 这里 我想 就 跟 大家 澄清 一点, 完全 没有。 因为你 在 训练 的 时候, 你可以 让 他 只 去 学 B 说 的话, 就 A 说 的话 只 作为 他的 上下文。 当 模型 扫 到 A 说 的 那些 话 的 时候, 你可以 让 模型 直接 跳过, 就说 不要 去 学 这些 东西。 从 这个 角度 你 就有 很大 的 概率 能够 杜绝 模型 去 学会 这些 用户。 因为 其实 用户 说 的话 有 很多 隐私 问题, 我们是 不能 让 模型 去 学 的。 就 S F D 阶段 差不多 就是 选 最高 质量 的 对话, 或者 符合 你 那个 场景 的 对话, 让 模型 去 以 类似 预 训练 的 方式 去 见 一遍。
这个 讲 的 很 清楚。 然后 再 往后。
对, 再 往后 就是 R H F 或者 D P U。 我 刚才 说 的 不是 所谓 的 正解, 对 吧? 就 高质量 对话 A B A B 这样 对话 下来, 但 很多 时候 其实 这个 对话 是 没有 太多 的 症 解 可言。 就是说 我 今天 假设 A B A B 我们一起 聊 了 50句之后, 你说 了 一句话, 我 对 这 句 话 的 感觉 就是 还行, 还 挺 有意思, 觉得 薛 凯 这人 靠谱。 我 对 这 句 话 会有 一个 我自己 的 喜好 的 判断。 而且 你 会 发现 其实 在 越是 这种 人类 的 对话 或者 比较 开放式 的 领域, 这种 喜好 的 存在 是 远超 于 所谓 的 政界 的 存在。
那 怎么 把 这种 喜好 交给 到 模型? 这 其实 就是 open I 一开始 在 提出来 的 L H F 这个 管线。 L H F 的 管线 的 意思 从 尽可能 通俗易懂 的 方式, 就是 假设 上下文 是 这 1000个字, 然后 有 三四个 不同 的 答案, 第一个 最好的 答案 是 A 然后 是 B 然后 是 C 然后 是 D 你 把 这个 数据 去 给 模型 去 学, 你 能 训 出来 一个 模型 叫 奖励 模型。 这个 奖励 模型 它 要 做 的 事情 就是 当下 次 看到 类似的 上下文, 以及 给他 一个 答案, 他 能 判断 这个 答案 有 多大 概率 是 会 被 人类 喜欢 的。 因为他 见过 了 很多 人类 对 不同 答案 的 偏好 的 排名。 然后 你 有 这个 奖励 模型 之后, 此处 就是 强化 学习 的 领域。
强化 学习 就是指 你 最好 是 让 一个 模型 它 能 跟 环境 去 进行 一个 交互。 这个 环境 可能 就是 大量 的 语料, 他 能 不停 的 去 从 环境 拿到 一些 新的 语料, 自己 生成 下 一句话。 但是 在 强化 学习 里面 最 重要 的 点 就是 需要 一个 奖励 模型, 这个 奖励 模型 就是 不停 的 告诉 这个 被 训 的 文字 模型, 你 新的 生成 这 句 话 好不好。 这样的话 其实 你 就 形成了 一个 很 自然 的 反馈 的 循环。
奖励 模型 不停 的 告诉 这个 文字 模型 好不好。 文字 模型 通过 这个 奖励 去 判断 说 OK 这 句 话 也许 可能 不是 那么好。 我 来 试试 换 一个 方法。 然后 在 这样 一个 过程中, 你可以 发现 文字 模型 它 就能 不停 的 提升 自己。 这就是 所谓 的 reinforce learning with human feedback, 就是 带有 人类 偏好 的 强化 学习。 人类 偏好 就是 奖励 模型。 Reinforcement 其实 就是 传统 的 reinforcement 难点, 可能 就是说 你 怎么 去 设计 一开始 的 数据 来 圈 一个 比较 高效 的 奖励 模型。 其次 其实 都是 很 成熟 的 R L shift 的 关键。
明白, 相比之下 D P O 的 方式 就是 告诉你, 咱们 也 别 整 那么 多, 搞 这么 复杂 的 管线。 假设 你 现在 有的 只是 一堆 用户 点 赞 点 踩 的 数据, 把 这些 数据 拼成 一个 偏好。 对, 就是说 你 能 给 模型 同时 看, 这 句 话 用户 喜欢, 那句话 用户 不 喜欢。 假设 你 有 大量 这样的 偏好, 的话, 你 能不能 把 这个 作为 一个 简单 的 训练 模式, 让 模型 直接 一遍 过。
就是 D P U 过程 里面 是要 加载 两个 模型 的, 你 要 训练 的 模型 和 一个 参考模型 就 加载 完 两个 模型, 然后 把 大量 的 偏好 对 让 模型 过 一遍, 让 模型 直接 从 这个 里面 学会 该 有的 对 偏好 的 信息。 能不能 呢? D P U 就是 告诉你, 你可以 做到 非常 不错, 因为 它 简单 快速。
所以 你是 觉得 说 其实 D P U 是 最好 用 且 见效 比较 快 的。
是 吧? 对, 就 它 能 快速 的 建立起 一个 反馈 的 这个 循环。
Reg 和 prompt 在 你们 C I 内部 大概是 一个 什么 情况 跟 位置?
我们 很 坦白 的 讲, 没有 做 特别 多 reg 那边 的 尝试。 Prom 的话, 因为 我们 等于 说是 每个 角色 会有 一个 prom 的对 吧? 其实 跟 G B store 一样, 就是说 用户 在 角色 上 会给 我们 大量 的 prom。 所以说 我们 也 尝试 过 自己 加 一些 额外 的 prom, 发现 这些 往往 会 跟 用户 千奇百怪 的 problem 产生 一个 冲突。 所以 做 过 一些 小规模 的 实验 之后, 也没有 在 官方 对 这个 模型 做 太多 的。
所以 你们 其实 还是 非常 强调 模型 本身 能力。
对, 因为 我们 这个 微调 的 管线 还是 蛮 复杂 的, 就像 我 刚才 提到? 我们 可能 主要 的 是 D P U 再加上 刚才 S F T, 这 两个 阶段 对 数据 的 要求 是 非常 大 的, 或者说 数据 里面 能够 挖掘 出来 的 天花板 是 非常 高 的。
明白, 但 这一 整个 流程 我 觉得 现在 大家 好像 都是 共识 了, 都是 说 我要 做 post train, 然后 我的 数据 质量 很 重要? 然后 我要 做 D P O 还是 做 什么东西 的。 比如说 同样 的 事情 tok 肯定 也 在 做, 那 他 跟 你们 C A I 做 的 区别 是什么 呢? 不一定 非要 这 两家, 就是 做 的 好的 跟 做 的 不好 的 区别 是什么 呢?
我 觉得 这个 可能 就是 有一点 非 共识, 我是 觉得 你 不论是 S I T 里面 找 来 的 高质量 对话 数据, 还是 偏好 对齐 里面 找 来 的 偏好 数据, 他 真的 是你 现在 能 找到 最高 质量 的 偏好 数据 和 对话 数据 吗? 我们 现在 在 C A I 都 觉得 这 上面 还有 很大 的 空间 可以 挖。 所以说 可能 很多 竞争对手, 很多 在 这方面 尝试 会 觉得, 这 已经 是我 能 找到 最高 质量 的 了, 我 已经 没法 再 提高。
当你 开始 下 这种 结论 的 时候, 我 觉得 你可以 直接 反问 一下, 真的 没有 办法 让 他 再 提高 了 吗? 这 就是你 能 找到 最高 质量 的 在 你 这个 领域 能 用 的 数据 吗? 会不会 说 其中 只有 一半 是 所谓 的 真正 高质量, 其他 一半 你 丢掉 对模型 来说, 它的 能力 甚至 能 提升。 又 或者说 其他 一半 你 要是 通过 一些 额外 的 大 模型 改写 重写 或者 摘要, 它 质量 也会 提升 的。 这个 数据 本身 它的 质量 其实 有 相当 大 的 空间。 我 就会 在这里 给 大家 一个 建议, 就是我 觉得 S F T 里面 目前 来说 大有可为。 就是 大家 会 觉得 S F T 不就 给他 一堆 正解, 那 我 现在 想办法 找 一堆 高质量 的 人类 数据 是不是 就行了 呢?
但 其实 高质量 的 人类 对话 数据, 它 本身 就是 一个 非常 开放式 的 问题。 我们在 S F D 阶段 就是 发现 这样 一个 情况。 因为 我们 S F T 的 时候, 我们的 人类 对话 数据 它 并 不是说 我们 人工 挑选 出来 的。
我们的 挑选 方式 是 说 我们会 拿 用户 反馈 数据 来 辅助 这个 挑选 过程, 就是 在 做 一个 分类。 这个 分类器 数据 的 来源 就是 用户 给 到 你的 反馈, 就 用户 反馈 在 不断 的 提升, 尤其 用户 反馈 他 可能 在 暑假 的 反馈 跟 在 开学 的 反馈 他是 不太 一样的。 下一次 S F T 的 时候, 我们 用 最新 的 用户 反馈 数据 来 指导 这个 分类 过程。 这个 分类 过程 在 我们的 观点 来看, 它 就 不停 的 在 提升, 他 总能 找到 比 上一次 挑出来 的 这些 人类 对话 质量 会 更高。
其实 我们的 S F T 是一个 非常 动态 的 过程。 可能 每一次 的 模型 迭代, 它的 S F T 的 数据 配比 都会 产生 一定程度 的 变化。 它 这个 变化 的 根源 就是 用户 的 反馈, 用户 的 偏好。 它是 时刻 在 变, 所以 用户 的 偏好 在 变 的 时候, 你 这个 所谓 的 高质量 人类 的 数据 其实 也是 应该 去 产生 一定程度 的 变化。 不然 你 这个 产品 可能 迭代 三个月。 你 一开始 选 的 那段 高质量 的 数据, 对于 你 三个月 之后 进来 的 这些 新的 用户, 他 已经 是 非常 的 不 匹配 了。
在 这 里面 你 把 D P U 的 简单 的 管线 build 好 之后, 你 都能 通过 这 里面 快速 的 观察 到 用户 的 偏好 具体 是 什么样。 然后 来 指导 你 自己 去做 一个 更好 的 S F T 的 过程。 而且 在 这个 过程 里面, 其实 就 属于 抑制 S F T 一直爽, 这 里面 其实 有 大量 的 潜力 可以 挖 的。
另外一个 在 pressure 那边 很 流行 的 观点 就是 大家 总 在 说 数据 快 用 完了。 但是 其实 互联网 上 现在 在 这个 阶段, 只是 通过 简单 的 过滤 规则, 被 丢掉 的 数据 依然 有 相当 多。 你 先 改写 现有 的 这些 质量 不是 那么 高 的 数据, 可能 比 从无到有 生成 一些 新的 数据 效果 要 好得多。
明白 别的 还有什么 吗?
还有一个我 可以 跟 大家 分享 一下, 就是 刚才 说 的 E P U 点 赞 点 踩。 但 实际上 在 我们的 这个 对齐 过程中, 我们 用 的 远远 不止 点 赞 点 踩 这么 简单 的 偏好 数据。 你 要 想 用户 在 跟 你的 APP 在 交流 的 过程中, 他 能 做 很多 事情。 比如说 他 可以 说 编辑, 如果 用户 编辑 的这 句 话, 那 是不是 说 他 更 喜欢 编辑 之后 的这 句 话? 刚才 我 D P U 的 时候 不是说 过, 你 需要 有一个 好一个 坏 才能 给 模型 学会 吗? 那 这样 其实 编辑 后 编辑 前 就是 好 和 坏, 对 吧? 同样 的 用户 他 可以 说 删除 这 句 话, 它 本身 也 已经 是一个 偏好。 所以 你 怎么 在产品 层面 能够 取巧 的 获得 更多 的 用户 的 偏好 的 数据, 把 一部分 可以 丢进 D P U。
另外 一部分 刚才 我 不是说 S F T 里面 大有可为。 假设 你 收集 了 足够 用户 删除 的 数据, 你 就 知道 用户 是真的 不 喜欢 什么。 我 刚才 分类器 他 可以 说 我 只 挑 最好的, 同时 你可以 叠加 另外一个 分类器。 这个 分类器 要 做 的 事情 就是 把 用户 可能 不 喜欢 的 东西 挑出来, 这个 时候 你 就可以 把 用户 删除 这个 动作 转化成 训练 这个 分类器 所要 使用 的 数据。
所以 从 这个 角度, 在产品 层面 我们 做 的 不算 特别 多。 但 sofa 我们 产品 上能 收集 到 的 一些 用户 的 行为, 我们 都能 很 高效 的 把 它 转化成 对 S F D 阶段, D P U 阶段 能有 帮助。 甚至 对 一些 其他 比如说 用户 推荐 非常 有 帮助 的 这样 一个 数据。
我 觉得 我在 观察 其他 的 竞 品, 或者 在 跟 其他 无论是 国内 也好, 国外 也好, 在 做 类似 产品, 类似 场景 的 人 在 聊 的 时候, 感觉 很多 人的 一个 思维 定式 就是说 大 模型 这么 棒, 对 吧? 那 我 就 想办法 收集 一个点 赞 点 赞。 但 我是 觉得 你 要是 现在 很 严肃 的 想要 在 2024年 下半年 再做 这个 的话, 你 应该 去 想想看 你 在产品 上 能够 怎么 更 丰富 的 收集 到 用户 的 这种 反馈, 收集 到 用户 的 这种 互动。 然后 把 它 丢进 你 这个 微调 的 管线 里面。 我相信 是 有 大量 的 低垂 的 果实, 我 觉得 这是 非常重要 的, 能够 产生 一定 差异化 的 点。
明白, 所以 你 觉得 核心 还是 在 数据 上?
对, 就 核心 还是 在 数据 它的 清洗, 它的 收集 里面, 其实 有 很大 的 空间 可以 去做。 而且 我 个人 会 觉得 大家 都 做 的 不是 很好。
这件 事儿 一般 是谁 来 负责 做 呢? 就是 数据 的 时候 进行 清洗, 以及 说 要 定义? 什么 是 好的 数据, 哪句 要 哪句 不要, 这就 应该 是 更多 偏 产品运营 还是 技术 还是 谁。
我 觉得 就 POS 圈里 的 N G 要 做。 因为 实际上 是 我们在 用 的 这些 数据 是 我们 写 的 代码 给 模型 去 建, 就像 刚才 说 怎么 让 模型 只看 A 不 看 B 这 都 是要 实际 的 代码 写 出来 的。 所以 我们是 最 了解 数据 是 怎么 具体 的 被 模型 消化 的 人。 同样 的 我们 也 知道 数据 长成 什么样, 它 能 对模型 有 最好的 效果。 但是 具体 的 数据, 就 比如说 我们 现在 是以 女性 为主 的 平台。 我们在 收集 用户 的 数据 的 时候, 是不是 得 做 性别 做 一定 的 标准化, 对 吧? 其实 这个 他 就 牵扯 到 产品 了, 产品 你 得先 决定 你 调 模型 的 方向 是不是 跟 现在 产品 的 方向 有关, 然后 才能 说 那 我们 就 怎么 去 收集。 但 我 觉得 主体 还是 微调 组 要 去 负责 的。
哼 刚才 讲 的 是从 数据 上, 然后 从技术上, 你 觉得 有什么 在 做 的 不一样的 地方。
可能 还是 多少 是 有 个 先发 优势。 毕竟 我们 以 这个 免费 的 状态 持续 了 很久, 吸引 到了 很多 的 用户。 然后 这些 用户 都有 大量 的 在 跟 我们 进行了 交流。 某种意义 就是 规模 的 暴利。 比如说 其他 公司 想做 个 A B 测试, 至少 动辄 了 要 一周 才能 拿到 足够 的 数据, 我们的 规模 可能 一天 就 够了。 然后 在 这样 一个 能够 快速 迭代 的 基础上, 我们 能够 快速 的 实验。 这样的话 我们 积累 下来 的 这样 一个 know how, 其实 我们 自己 也 不能 完全 解释, 但是 觉得 这 几个 设定 就 恰恰 能够 去 让 用户 喜欢。
有什么 是 相对 能 解释 的, 可以 分享 的 一些 东西 吗? 我 觉得 现在 大家 比较 流行 在 讲 的 几件 事情, 第一个 就是 评估, 对 吧? 大家 都 觉得 说 要把 模型 或者说 模型 相关 的 产品 做好, 最 重要 的 是 说 你 要 有一个 很 好的 评估 体系。 这个 事儿 你们是 怎么做 的?
你 要是 写 代码, 程序 跑 一 跑 就 评估 了。 但 在 人类 对话 这个 场景 下, 我们 就 发现 评估 是 非常 难 做 的。 就 理想 上 情况 就是你 有一个 模型, 它 能 模拟 用户 偏好。 如果 这样的 模型 存在 的话, 那么 你 只要 每次 迭代 一个 新 模型, 你 让 这个 模型 去 对 可能 预先 选 好的 5000句话 出 一遍 答案, 然后 这个 模型 打 个 分 OK 完了 如果 他 分数 上升, 这个 直接 就 生产, 就 不用 想什么。
然而 实际上 这 里面 就 牵扯 到 模型 能不能 模拟 人类, 对 吧? 我们 给他 能够 找到 的 人类 的 对话 数据, 让 他 去 学习 人类 的 可能 的 偏好, 离 真正 需要 的 数据量 缺口 太大。 所以 从 这个 角度 我们 很难 建立起 一个 能够 模拟 用户 的 具体 偏好 的 模型。 我们 有些 所谓 的 用户 偏好 模型, 就是 这种 比较 少 的 数据量 训 出来 的。 但 这个 用户 偏好 模型 现在 并 不足以 强大 到 能够 直接 说 作为 一个 内部 的 评估 集。 所以 我们的 评估 很多 时候 还是 说, 比如说 你 在 S F T 阶段 不是 要 选 很多 所谓 的 高质量 人类 对话。 那么 你可以 说 把 其中 一部分 预留 出来, 这部分 对话 就是 用来 做 测试。 你可以 让 模型 去 续写 这 一段, 然后 看 它 跟 实际上 高质量 对话 本身 的 内容 之间 的 c cross entropy loss, 就是说 相似度 有 多少, 这 作为 一个 小的 评估。
然后 刚才 我说 的 这个 不是 那么 的 准确 的, 人类 偏好 的 模型, 它 可以 去 辅助 评估。 但 就现在 而言, 我不会 说 我们 内部 已经 建立 起来 一套 非常 完善 的 评估 体系。 所以 最终 我们 都 是要 在 生产 里面 走一遍 A B 的。 明白。
然后 另外一个 最近 总 听 的 词 就是 意图 识别 这件 事。 刚才 讲 那个 例子 我 觉得 挺 有意思 的。 就是我 如果 问 一个 问题, 后面 没 带 问号。 理论 来说, 如果 它是 一个 纯 概率模型, 它 应该 是 回 一个 问号 是 概率 最高 的, 就是你 怎么样 去 更好 的 识别 用户 的 意图, 然后 去 针对性 的 回复。
首先 第一点, 就是 怎么 让 他 不 回答 问号。 这个 就像 我 刚才 说 的, 其实 他的 解答 不是 特别 复杂。 你 在 free 的 时候 你 都 可以 去 调整 数据, 让 他 意识到 不是 问号, 答案 会 更好。 比如说 lama 的 3.1和 3.2, 它的 base 版 就 已经 基本 不会 回答问题 了。
但是 你 想要 更加 深入 的, 基本 就 都 是要 postion 才能 把 这个 意图 识别 做得 很好。 比如 直接 我 就说 两个字, 大选。 如果 是 上 一代 模型 做 的 不好 的 时候, OK 我 给你个 维基百科 对 吧? 大选 是什么? 或者 我 勉强 给你 摘抄 几个 新闻。 但是 一个 意图 识别 好了, 他 会 意识到 如果你 现在 在 晚上 十点 去 搜 这个 新闻, 你 大概 的 是 想 看到 现在 两边 的 阵营 最新 的 瓜, 它 会 变成 一个 搜索 行为。
在 文字 模型, 甚至 说 在 我们 cat A I 上面, 就 大量 的 角色 聊天 情况下 也会 有 类似 这样的 问题。 比如说 你 去 问 一个 超级马里奥, 你 去 问 他 你 给我 写 个 hello word, 那 插件 麻料 就 意识到 等一下 这 小子 是 今天 是在 跟 我 开玩笑, 还是 说真的 要 去 给他 写 个 hello word 出来。 如果 他 想 我 写 个 hello word 的, 但 其实 里面 也有 一些 看起来 很 搞笑的 那种 bug, 他 是不是 写 到 这种 东西, 所以 我 觉得 一个 很 贴近 人类 喜好 的 模型, 它 未必 要 做 的 很 完美。 但 它 基本上 是 需要 能够 理解 到 人类 跟 他说 的 这些 话 的 潜在 的 意图, 然后 来 判断 说 他是 应该 严格 的 去 回答 一个 比较 完美的 答案, 还是 有 一种 比较 随意 的 对话 方式, 还是 说 要 触发 一些 外挂 的 一些 工具 来 把 这件 事情 做得 更好。
对, 但 就 比如说 刚才 你说的 一个 例子, 我 只 打 大圈 两个字, 然后 就是 通过 什么 能把 它的 意图 识别 清楚 的。
就是 要 用 上下文。 假设 你 现在 在 这个 时间点 你 打了 大型 两个字, 或许 你 就会 意识到 现在 这个 时间点 是一个 很 特殊 的 时间点。 可能 在 背后 要 调用 一个 搜索引擎 的 能力, 确定 一下 这个 时间点 现在 发生 的 跟 大学 有关的 事情。 然后 把 这里 搜集 来 的 信息 作为 一个 上下文 放给 模型。 模型 会 内部 有一个 用户 看不到 的 这样 一个 输出 的 阶段 去 判。 他说 接下来 用户 希望 得到 的 是一个 新闻 网页, 还是 一句 回答, 判断 完 之后 再去 做 这个 实际上 的 事情。
明白 了, 然后 正好 接着 我的 下一个 问题, 就是 抛开 意图 识别, 就是 在 整个 的 它 交互 过程 当中 的 成本 和 延迟 是不是 其实 也是 postion 决定。
如果你 只是 说 单纯 的 文字 接龙, 延迟 跟 post 圈 的 关系 说实话 不是 很大, 基本 你 就 看你 要 输入 多少 字。 模型 并 不会 说 因为你 post 炫酷 之后, 它 整个 的 输入 的 速度 就 产生 变化, 除非 你 改变 它 整个 模型 的 架构。 成本 的 推理 成本 也 不会 变化, 但是 它 这个 训练 成本 就是你 想做 的 更 复杂 的 S F T 管线, 你 就要 收集 更多 的 数据。 你 一部分 得 收集 用户 的 偏好, 这个 成本 就 没有 太多。 但是 一部分 你 可能 需要 一些 专业 的 第三方 的 标记 公司, 给你 提供 一些 额外 的 不同 领域 的 标记 数据。 这种 数据 成本 其实 在 portion 里面 不算 是 特别 少 的。
但 我也 知道 有些 公司 就是 它 通过 一些 工程 上 的 方法 来 哪怕 说是 trick, 让 大家 觉得 说 这个 东西 的 延迟 没有 那么 高 对 吧? 比如说 他 提前 先发 一段 预制 好 的话, 或者说 他 把 某些 话 它 分成 几个 模型 分别 去 处理 和 发出 来。 我不知道 这个 是 你们 见过 的 比较 常用 的 手段 吗? 或者 有什么 类似的 例子 可以 跟 大家 分享。
这个 我 稍微 凡尔赛 一下, 大家 不要 骂 我, 我们 有 糯米 写字 A 我们 不需要 去 考虑 这样的 事儿。 OK 它 能 保证 可以 说 在 这个 时间点, 我们 推理 延迟 依然 可能 是 业界 基本 是 第一 这个 档次 的。 所以 在 这 之上 我们 就 文字 进去, 让 模型 直接 输出 就 好了。
但是 我们在 语音 上面 需要 做 一点 类似的 这样的 去向, 也就是 语音 模型 基本 是 有 三个 模型 你 绕 不 开 的。 一个 是 A S R 模型, 你就是 判断 你说的 这 句 话 转成 文字, 以及 判断 你 这 句 话 有没有 说完 之后 就 语言 模型, 就是说 你 流量 文字 语言 模型 过 一遍 输出 一个 该 说 的话, 然后 最后 你 得 把 它 还原成 语音。 所以 你 还有一个 T T S 模型, 就 text to speech, 把 文字 转换成 对话 这样 一个 过程。 转换 完 之后 这个 对话 你 为了 能够 让 用户 播放 出来, 你 还得 赶紧 把 它 存 到 互联网 上 某个 地方。 这 一步一步 践行 的 过程, 导致 延迟 是 加起来 的。 可能 说 在 去年 最好的 这样 一套 传统 的 架构, 拼 起来 就 一点 几秒 或者 接近 2秒的 这样 一个 端 到 端的 延迟, 大家 就是 体验 不好, 对 吧?
但是 如果 能够 自己 去 拥有 这 几个 模型 的 时候, 假设 你 说完 第一个 字 之后, air 模型 直接 把 那 第一个 字 丢 给 语言 模型 去做 一个 推理, 语言 模型 直接 把 那 第一个 字 推理 出来, 结果 丢 给 后面 的 ttm 模型 生成 第一个 字 对应 的 语音 的 文件。 不停 的 持续 去做 这样的 事情。 我们 因为 都是 自 研 这些 模型, 都 用 我们 自己 G P U, 有 很多 办法 去 提高 它的 使用 效率。 所以 当你 真的 说完 最后 一个字, 这个 时候 A S R 模型 说 你 就说 说完 了 好, 说完 这件 事 就是 出发, 然后 开始 下游 所有 相关, 比如说 前端 的 动画 或者 后 端的 额外 的 信息处理 全部 都 开始 跑 起来。
这个 时间点 其实 你 该 生成 的 文字 和 后面 该 生成 的 回答 的 语音 都 已经 申请 的 差不多 了。 这 也 是因为 我们 都是 全部 托管 在 自己的 云 服务器 上面, 才能 做到 一个 比较 高效 的 预 生成。 然后 就能 把 延迟 可能 说 在 美国 地区 这边 差不多 0.5 秒 之内 就能 马上 回应 过去。
明白, 有一个 问题 我 觉得 不一定 是 你们的 C A I 会 接触 到 的。 但是 我看 现在 大家 比较 普遍 的 都在 用 多 模型 的 混合。 大家 现在 有的 时候 会 用 最高级 的 模型 去 判断 一个 意图, 对 吧? 因为 这 可能 是 比较 难 的然 再 用 一些 其他 的 模型 去做 一些 生成 之类 的。 我不知道 在 美国 那边, 现在 大家 是 怎么看 这个 问题。
大家 都 不会 在 明 面上 说 的, 共识 就是 open I 基本 就是 这么 做 的对 吧? 大 概率 你 跟 他家 的 GPT 对话 的 时候, 他 背后 其实 是 已经 有 多个 版本 特化 的 模型 在 后面 去 承接 这个 任务, 对 吧? 就是 模型 的 路由 欧派 肯定 是 这么 做 的, 因为你 会 发现 它 在 执行 不同 任务 的 时候, 它 不论是 延迟 还是 这个 内容 质量 是 有一个 明显 大 的 区别。 当然 如果 有 我 朋友的朋友 说, 我们 其实 就 一个 模型, 那 我 觉得 那 太棒了。 OK 但是 就 这种 路由 的 逻辑 其实 非常 reasonable, 就 该 路由。
对, 所以 你 就说 哪怕 是 同一个 模型 里面, 其实 它 也是 分了 几个 不同 的 模型 的对 吧? 所以 你 觉得 未来 大家 在 类似 场景 里面 多 模型 混用 会 是一个 比较 常规 的 操作。
对, 除非 说 哪天 GPT6 或者 cloud 5说我们 这 一个 模型 比 你们 这 两个 模型 做 的 都 好, 而且 价格 还 更 低, 那 我 觉得 何乐而不为, 对 吧?
但 长期 来看, 你 觉得 以 你的 视角, 包括 在 硅谷 的 视角, 大家 对于 模型 未来 的 发展 是 会 怎么看?
在 o one 出来 后面 这 几个 月 的 时间点 里面, 就 整体 还是 很 乐观 的。 O 一 这个 证明 说 模型 的 迭代 还有 额外 的 路线 可以 走, 可以 继续 对 更多 的 推理 式 的 算 力 去 让 它 性能 提升。 然后 好像 训练 的 时候 也有 一些 新的 这种 技巧, 新的 方法, 可以 再 往里面 研究 一下。
我 这个 时候 其实我 想 讲 的 就 o one 延伸 出来 的 一个 我 其实 很 积极 的 看待 这件 事情 的 角度。 就 欧派 他 自己 在 博文 里 的 时候, 他们 欧冠 做得 很 好的, 就是 有 这种 明确 答案 可以 验证 的 过程, 写 代码、 解 数学题、 解 物理题。 但是 一旦 放到 写作, 它 其实 跟 40基本 就是 不相上下。 你 要是 再 扩展 到 其他 领域, 扩展 到 人类 对话, 扩展 到 很多 这种 没有 明确 答案 的 情况下, 你 要 怎么 去做? 我 觉得 O 一 其实 某种意义上 它是 证明 了 在 computer time 你可以 做 很多 的 优化。 你 不用 天天 就 只看 训练 时间 的 这个 computer, 你可以 在 推理 的 时间 computer 来 让 模型 产生 一些 新的 能力。
这 里面 其实 最近 在 twitter 上 有一个 很 有意思 的 项目, 叫做 anthropic E N T R O P I X。 他在 做 的 其实 大家 可以 探索 一下, 他是 github 的 一个 rapper 他们 在 推理 的 时候 做了 很多 的 额外 的 采样。 就在 推理 的 时候 模型 会 生成 几个 答案, 然后 采样 的 时候 我 选 哪个 答案。 这个 过程 他们 做了 很多 的 动态 的 数据 调整。 他说 我 选 答案 的 时候, 其实 有 大量 丰富 的 信息 来 辅助 我 怎么 选 一个 更好 的 答案。 他 做了 很多 的 优化, 最后 做到 结果 是什么 呢? 他 拉玛 一个 一 逼 的 模型, 能够 很 好的 回答 9.1和 9.8 哪个 更大。
很多人 就 觉得 这 是不是 有点 过 拟合, 或者 是 有点 magical, 是不是 骗子。 但 其实 有 很多 我 很 认可 的 推 特大 V 也 在 很 认真 的 看 这个 rapper 的 过程。 现在 大家 把 这个 技术 尝试 运用 到 70B想说 这个 70B能不能 因此 有一个 非常 强大 的 采样 的 逻辑, 来 让 他 拥有 类似 思维 链 的 这样 思考 过程。 这 是一个 很 有趣 的 过程。 就 open I 的 方向 就是 告诉你 在 推理 的 时候 大有可为, 它 未必 得 是 单纯 的 烧 GPU。 或许 几百个 答案, 也许 只是 说 这个 G P U 可以 用 在 别的 地方, 这 是一个 方向。
另外一个 方向 其实 还是 我 刚才 提到 的, 人类 对话 的 思维 链 到底是什么? 一个 很 简单 的 例子 就是说 你 跟人 打字? 你 会 打了 山 可能 会 撤回。 其实 人类 对话 里面 这种 行为 天天 都在 发生。 大家 都在 想 我 这 句 话 怎么说 能 让 他 觉得 最 有意思? 他 一直 在 前进 后退, 最后 决定 说 这 句 话 大概是 比较 有意思 的那 这种 思维 链 有没有可能 让 模型 学会 呢? 现在 你 在 跟 模型 去 产生 这种 陪伴 对话, 产生 这种 感情 对话 的 时候, 模型 其实 基本 就是 直 树 对 吧? 那 有没有可能 说 让 模型 学会 类似 O 一 的 这种, 他 内部 也 去 想 几十个 回答, 觉得 这 句 对话 可能 会 让 该 玩家 友好度 加 5, 另外 一 题 的话 可能 会 让玩家 友好度 减 2, 但是 这 句 话 之后 的 20句话 可能 好感度 会 增加 100。
我 觉得 这 是一个 非常 开放式 的 问题。 我自己 现在 在 尝试 做 一些 探索, 探索 的 结果 就是 我会 发现 模型 的确 会 产生 一些 很 奇妙 的 感觉, 这 不像 直接 一次 性能 出现 的 回答。 所以 OpenAI 至少 他 告诉 你说 这 是一个 方向, 大家 值得 去 研究 一下, 用 R L 去 辅助 模型, 去 获得 更强 的 回答 人类 对话 的 能力, 那么 大家 就 去 探索 呗。
当下 硅谷 那边 有没有 一些 非 共识 或者 共识 的 一些 认知, 或者 特别 火 的 一些 产品 公司 之类 的。 你们 日常 在那边 经常 聊 的 都是 啥?
尤其 最近 简单 的 一句话 总结 的话, 偏 产品 的 A I 公司 现在 基本 都在 多 模态 方向, 看 怎么 去 赚钱。 然后 偏 算法 的 公司 基本 就在 想 o one 到底 是 怎么 串出来 的, 或者 类似的 one 方式 我 怎么 复制, 或者 我要 不要 在 推理 的 时候 堆 一些 额外 的 技巧 让 它的 效果 更好。 然后 两边 的 公司 有 个 潜在 的 共识, 就是说 类似 就 google 宣布 过 的 12月 要 发 的 那个 java is 对 吧? 这种 交互式 的 agent 可能 会 在 接下 一年 里面 有 很大 的 可能性。
非常 的 精炼 且 准确 且 有 深度。 我们 捋 一下 你说的 第一个 有意思 就是现在 大家 都要 做 多 模态, 而且 在 多 模态 的 同时, 你说的 是 他 还是 为了 要 赚钱, 对 吧?
对当 你 不能 再 讲 基础研究, 或者说 我在 等 基础研究 这个 趋势 之后, 投资人 也好, 你 自己 公司 也好, 你 都在 想 我 这个 商业模式 怎么能够 快速 的 运转 起来。 哪怕 不是说 要 赚大钱, 但是 你 要 证明 这个 商业。 模式 不再 只是 那种 卖 流量 或者 烧 V C 的 钱, 去 让 用户 去 体验 一些 东西。
这个 点 我 觉得 跟 资本市场 的 好外 是 相关 的对 吧? 像 国内 这 两年 一直 在 强调 这个 点, 就是 因为 国内 的 融资 环境 是 很差 的。 但 美国 你 觉得 也是 这样 吗? 美国 你 觉得 这 两年 整体 的 资本市场 对 A I 的 热度, 尤其是 偏 一级市场, 你 觉得 是 怎么 变化 的?
前 两年 V C 会给 你 很多 的 信心, 对 吧? 但是 也 是因为 过去 两年 模型 不断 的 能 给 人 新的 惊 探。 现在 这个 时间点 我 觉得 这 瓶 维 C 还是 整体 来说 信心 很 充足 的。 但 同时 他 会 希望 你 能 更加 脚踏实地, 不用 再 讲 特别 虚的 那种 等 这个 技术 等 那个 技术 的 缺口, 而是 希望 说 你 这个 模式 的确 是 一开始 就 比较 make .
sense 的 OK 所以 我 能不能 理解 说 那边 的 融资 环境 在 过去 的 两年 里面, 也是 在 逐渐 可能 更 务实 也好, 或者 是 变差 也好。
对, 肯定 是 这样。
OK 另外 就是你 讲 的 第一条 线, 它的 多 模态。 当你 提到 多 模态 的 时候, 你 想 的 更多 的 是 什么样? 多 模态 是 文字 加 语音, 还是 文字 加 视频, 还是 都 混 在一起。
还是 怎么样? 我 讲 的 是 都 混 在一起, 说 简单 的 就是 跟 你 现在 产品 的 主要 模态 不一样的。 另外一个 模态, 因为 现有 的 模态 下, 无论是 增长 还是 商业化 好像 都 见 顶 了, 故事 也 讲 不 起来, 用户 的 增长 也就 停滞 在 这。 所以 都会 想说 我 适当 的 选 哪一个 模态。 可能 有的 模态 就 成熟 点就 图片 的 模态 成熟。 但是 有的 模态 给 人的 想象力 更 强大, 比如说 视频 模态 或者说 notebook L M 那种。 所以 在 这个 时间 点选 哪 一种 模态 会 比较 好, 能够 发挥 这个 产品。 现在 有的 用户量 已经 有了 这个 momentum, 然后 能够 快速 切入 到 一些 新的 快速 的 能够 获得 一些 利润 的 场景。 我 觉得 A I 产品 现在 很多 都在 考虑 这个 OK 明白。
所以 第一种 就是 多 模态 的 产品。 然后 第二种 是 算法, 算法 反正 就是 追赶 最 领先 的 模型, 对 吧?
对, 就 研究 能不能 追, 怎么追, 然后 数据 要不要 追, 然后 这条 路线 现在 看起来 还有 一些 可能 的 果实 可以 摘 一下。 明白。
我知道 之前 一段时间 你 也 聊 了 很多 硅谷 当地 的 各种 初创 公司, 那 你的 感受 是 怎么样?
就 感觉 业界 现在 越 来 意识到 postion 对于 每一个 产品线 的 重要性, 以及 postion 人才 他的 技能 树 会 点的 很 宽。 它是 左边 是 钢 锤 圈 好 出来 的 一个 勉强 能 说 人 话 的 模型, 右边 是 用户 特别 喜欢, 然后 他 越 喜欢 用 模型 会 变得 越 好的 这样 一个 终极 的 形态。 这 中间 可能 全 是 POS 圈 的 领域, 各种各样 的 公司 来 下去 发现。 不论是 模型 的 研究 的 也好, 或者 做 一些 企业 服务 这种 agent 的 也好, 又 或者说 还是 偏 陪伴、 偏 感情 价值 或者 偏 娱乐 的 也好, 都 会有 对 候选 管线 很大 的 需求。
你 面试 的 你 最 印象 深刻 的 几个 公司 是什么?
肯定 是 科 sir。 我 上来 就说 我可以 用 curse r 吗? 他说 可以, 那次 面试 我 就 很 记忆 深刻。 他 给 了 一个 链接, 下了 一个 文件, 然后 他说 这个 文件 是 他们 实际上 生产 在 用 的 相关 的 逻辑 的 一个 实现。 他 也 告诉我, 他 故意 加 了 一个 bug, 导致 这个 程序运行 起来 很慢, 然后 让 我 去 找 bug。 然后 当时 就说 我 试试看。 问 科。
你 在 面试 科 sir 的 时候, 然后 问 科 sir 能 不能用 科 sir 是 吧?
对对对, 就现在 A I 公司 很多 面试 的 流程 就 更加 强调 实战 了。 大家 是真的 很喜欢 快速 的 coding, 快速反应, 快速 的 让 你 去 使用 一定 的 A I 工具, 能够 短期 的 写 很多 代码, 短期 的 分析 代码。 他 甚至 允许 你 直接 问 科室 这个 bug 可能 在哪。 但是 他 会 考验 说 你 这个 问题 问 的 好不好。 他 不会 给你 很多 的 时间 说 你 就 反复 去 试错。 你 一开始 上来 问 的 第一个 问题, 就能 证明 你 作为 一个 大 模型 从业员 本身 的 素养。
我 觉得 现在 哪怕 是 说有 一定 算法 成分 在 里面, 面试 对于 正解 这个 过程 的 追求 已经 不是 那么 重要 了。 但 这 对于 你 这个 解题 的 过程, 这 是你 很难 让 AI 去 帮你 去 模拟 出来, 对 吧? 你 得 去 表达, 你 得 去 分享 你的 思路, 这些 都 是你的 人性 所在 的 部分。
就现在 我 要是 碰到 一个 题目 会 觉得 好 难, 可能 三五年 前 我 觉得 完蛋了。 今天 这 面试 没 搞错, 我 现在 其实 就 挺 自信 的。 我 就说 那行, 那 我 就 来 硬着头皮 上上 看, 我会 把 自己 能 想到 的 东西 都 分享 给他。 我 甚至 会说 能 不能用 A I coding, 能 不能用 编程 助手。 或者 如果 对方 允许 我 用 google 搜索, 我会 直接 把 我 搜索 的 思路, 搜索 的 过程 全部 展现 给他。 我会 告诉你 这就是我 加入 你的 公司 之后 我的 工作方式。
你 觉得 你 在 跟 所有人 聊 的 过程 当中, 不管 是 面试 被 面试, 你 觉得 你 听到 的 最好的 几个 问题 是什么?
我想看 因为我 面的 很多 都是 接近 founder, 所以 被问 的 不多。 但 让 我 印象 很 深 就是 他 会 问我, 你 觉得 我们 这个 idea 有 多 不 靠谱? OK, 我 还 蛮 喜欢 回答 这个 的, 因为 说实话 我第一 反应 都是 我是 觉得 不 靠谱 对 吧? 然后 就会 展开 一系列 的 攻防 问答。 实际上 在 这个 过程中, 比如说 我在 to c 那个 领域, 最后 剩下 的这 一家, 我 甚至 都 觉得 有点 不礼貌 了, 天天 质疑 人家, 没事 就 微信 说 我 觉得 你 这个 东西 还是 不 靠谱。 但 我在 这个 过程中, 我 就 越来越 觉得, 他们 看到 将来 这个 vision 是真的, 我 能 慢慢的 理解, 所以 其实 我很喜欢 这 一类 的。
如果 你是 作为 面试官 去 面试 post training 的 人, 你 最 主要 会 问 他的 几个。
问题 是什么? 可能 最 想 会 问 的 是 给他 两篇 paper, 就会 提前 给他, 让 他 跟 我 现场 讲解 一下 这 篇 paper 里面 可能 的 问题 是什么。 我 大 概率 会 找 两三篇, 我们 可能 就 内部 试验 过, 知道 这 篇 paper 其实 是 有 一些 缺陷 的。 但 我想看 这个人 有没有可能 就 只是 通过 读 这 篇 paper 能 感觉到, 我说 哪怕 擦 到 边, 我 觉得 也可以。 就是 这种 对于 paper 的 美感, 我 身边 遇到 过 的 研究员 对 paper 的 美感 的 判断 都 非常 好。 他 基本 不用 读 特别 多, 或者说 他 读完 之后 一遍, 他 就能 感觉到 有 哪些地方 是 不太 对劲 的, 而且 是 那种 直觉性 的。 然后 你 之后 可能 写 个 代码 或者 拿 点 数据。
才发现 好像 是真的 对的 OK。 然后 最后 硅谷 相关 的 一个 问题, 就是你 觉得 华人 现在 在那边 到底 是一个 大概 什么样 的 状况? 就是 华人 做 A I.
我 觉得 这 可能 是 过去 很多年 你们 华人 最好的 机会。 甚至 是 说 在 移动 互联网 之后, 包括 在内 之内 都 可能 说是 华人 最好的 时机。 因为 从 一些 客观 的 事实 来说, open a 也好, 很多 这种 大型 的 模型 公司 也好, 或者 很多 A I 的 创业 公司 里面, 你 会 发现 华人 比例 是 极其 高 的。 我会 相信 既然 有 这么 多 的 华人 愿意 去 下场, 甚至 很多 在 大厂 里面 待 了 很多年, 对 吧? 其实 完全 可以 继续 在 那儿 稳固 的 拿着 极高 的 薪水, 就 慢慢的 退休 的 人, 现在 也都 下场, 都 觉得 这 是一个 特别 好的 机会。
在 这个 过程中, 我是 相信 这样的 一个 趋势, 能 让 更多 的 华人 产生 进 到 更有 影响力 的 地方。 比如说 在 B 站 做了 一个 技术 分享 的 翁 沥, 之前 是 open I 的 安全 的 副总裁。 我是 相信 像 这样的 华人? 在 这种 核心 的 圈子, 最前沿 的 地方 去 持续 创业, 或者 作为 企业 的 高 管, 能 对 接下来 的 华人 的 发展 都 会有 一个 特别 大 的 帮助 作用。
现在 很 出风头 的 就在 to c 这边 落地 非常 成功 的 AIGC 的 start up, 它 都是 华人 为主 的 核心。 你 就 不会 否认 这个 事实, 就是 华人 在 产品化 上面 就是 有一个 很强 的 能力, 完全 不输 其他 族裔 的 人。 所以 我是 特别 喜欢 现在 我们 所处 的 这个 气氛。
对我 在 美国 去 meta 的 食堂 吃饭, 然后 回头一看 基本 是 百分百 中国人, 而且 基本 坐满 了 不是 游客, 就 真的 就是 meter 员工。 那一瞬间 我 觉得 好 夸张, 感觉 回到 大学 食堂 的 感觉。
对我 觉得 就是 时代 现在 这个 时代 特别的 match 到 我们 华人 在 硅谷 的 各种各样 的 学术 上 的 或者 特别 努力 的 这些 优势。 然后 就 一拍即合, 就 导致 了 大量 的 华人 在 这些 公司 里面 都有 很 好的 机会。 而且 我是 相信 对于 两三年 三五年 之后, 你 像 OpenAI, 可以 说 每一次 回购 都有 一小 批 的 人 就会 财富 自由。 这些 人 就会 慢慢 分散 到 硅谷 去 创建 自己的 公司, 或者 培育 新的 团队。 这些 都是 将来 华人 能够 在 硅谷 有 自己的 立足之地, 有 更大 的 影响力 非常 必要 的 条件。
可以 这个 低 一下子 就 高 上去 了。 OK 我 最后 问 一个 问题, 其实 我们 全程 辽 C I 的 时候, 你 经常 说 我们 C A I 我们 C 我 感觉 其实 你 还是 很喜欢 C E I 这家 公司, 而且 他 过去 这一年 多 肯定 也 带给 你 很多 东西, 对 吧? 对, 所以 你到底 为什么要离开 C I 呢?
我相信 我在 C I 积累 的 东西, 能够 在 一个 不同 的 平台 造福 更多 的 人。 虽然 这话 听起来 有点 大, 有点 假, 但 我是 真心 的 觉得 我 能为 全人类 做 更大 更好 的 贡献。