cover of episode 这个男人帮 5 万个 AI 应用接上了大模型 | 对谈 Dify 创始人路宇

这个男人帮 5 万个 AI 应用接上了大模型 | 对谈 Dify 创始人路宇

2023/8/19
logo of podcast 42章经

42章经

AI Deep Dive AI Chapters Transcript
People
曲凯
专注于推动AI应用创业领域的发展和分享行业见解的“42章经”创始人。
陆宇
Topics
陆宇详细阐述了LLMops的概念、与传统Devops的区别以及在Dify平台中的应用。他指出,基于大模型的应用开发需要持续迭代,并强调了用户反馈的重要性。陆宇还比较了prompt service、基于私有数据的应用和微调模型三种应用开发方式的优劣,并深入探讨了prompt工程、embedding技术以及agent技术的应用场景和挑战。他分析了LangChain的优缺点,并介绍了Dify平台如何解决prompt工程难题,以及未来如何通过工具和模板来降低prompt工程的难度。此外,陆宇还分享了Dify平台上5万多个应用的典型落地场景,并对大模型的局限性(如上下文窗口长度、成本、推理质量、工具质量等)进行了深入分析。最后,陆宇对未来大模型的发展方向(多模态、模型小型化、数据向量化)以及个人助手的入口等问题进行了展望,并表达了对模型发展速度的担忧。 曲凯作为访谈主持人,引导陆宇深入探讨了LLMops、prompt工程、agent技术、LangChain等关键概念,并就大模型的落地、局限性、未来发展方向等问题与陆宇进行了深入交流。曲凯还分享了他对陆宇个人、中间层创业机会以及大模型应用发展趋势的看法,并对Dify平台的价值和未来发展方向进行了总结。

Deep Dive

Chapters
LLMops 指的是基于大模型的应用开发和运营一体化,强调持续迭代和快速反馈。与 DevOps 中的运维更关注应用的可用性和性能不同,LLMops 中的运营更偏向于业务人员参与 AI 应用的塑造和定义,将他们的经验融入到大模型中。
  • LLMops 衍生自 DevOps,强调持续迭代改进。
  • LLMops 中的运营面向更多人,包括业务人员、运营人员等。
  • Dify 是一个基于大模型的应用开发技术栈,包括开发框架和运营工具。

Shownotes Transcript

上面 你 在。

我们 今天 请 到 的 嘉宾 是 defy 创始人 陆羽。 陆羽 是 我们 上半年 合作 的 钻石 客户 项目, 也 算是 合作伙伴。 我 上半年 自己 看到 的 A I 里面 最 喜欢 的 项目 之一, 也是 市场上 很多人都 非常 喜欢, 名气 还 蛮 大 的 一个 项目。 我们 定位 其实 叫 LLM off。 那你 给 大家 大概 解释一下 这是什么 电影。

L M ops 其实 这个 概念 很显然 是 衍生 自 原来的 devo s 我 原来 就是 做 devo s 产品 的, 我在 开发者 工具 这块 东西 可能 做了 五六年 的 时间。 传统 的 devo s 它 指的 是 软件 的 研发 和 运营 一体化, 是 说 你的 运营 过程 是 持续 迭代 的 和 开发 之间 是 快速 反馈 的。 到了 现在 大 模型 的 背景 下, 自然 我的 背景 会 去 想 一个 基于 大 模型 的, 我们 说 它是 A I 原生 应用 也好, 或者 什么 应用 也好, 它 背后 需要 哪些 运营 过程。 我们 认为 这里 L M O S 和 devo s 它 有一个 最 接近 的 一个地方, 就是 它 都 有一个 需要 持续的 迭代 改进 的 一个 过程。 也就是说 你 想 基于 A I 去做 一个 应用。 如果你 不去 接受 市场 的 用户 的 快速 的 反馈, 去 纠正 你 原来 无论是 prompt 也好, 你的 这个 agent 也好, 模型 也好, 去 改进 它 的话, 它 就 没有 办法 去 达到 你 想要 预期 的 那个 结果。 所以 它 不是 和 传统 软件 研发 一样, 那种 瀑布 的, 就是 一次性 干 三个月, 然后 就 上线 了 那种, 所以 这是 区别。 所以说 define 这个 m offs, 也就是说 我们是 一个 基于 大 模型 的 应用 开发 的 一套 完整 的 技术 栈。 既 包括 了 一个 开发 框架, 也 包括 了 一个 运营 工具。

Defy 我 觉得 很多人 第一次 听会 误认为 是 那个 web 3的那个 defy, 其实 是 D I F Y.

其实 我们 就是 do IT for you, 而且 这个 名字 是 GPT 帮 我们 起 的。

对, 所以 其实 就是 develop 加 Operate, 就是 研发 加 运营。 完了 像你 刚才 讲 传统 的 develop, 它 其实 也有 of 运营 那 部分, 对 吧? 那个 的 运营 跟 现在 的 这个 大 模型 的 运营 的 区别 是什么?

在 传统 的 devaux 里, 这里 的 运营 其实 翻译 过来 应该 不 叫 运营, 叫 运维。 他 运维 指的 是 偏 基础设施 的 服务器 监控 可用性, 它 本质 上 更多 的 是看 一个 叫做 应用 的 可用性, 性能 好不好。 但是 我们 到了 m ops 的 时候, 我们 去 定位 这个 ops, 我们 把 它 定位 是 更 偏向 于 运营。 因为 我们 这里 的 运营 指的 是 说 很多 非 技术人员 去 参与 到 一个 A I 应用 背后 的 塑造 定义 的 过程中。 因为 我们 相信 A I 应用 绝对 不是说 像 原来 一样, 少数几个 工程师 然后 写 完 之后 就 上线, 它 就 定型 了。 他 实际上 有 大量 的 懂 业务知识 的 业务人员、 运营 人员、 销售 人员, 各种各样 的 人员, 对 吧? 他们 把 他的 经验 去 灌 到大 模型 里面。 所以说 我们 认为 这个 office 是 向 更 多人 去 开放 的 一个 概念。

现在 你们 应该 算是 这个 领域 的 绝对 第一名, 就是 几个 指标, 一个 是 现在 的 youtube star 应该 到 快 7000了。

对, 我们 差不多 从 五月 中旬 开园 到 现在 有 七天 star。 我们我们 的 那个 安装 数, 我们在 docker 镜像 拉取 这个 安装 数 也能 看到, 差不多 有 一万 外面 有 一万多个 安装 的 这个 私有化 部署 的 版本。

Docker 1万安装 数 是什么 意思? 我 今天 会 扮演 听众 的 角色, 所以 有的 问题 我 觉得 大家 不太 理解, 我会 问 一下。 好的, 其实 是 我也 不太 理解。

简单 来说, 你可以 理解 为 我们 defied 私有 云 的 版本, 被 打包 成了 一个 镜像 或者说 压缩包。 你可以 理解 为 压缩包, 这个 压缩包 我们 可以 跟踪 到 下载 的 次数。 它 下载 不是 这种 简单 的 浏览器 下载, 它是 通过 一个 命令 下载, 它 必然 是 会 安装 到 它的 服务器 上 的。 O K 那 类似 于 一种 下载 调用 的 感觉, 你可以 理解 为 define 在 外面 有 接近 一万多 的 私有化 的 安装 数, 以及 说 我们 公有 云 的 云 服务 版本, 现在 能 看到 4万多个 应用。

真的, 大家 用 它 做出来 的 大 模型 的 应用。

对, 因为 我们 今年 也 看 了 很多 A I 产品, 我们 前面 几周 也 在 跟 用户 一直 做 直面 会, 或者 各式各样 的 活动。 我 发现 define 受众 开发者, 它的 质量 是 非常 高 的。 第一 是 他们 跟 我们 讨论 非常 严肃 的 问题。 他们是 想 拿大 模型 的 能力 去做 各种 的 应用 开发 投产, 无论是 面向市场 的 创业, 还是 说 卖给 甲方, 还是 说 满足 公司 里 的 各种 业务 需求。 哪怕 仅仅 是 一些 实验性 的, 都是 非常 严肃 的 情景 和 严肃 的 需求。

其实 是 自从 比赛开始, 我们 才 比较 关注 github 这个 平台 的。 我们 之前 其实 看 开源 干什么, 这些 不多, 我 其实 自己 特别 喜欢 github 的。 现在 我 觉得 里面 真的 是 有 很多人 在 无私 的 奉献, 而且 他 可以 收到 很多 全球 的 正反馈, 大型 同性交 友社区。 对, 我们 现在 也会 经常 每天 去 扒 一下 说 哪些项目 他 得了 多少 stars, 对 吧?

Defy 当时 我记得 是 我们 聊 的 过程 当中 上 点, 然后 几天 就 冲 到了 大概 两三千 还是 34。 对, 我们是 差不多 一周 充到 3000。 是, 但 你们 其实 也 没 做 太多 的 运营 动作, 我们 真的 除了 发 twitter 就 几乎 没有 做 运营。 那 你的 twitter 就 我 就 几百 粉丝 还是 多少 粉丝, 现在 是 有 好几千, 我 说话 都很 小心。 对对对, 你 说话 一定要 小心。

但 后来 我们 听说 其实 给 hub 上 还 也有 基于 star 的 S E O。 我们 之前 其实 有 两年 看 消费 品牌, 不管 是 跨境 还是 什么 也好, 我 发现 有有 就是 刷 单, 刷 空包。 Github 上 现在 其实 很多 投资人 也会 去 看, 对 吧? 去 用 sas 来 衡 培养 一个 四大 驱动 开发。 对对对, 这个 是 事实, 现在 真的 是 有 很多 基于 github 的 S E O 去做 啥。

我 就会 收到 很多 邮件, 老外 的 或者 什么 印度 的 哪里 给我发 什么, 你 给我 多少钱, 我们 可以 帮你 刷 到 多少 的, 我 确实 收到 过 很多, 我没有 理 他们 而已, 我也不知道 做 这个 事儿 太大 了, 我 肯定 不敢 做 这个 事儿。 Github 现在 的 star 是 有 水分 的, 因为 今年 本身 A I 就 给他 注水 了, 不同 题材 的 项目 也 不能 放到 一块。 比 这种 全 自主 agent 的, 它 自然 比 我们 这种 什么 I M ops 的 品类 可能 要 回 一个 档次。

它 其实 就 跟 文章 是 一样的, 对 吧? 你是 一个 热点 主题, 自然 人流量 就是 高 的对。

但是 有 别的 手段。 比如说 我们 看 一个 项目 可以 看到 别的 数据 跟 它 这种 惯常 性 的 在 用 的 数据 关联。 比如说 我们 看 我们的 镜像 被 拉取 的 次数。 如果 是一个 python 项目, 可以 看到 python 包 的 被 拉取 的 次数。 什么 N P M 的 也会 有 N P M 前端 的 包 的 拉取 次数。 看 这些 数据 会 比 单纯 的 看 star 要 靠谱 一点。 你可以 看一下 google 上 搜索 的 趋势, 几个 数据 要 结合 到 一块儿 去 看你 能 更 反映出 这个 数据 的 现实。

因为 github 上 有 很多 开发者 用户 是 今天 打开 一个 项目 刷 一遍, 太 牛逼 了, 点 下心 就 跟 浏览器 里 收藏 一下, 然后 关掉 了, 这是 很多 人的 行为 模式。 第二 是 github 它 本身 有 马太效应, 它 有日 榜、 周 榜、 月 榜。 强者 越 强, 就是你 上了 榜 之后, 你 会 突然 又又 增量 一部分, 这 都很 正常。

对 那 我们 反正 今年 看 了 很多 项目, 所有人 基本 也都 在 问。 说到底 现在 市场上 真正 能 落地 的 A I 项目 有什么? 我不知道 在你看来, 因为你 上面 有 这么 多, 你说 四万多个 应用, 对 吧? 里面 到底 有没有 哪些 规律 或者 什么 是 靠谱。

的 之类 的, 我们 一层 一层 往 下 看啊。 首先 是 模型 层面, 模型 层面 现在 我们 看到 的 是 OpenAI 明显 是 模型 领域 的 领军者。 它 无论是 在 模型 能力 上, 还是 我们 说 A P I 接口, 也就是说 它 提供 的 功能 上都 会 比 其他 模型 要好 出 这么 一大截, 可能 是一个 八十多 分 的 水平。 第二名 可能 cloudy 或者 其他 的, 可能 就是 在 六七十 分 的 水平, 离 他 有 一定 差距。 然后 我们 还能 看到 很多 拿 开源 模型 的 这种 拉玛 什么的, 各种 去 折腾 这些 的 都有。 但是 我们 认为 首先 你 想 现在 去做 一个 离 生产 离 落地 最近 的, 首选 的 是 OpenAI 的 模型。 当然 咱们 今后 可以 换掉。 比如说 你 看到 更好 的 国产 的 或者 开源 的 模型, 可以 换掉 这个 模型 层。

你 接入 进去 之后, 你 紧接着 就会 去 定义 你 这个 应用。 我们 现在 从简 到 复杂, 可以 把 这个 应用 的 中间 的 服务 层 可以 定义 几个 级别。 最简单 那是 说 我们 叫 prompt a service, 它是 由 几个 简单 的 prompt 组成 的。 比如说 你 想 去做 一个 文法 的 纠正, 或者说 评论 的 积极 还是 消极 这种 分类, 这是 大 模型 的 基础 能力, 这 是一种 应用, 这种 显然 它 不能 去 作为 独立 的 应用 去做。 它 可能 是你 原来的 应用 的 增强, 或者说 你可以 把 它 封装 成 产品化 的 应用。 比如说 jasper 人家 听说过 帮你 大量 做 这种 市场 文案 这样的 应用, 这是 我们 见到 的 最简单 的 第一类 应用。 然后 再 往 上 基于 私有 的 数据。

因为 大家 知道 这个 OpenAI 这样的 模型, 大部分 数据 是 截止 到 2021年 的。 我们 就 会给 他 去 提供 这个 私有 数据 搞进去 的 这个 方法。 让 大 模型 了解 一个 私有 的 数据 有 两种 方式, 一种 是 说 微调 这个 模型 本身, 另外一个 就是 做 模型 的 evidence。

模型 的 emda 就是 一种 把 私有 内容 嵌入 到 prompt 里 的 一种 也 叫 prompt 工程 的 一种 方式。 它 基于 大 模型 现有 的 能力, 再加上 一个 大家 理解 为 一个 外脑 去 集成 你 各种 的 私有 各种 的 知识库 搞进去 去, 这 是一种 方式。 这样的话 你的 能力 大 模型 的 回答 的 问题 就 不仅 限于 它 现在 有的 东西, 而 带有 了 你 自有 的 体验 类 的 或者说 一些 知识。

但 emda 这 一步, 私 有的是 什么时候 去 调用 的 呢? 它 跟 prompt 的 区别 具体 是什么?

Emd ding 你可以。 理解 为 它是 用户 或者 开发者 调用 大 模型 前 的 一个 prompt 的 组装 过程, 我们 叫 event 嵌入。 其实 嵌 在 prompt 里 的, 比如说 你 现在 拿 GPT 这样的 接口, 可能 有 8K对 吧? 8K的 这么 一个 talk。

比如说 我们 大 模型 说 今年 曲 凯 老师 做了 哪些项目, 对 吧? 那大 模型 是 不知道 这个 能力 的。 但是 在 回答 这个 问题 之前, 其实 像 defy 这样的 产品, 我们 就 巧妙 的 把 你的 这个 问题 和 我们 已经 有的 向量 数据库 或者 其他 关系数据库 里面 的 各种 数据 去 组装 成 一个 完整 的 问题。 就是说 可能 组装 成 其他 老师 是谁, 对 吧? 他 今年 我们 搜索 到 今年 在 做 的 项目 是 可能 有 哪些, 用户 问 了 什么 问题, 这 几个 东西 拼成 一个 更长 的 一个 prompt 给 到大 模型 之后, 大 模型 基于 这些 信息 去 做了 一个 文字 的 生成 过程。 这样的话 他 基于 所有 已知 的 信息 来 好好的 回答 你 这个 问题。

调用 的 信息 对于 大 模型 来讲, 它 其实 它 就是 prompt 的 内容。 对他 来说 只是 一个 prompt, 所以 有可能 对他 讲, 他 觉得 这个人 发 了 一段 超长 的 prompt.

你可以 这么 理解, 没有 问题。 对, 只不过 说 我们 把 它 叫做 prompt 工程 的 原因 是我 刚才 说 的这 过程 很 简单, 但 实际 在 做 的 时候 会有 很多 工程 细节, 比如说 一个 8K的 prompt, 因为 一共 有 8K, 是你 就得 知道 说 我 得 命中 什么 词儿, 命中 什么样 历史 的 私有 数据 塞进去 在 多少。 比如说 一个 8K的 这个 上下文 指的 是 用户 提问 占 了 一部分, 然后 你 命中 的 信息 占 了 一部分, 一条 也是 五条 也是 十条 也是 多少。 然后 还要 给他 回答问题 预留 出 prompt, 就是 总共 的 容量 是 8K那么 这里 字符 或者说 talking 的 分配 就 会有 很多 工程 问题。 明白, 这里 还没有 涉及到 向量 数据库 的 部分, 这里 实际上 用到 了 向量 数据库。 对, 就是 evidence 其实 会 用到 向量 数据库。 对, evidence 本身 不用, 但是 evidence 搜索 到 的 一些 自有 的 数据 是 用到 了 向量 数据库 库 的 相似度 匹配 的 一种 功能。 它 有点 类似 于 搜索引擎, 但 又 不太 一样。

对它 核心 也是 为了 节省 8K的 token 对 吧? 我可以 这么 理解 对 吧? 是的, 你 再 回到 刚才 你 讲 另外 一条, 就是 三 的 微调 对 吧? 但 好像 微调 我 觉得 一开始 的 时候 大家 来讲 的 比较 多。 我们 记得 我们 2 3月 比较 早期 的 时候 聊 相, 大家 都 问 说 你们 是不是 fine too fine to find? 后来 好像 越来越少 人 讲 了。

坦率 讲 我们 做 理发 这个 项目, 刚 开始 我 甚至 不 叫 define, 我记得 当时 叫 A I timer, A I 驯兽师。 当时 我们 最早 定义 项目 的 时候, 其实 我们 就 想做 翻车。

因为 我们 觉得 这个 名字 还 挺 烂 的。

特别 烂。 对 但 当然 很 早期 很 概念 期, 我们 认为 说 想 把 大 模型 塑造成 自己的 样子。 因为你 想 在 2 3月 那个 比较 早期 的 时候, 每一个 开发者 看到 大 模型 的 时候 都 非常 兴奋, 想 我是 造物主, 可以 去做 一个 自己 想要的 这个 AI 一个 形态 出来。 第一 想到 的 就是我 可以 去 调整 模型, 微调。

但是 微调 这个 事儿 不太好 操作。 第一个 是因为 他 要求 的 数据量 蛮 大, 而且 要求 许多 的 Q A 形式 的 样本。 比如说 我想 让 大 模型 知道 徐凯 老师 是谁, 那么 想 让 大 模型 知道 这个 数据, 基本上 要 这个 问题 换 着 花样 问问 20遍, 再 换 着 花样 回答 20遍, 再 交给 他, 就 灌进去, 他 可能 才能 达到 这个 效果。 其实 这个 数据 准备 的 过程中 非常 麻烦, 因为你 可能 就 没有 这样的 数据。 你 可能 胡编乱造 或者 来自 用户 的 回答, 你 得 有 这个 数据。 而且 你 让 他 学习 更多 东西, 你 就得 有 更多 这样 数据。

还有 一个点 就是 微调 的 时候, 实际上 是要 把 一个 模型 去 加载 到 你的 G P U 显存 里面 的。 就是 它 非常 吃 资源。 所以说 如果说 你 自己的 开源 模型, 如果你 要 做 微调, 你 可能 需要 运行 那个 模型, 就是 我们 叫 推理 这个 模型 的 机器配置 的 2到3倍。 如果你 是用 OpenAI 这种 商业 模型, 他 可能 会给 你 一个 微调 的 A P I。 你 把 数据 喂给 他, 那么 可以 微调。 所以 微调 其实 是一种 不太 划算 的, 只有 在 特别 必要 的 前提 下才 需要 用 的 一种 能力。 它 对于 大部分 开发者 来说 还是 门槛 太高了。

所以 其实 刚才 讲 的 那个 场景, 我 觉得 就是 大家 用 embedding 能够 变相 的 去 解决 这个 问题 的。

对我 当时 我 把 大 模型 本身 跟 大 模型 本身 能力 的 工程化, 我 当时 写 了 三步 放在 我们 blog 上。 第一步 是 放在 工程 本身, 第二步 是 embedding, 第三 是 微调。 这 基本上 就 是从 易 到 难 的 三种 选项。 就是 基于 你的 情景, 你 想 怎么做, 你可以 选择 一个 划算 的 方式。

比如说 一个 什么 典型 的 情况, 你 觉得 更 适合 使用 finding, 而 不是 用 prom 或者 你 bedding。

比如说 你 希望 一个 大 模型 在 没有 很 复杂 的 prom 的 情况下, 它 默认 回答 的 风格。 比如说 你 做了 一个 A I 是 用来 写诗 的, 他 你 想他 写的诗 非常 接近 你想要的 这种 风格。

就是 他 更 普 适 的对 这个 大 模型 的 性格 进行了 改变。 对对对, 是是是, O K O K 明白。 这 里面 还有 个 东西 是 few shot, 是 吧? Few shot 是 在哪 一步 的?

One shot full shot, 它 也是 prom 的 工程 的 一种 技巧。 实际上 是我 看到 论文 是 非常 有用, 它 能 对 你的 大 模型 回答 的 结果 符合 用户 预期 的 这个 概率 能 净 提高 百分之二三十。 解释一下, 就 one shot few show 实际上 是在 里面 去 给 它 一个 小 样本 或者 多样 本 学习。 因为 文本 大 模型 它 本质 是一个 文本 股权 机制, 就说 你 告诉他 一堆 东西, 他 试图 在 你的 后面 去 玩 文字 接龙, 在 后面 拼。 但是 你 只 给他 创 的 情况, 其实 是 给他 一个 指令。 比如说 你说 你 让 他 写一首歌, 他 歌词 应该 是 什么样 的 风格, 那 首先 他 要 做 的 事 是 理解 你说的 这个 东西。 你说 咱俩 之间 沟通, 可能 我 跟 你说 一个 你 都 不一定 能 理解。 我 可能 都要 举 个 例子, 大 模型 更是 这样。 所以 作为 一个 文本 补全 的 这么 一个 原理 的 一个 模型 来讲, 你 给他 一个 或者 三个 五个 例子 时候, 实际上 是在 对 你的 指令 进行 一个 补充。 让 他 去 在 他的 参数 里面 去寻找 更 接近 你想要的 这个 东西 的 一个 结果。 所以说 我们 如果说 想 控制 大 模型 的 回答 这个 准确度, 那 这个 可能 one shot few shot 是 必不可少 的 一个 技巧。

这个 基本 就是 比较 浅层 的, 所有的 可能 大家 能 用到 的 接触 到 的 东西 了, 对 吧? 再 往 深 就是 推理, 就是 真的 是从 再去 自己 去 模型 之类 的 东西 了。

这里 就 不得不 说 这个 agent, 我们 前面 说 这个 tom 的 工程, 再说 到 embedding, 再说 到 模型 本身, 都 是在 解决 一个 问题, 就是 模型 在 单 次 绘画 的 时候 回答 什么的 问题。 但是 我们在 考虑 一个 复杂 的 情境 中, 比如说 我要 一个 A I 的 机器人 帮 我 去 订 一张 火车票 机票 这样 竞争 它。 其实 模型 需要 一个 多轮 对话 或者说 多步 的 推理 过程。 这个 推理 过程 我们 把 一系列 的 能力 封装 进去, 它 就是 所谓 的 agent 的 一个 技术。 Agent 就是说 意味着 让 大 模型 利用 它的 推理 能力, 利用 它的 上下文 去 反复 的 去 推演 和 结合 他 手上 可以 用 的 这个 工具。 工具 是 打 引号 的, 就是 比如说 搜索 的 工具, 上网 的 工具, 要 A P I 的 能力 等等。 去 完成 一系列 连续 的 动作, 最终 达到 一个 目标。 所以 这个 就是 agent。

现在 agent 有 3种, 第一种 是 纯手工 编排 的。 怎么讲? 纯手工 编排 就是你 第一步 干嘛, 第二步 干嘛, 并且 调 什么 工具, 那 还 叫 一阵子 吗? 它 不是 一个 编排 的, 就是 颤, 就是 一个 纯粹 的 是 R P A 也能 实现 吗? 对, R P A 第二种 是 完全 自主 的 agent, 但是 这个 自主 agent 非常 的 不 可控。 其实 我们 现在 在 探索 一种 中间 形态, 用了 部分 的 编排 的 能力, 在 混合 了 他 一些 自主 的 能力 去 实现 一个 相对 可控 的 状态。

以及 反过来, 如果 一个 agent 它 表现 比较 好的 时候, 就 完全 达到 预期 手, 我可以 把 他的 动作 和 一些 工具 反过来 预存 成 一个 编排 过 的 一帧 的, 相当于 它 完整 的 进行了 一次 推理, 达到 效果 还 不错。 这个 过程 是 可以 重复 的, 我可以 把 它 存 下来。 当 A I 有 一系列 动作 表现 好 时候, 你 得 激励 他 就 反复 去做 这件 事儿。

跟 养狗 有点像, 巴普洛夫 的 狗 是吗? 巴普洛夫 的 狗, 但 我 其实 一直 没 太 理解, 就是 auto GPT 出来 以后, 应该 是 最 近几个月 以来, 好像 sa 最多 的 最 火 的 跟 大 模型 相关 的 一个 概念 了, 对 吧? 但 我 其实 从 来说 的 一直 没有 特别 理解, 为什么 他 一 出来 引起 这么 大 的 轰动。 因为 在 我的 理解 来看, 我们 自己 在 很早 时候 就 提 过 说 AI 大 模型 发展 的 方向 应该 是从 copilot 到 pilot 是 吧? 其实 本质 上 来讲 就是 人 介入 越来越少 的 这个 过程 的 人 介入 到 足够 少 的 时候, 它 自然 就是 一个 自动 的 系统 了, 对 吧? 它 自然 就是 一个 A 智能 的 概念, 我 觉得 这是 一个点。

另外 一点, 听起来 你 刚才 讲 的 那个 auto GPT 的 本质 上 来讲 就是 给他 一个 嵌套 的 逻辑, 对 吧? 我 先 问 你 一个 问题 说 你 怎么 拆解 这个 问题, 然后 我 再 给你 一个 指令, 那你 按照 拆解 你 自己 做出来, 我 觉得 是一个 非常简单 直接 的 一个 概念。 对我 不知道为什么 大家 现在 就 不管 是从 早年 的 auto GPT 还是 到 现在 的 agent 概念 这么 火。

为什么会这样? 包括 我们 都 是对 agent 这个 概念 非常 兴奋 的 一群 人我 相信 很多 开发者 都一样, 因为 我们 现在已经 明显 看到 了 AI 能 提高 人的 效率。 现在 是 叫 什么? 现在 叫做。 帮你 更快 的 完成 一件 事儿, 很快 就会 变成 说 帮你 完成 一件 事儿。 再 往后 就是 帮你 替代 一个人。

就是 human 的 look 的 程度, 从 人工 要强 介入 到 人工 不介入 的 一个 两端。 对。

因为 agent 它的 这个 推理 过程 实在是 太 接近 人脑 的 过程 了。 我们 总体上 相信 agent 到了 一定 的 成熟度 之后, 他 就是 一个 员工。 为什么 大家 对 agent 和 开源 模型 这么 热衷? 是因为 我 觉得 他 就 实现 了 一种 这个 时代 的 技术 平权。 一个 工程师, 一个 技术人员, 他们 从来 没有 如此 接近 一个 这么 强大 的 武器。 虽然 它 成熟度 不高, 但 大家 想到 的 是, 当我 有了 这个 东西, 我 可能 可以 以一敌百, 我可以 说和 大公司 去 拼 一 拼, 做 各种 我 想要的 事情, 所以 这个 东西 他们 来说 是 实在是 太 有 吸引力 了。

是 这个 我 肯定 是 同意 的, 这个 vision 肯定 也是 好的。 我 就说 他 我 感觉 agent 它 只是 可拍照 的 概念 一个 自然 的 延续, 我 觉得 它 不是 一个 质变 或者 多大 的 一个 跃升 的 感觉。 对, anyway, 对, 但 agent 我们 现在 看起来 大家 对他 最大 的 诟病 就是 它的 成本。

有 几个 问题。 一个 是 它的 上下文 窗口 还 不够。 因为你 要 出 做 一个 较为 复杂 的 工作, 你 需要 一个 非常 完备 的 一个 上下文。 也就是说 比如说 你 想 写 一个 软件 项目, 这个 软件 项目 本身 可能 正常 来说 都是 十万 行 代码 以上。 那么 意味着 说 大 模型 在 做 这个 事 的 时候, 必须 把 这 十万 行 的 代码 全部 装载 进去 去做 第一个 上下文 窗口。 我们 相信 这个 问题 随着 时间 可以 解决。

第二 是 模型 本身 推理 的 质量。 我们 现在 比如说 看到 GPT4, 它的 推理 能力 非常 好啊, 但是 它 偶尔 也会 出错, 我们 可以 去 试。 比如说 那个 ChatGPT, 它 自带 的 那个 代码 解释器, 它 本身 也就是 一种 编程 agent 的。 你 给他 东西, 他 可能 一般 还要 反复 自己 纠正 几次 达到 效果。 也就是说 他 自己 承认 他 第一次 推演 的 结果 可能 是 错的, 或者 信息 不 完备 的。 就是说 推理 是 这样 心态 不够, 这个 我们 相信 也能 解决, 对 吧?

第三个 就是 工具 的 质量, 我们 认为 就是 一个 agent 的 技术 栈, 里面 包括 了 大 模型, 也 包括 了 我们 本身 的 一些 推理 算法, 推理 逻辑 以及 prom 的 工程 的 一些 技巧。 还有 工具 解决 一个 情景, 需要 哪些 高质量 的 工具, 可以 去 满足 各式各样 的 需求。 比如说 我 之前 我们 做 过 一个 内部 的 工具, 让 大 模型 去 辅助 软件工程师 帮助 他们 完成 A P I 的 自动化 测试。 这个 自动化 测试 过程中, 首先 要 去 检查 所有的 A P I。 我们 发现 市面上 所有的 这个 A P I 的 定义 的 格式 语言 都 很长, 装 到 达摩 心里 就 很慢, 或者 残缺 的 不够 了, 被 裁剪 了。 我们 实际上 就 自己 发明 了 一个 可能 只有 一半 长度 的 这么 一个 语言 来解决 这个 问题。 所以说 这里 有 很多 工具 层面 的 问题, 也 需要 其他 技术 去 适应 这个 大 模型。

明白, 你 刚才 其实 提到 了 这个 大 模型 的 局限 的 点对 吧? 一个 是 上下文 关联 长度 的? 然后 这个 其实 类似 于 上下文 下文 记忆 的 问题, 长文 记忆 的 问题, 还有 就是 成本 的 问题。 对。

还有什么 呢? 还有 比如说 还有 幻想, 还有 注意力不集中。

注意力不集中 指的 是 错 记 漏记。

并不是 因为我 我 前面 提到 大 模型, 它是 一个 文本 补全 机制。 比如说 你 给他 一个 5000字的 prompt, 它 会 接近 尾部 的 那些。 对, 越 接近 的 它的 权重 越高。 所以 这个 权重 其实我 比如说 咱俩 现在 聊天, 我给你 吐 了 1000个字。 其实 你听 我 话 讲完 之后, 你 不管 我 可能 说 了 很多 废话 口水话, 你 都能 抓住 我的 重点。 因为 这里 不仅 是你 作为 人类 的 高超 的 理解力, 你 还能 感受到 我的 这个 情绪、 停顿 这样 东西。 但 大 模型 基于 文字 想 去 获得 这个 信息 是 比较 困难 的。

对我 其实 跟 我们 同学 也 经常 提 这个 点, 就是 抓 重点 这件 事情 人都 很难 做到。 不同 的 人 让 他 读 一篇 文章, 每个人 抓 的 重点 都是 不一样的。 对, 更 别说 大 模型 了。

也就是说 在 现在 大 模型 眼里, 因为 现在 还没有 进入 全面 多 模态 的 这个 情况下, 基于 文本 你 给他 5000个字, 每个 字 对他 来说 权重 是 一样的。 是啊, 你 这么 理解 这 事儿 就 好。

对, 但 我 听 过 有 一种 解决方案 是在 用 另一个 大 模型 帮助 这个 大 模型, 对 吧? 我 先 帮你 把 这 5000字总结 了, 可能 问 这个 大 模型 问题, 你 帮 我 把 这 5000字总结 了? 抓 一些 核心 的 重点, 或者 让 他 记 一些 核心 的 重点, 然后 两个 模型 配合 着 来 用, 我 觉得 这个 是一种 解决方案。

我 觉得 这个 还是 需要 一些 人工 的 介入。 完全 自主化 的 情况下, 其实 并没有 解决 这个 问题。 因为 你说的 这个 就是 上面 的 优化, 把 一个 长 的 做成 短 的。 但是 首先 前提 是 他 自主 的 完成 这个 从 长 到 短 的 过程 是 OK 的。 而且 你 要 给 单位 线下 指令, 不是说 你 文字 短 就能 解决问题, 你 还是 要 测, 还是 要 比如说 one shot feel 超 烧 的, 你 可能。

少不了 的 是对, 所以 我 觉得 可能 大多数 项目 它 日常 落地 的 时候, 就是 不断 在 做 这些 事情。 感觉 在 一个 既定 的 规则 底下, 他 尽量 的 去 不断 的 调 优。

这个 就是我 始终 想说 的。 现在 我们 看到 好多 软件 团队, 他们 今年 开始 基于 大 模型 的 A P I, 基于 lang time, 基于 define 这样的 产品 在 做 这个 事儿。 但是 他们 首先 第一个 需要 迈过 的 坎 就是 prom 的 工程。 其实 这个 恰恰 是 他们 现在 最难。 我 刚才 说 的 三四种 路径 里面, prom 工程 首先 是 第一条 最简单 的。 但 实际上 对 他们 来说 实现 难度 恰恰 是 最难 的。 因为 首先 第一 大家 都 没有 经验, 从来 没有 做 过 这个 事儿, 第二 就是 人和 人 之间 默契 都 得 配合, 更 不要说 人和 模型 之间, 你 其实 要 不停 的 给他 找 感觉。 我们 自嘲 我们的 内部 的 是 prompt, 不 叫 工程师, 叫 prompt 的 艺术家 找 这种 感觉, 首先 是 他们 要 逾越 这个 事儿。

所以 我们 你看 为什么 做 defi? 是因为 你 基于 大 模型 的 能力 它 很强。 但 你 想 它 达到 预期, 这个 过程 有 很多 台阶 要 爬, 它 并不是 一个 高山, 它 就是 一个 台阶。 你 要 爬, 每一个 团队 都要 一节 一节 的 往上爬, 爬 去 解决 这个 问题。 Define 可能 就是 解决 了 中间 很多 这样的 问题。 因为 我们 发现 很多 团队 在 做 一模一样 的 事儿, 就是 在 从 第一步 开始, 第二步 开始 去 搞 这些 问题。 Embedding 这个 权重 是 多少, form 的 工程 这个 M 应该 怎么 写, 怎么 测? 就 这些 问题。

但 你 后面 打算 怎么 帮 他们 做 prom 的 这件 事情 呢? 如果 按照 你 这个 逻辑 来讲, 后面 你 应该 是要 做 prom 的 社区 的, 或者说 做做 一些 相关 产品 功能。

首先 我们 得 有 好的 prom 工具, 就是 一层 一层 解决。 第一层 是 prom 的 工具, 就说 我们 传统 写 软件 是不是 有 code 的, 这个 I D E 叫 集成开发环境 V S code 什么的。 首先 基于 prompt 就得 有 prompt 的 I D 你就是 我 快速 的 写 一个 prompt, 然后 可能 有 十种 变种, 在 快速 得到 10种结果, 在 十个 模型 下 的 不同 的 结果, 然后 怎么 去 纠偏 我 预期 的 结果 是 什么样? 现在 写 的 这个 point 达到 的 结果 和 我 预期 结果 是 相比 来说 可能 是 多少 分, 就 这么 一个 过程。

首先 你 先 得 帮 人 在 一个 自然 的 没有 辅助 的 情况下 能 高效 做 这件 事儿。 我 觉得 这是 第一步, 所以 我们 得 有 他们的 工具, 对, 这个 是 真 自然语言 编程。 对对对, 是。

然后 第二步 你 得 是 有 一些 引导 或者说 一些 模板。 就是 我们 可能 系统 内部 也 内置 了 一些 模板, 就是 解决 哪 类 问题 的 时候, 哪 类 范式 是 最好的。 这个 我们 内置 有 一些 模板, 甚至 比如说 我们 可能 最近 在 接 很多 模型 厂商, 国产 的 什么 呢? 我们 和 模型 厂商 的 合作 会 比 其他 的 产品 要 更 深入。 比如说 你 和 他 朗 善 支持 二三十 种 模型, 什么 都 支持, 但是 它 仅仅 是 简单 的 支持。 我们在 做 模型 的 支持 时候, 我们会 和 模型 厂商 去 合作。

我 跟 他 聊 你 这个 模型 的 特征 是 什么样 的? 你 能不能 把 你 技术 黑箱 里面 那些 东西 打开 一些 给我 看一看。 给 你看 吗? 他 会 告诉我, 因为 他们 有 调试 的 报告。

对, 就是 他 会 告诉我 说 解决 哪 类 问题 的, 怎么 写 是 最好的。 这样 模板 给我 过来 之后, 我们的 模型 给 开发者 拿去 就是 开箱 即用 的。 首先 他 跟 模型 厂商 沟通 成本 也很 高点, 我 这是 调 过 的。 因为 不同 的 模型 它的 调性 都 不太 一样, 甚至 要 换 一套 写法。 那 可能 我 有 这个 模板, 就 每个 模型 都 调 过了, 你 拿去 用 就 好了。 这就是 很多很多 细节 帮 开发者 少走弯路 的 一个 方式。

第三种 就是 有点像 接近 你 刚才 举 的 那个 例子, 就是 拿 高级 的 大 模型 去 辅助 相对 低 的 这个 prompt 编写 的 技巧, 去 帮 他 去做 copilot, 就是 帮 他 去 辅助 去 编写。 你 可能 知道 OpenAI 官方 有 一篇 论文, 他 指的 就是说 如果你 拿 GPT4 去 解释 GPT3.5、 GPT2, 为什么 这么 回答, 它是 可以 给你 一个 解释 的。 对。

好像 之前 也 有人 用, 比如 GPT4要 生成 那种 问答, 对, 再 放到 其他 的 模型 里面。 对, 是。 所以 你 觉得 整体而言, prompt 这件 事情 是 现在 是 被 高估 还是 被 低估?

你是 说 它的 难度 还是 什么 难度 意义? 我 觉得 它的 潜力 被 低估 了, 它的 难度 也 被 低估 了。

OK 因为 其实 是 OpenAI 自己的 人, 之前 写 过 一篇 文章 说 大家 不要 好像 是 twitter 还是 什么的, 大家 不要 过于 滑稽, 在 prom 这件 事上, 然后 说 他 其实 未来 他 可能 是一个 阶段 态 东西。

prompt 现在 可能 还 必不可少。 首先 prompt 确实 可能 是 不可或缺 的 一个 东西, 但是 写 prompt 的 难度 一定 会 越来越低。 因为 模型 本身 在 改进, 像 我们 这种 工具 可能 也会 提供 很多 研发 的 这种 范式。

是 很多 人是 我 写 一段 prompt, 这 段 prompt 作用 就是 帮助 把 你 的话 变成 一个 更好 的 prompt 软件 输入 进去, 反正 这里 就有 很多 嵌套 的 东西。

我 觉得 还 挺 有意思 的对 对。

是 倒 回到 刚才 那个 大 模型 的 问题, 大 模型 所以 除了 注意力 什么的, 还有什么 别的 你 看到 的 问题 吗?

成本 也是 一个 问题, 特别 纠结 成本 问题。 在 一些 比较 窄 的 领域, 因为你 最终 做 应用 可能 是 映射 到 几个, 比如说 法律, 教育 这种 垂直 领域。 但是 一个 通用 大 模型 它 有 好处, 它的 通 识 非常 多, 推理 能力 非常 强。 但是 它 衍生 的 问题 就是说 它的 性能 会 慢, 它的 成本 也会 高。 因为 这是 它 代价, 它 从 0岁到18岁 之间 这个 爬坡 的 代价。 其实 我们 希望 有 垂直 的 模型, 性能 性价比 又 非常 好。

我 之前 跟 模型 厂商 也 聊过, 理论上 其实 不太 容易 存在 这样的 模型。 比如说 你们 现在 可以 看到 一些 开源 模型 可能 很小, 什么 6B13B 然后 又说 可以 简单 的 微调, 能 达到 一个 专业 领域 的。 它 实际上 在 文字 的 模拟, 你 就 照猫画虎 这种 事情 上, 它 确实 能有 很 好的 效果。 就是你 微调 完了 之后, 他 很 懂 法律, 但是 你 但凡 问 他 一些 有 推理 的 一些 事儿 就 不行了, 就是 有 逻辑 的 事儿 他 就 不行了, 他 没有 推理 能力, 因为 他的 模型 参数 不够, 所以 这个 是 目前 一个 主要 的 问题。 所以 我们 可以 总的来讲, 可以 说 其实 大 模型 的 学习 能力 相比 人 来说 还是 挺 笨 的。 因为你 想他 要 吃掉 几乎 全网 的 数据, 他 差不多 达到 了 一个 可能 成年 本科生 的 这么 一个 水平。 那人 可能 说 今天 一天 两天 在 课堂 上 或者说 网上 看到 一些 东西, 他 学习 理解 速度 也 很快, 就像 我 刚才 说 的 那个 few shot 的 问题, 微调 的 问题, 我 跟 你说 一个 问题, 一下 就 明白 了, 那大 卫星 得 说 20遍是。

但 也有 一种 观点 是 说, 其实 是 人类 提问 的 能力 太差 了。 因为 理论 来说 所有的 答案 都在 大 模型 里。

对对对, 这个 问题 确实 比较 难 解决, 但 我们 相信 多 模态 能 解决 这个 问题。 在 模型 层面 上 的 多 模态 训练 可以 解决 这个 问题。 我 经常 举 一个 例子, 就是说 跟 大 模型 问, 你 问 他 一个 什么 某 一种 木材, 非洲 枫木 的 一个 木材 做 的 吉他, 他 什么 音色, 他 可能 会 跟 你说 什么 温暖 的、 锐利 的, 其实 他 不明白 他在 说什么。 你 问 他 另外 一种 木材 是什么 音色, 他 可能 也会 这么 回答。 原因 就是说 这里 没有 对齐, 他 对 这些 词儿 背后 的 那个 意义 没有 概念, 接受 概念 本身 就是 错的。 因为 人 在 描述 这个 音色 的 时候 也 不知道 用 什么, 所以 就 用了 几个 接近 的 词 可能 说 一下。 所以 就是 人和 人 之间 沟通 都 对 这个 事儿 有 信息 的 更好。

我明白了, 我 完全 理解。 我给你 举 个 例子, 就 好像 我 期末考试 突击 了 两天 要 去 答卷, 感觉 我 写 的 好像 是 正确 的, 但 我 其实 也 不知道 我在 写什么。 对。

是 就是说 大 模型 的 训练 过程中 就 会有 一些 已经 不太 准确 的 信息。 你 再 给他 一个 不太 准确 的 问题, 他 还要 去 试图 回答 你。 用户 还 会说 你 怎么 回答 的 不对。

就 鸡同鸭讲。 对对对, 你 接触 了 这么 多大 模型, 你们 团队 应该 有 自己 一套 评估 大 模型 能力 的 体系, 有 吗?

我们 有 自己的 角度, 市面上 现在 有 很多 评分 的 体系, 国内 的、 海外 的, 我知道 的 评分 榜单 什么 可能 就 20个以上 了。 首先 我相信 这些 数据, 因为 我们 再去 做 一个 评估 的 手段, 成本 非常 高。 可能 做 的 还没有 他们 专业, 但 也有 很多 大 模型 在 刷 题。 对对对, 但是 你 就 取 一个 均值, 你 大概 能 知道 它是 什么 水平。 我们的 评估 标准 是 我们 银河 大 模型 是真的 近距离 接触。 因为 我们 去 拿 它 去 调 优惠 的 东西, 以及 说 我们 有 用户 的 数据。 比如说 dey 上 现在 有 接近 可能 接近 5万的 应用, 这 5万的 应用 它 在 哪个 模型 上 最终 选择 哪个 模型, 以及 说 哪个 模型 的 效果 可能 更好, 性能 更好, 有 留存。 我知道 这些 数据 这个 对我来说 就 够了。

是 目前 看起来 各个 大 模型 之间 各有 优劣 吧? 在 某些 领域 里面, 比如 open I 它 可能 推理 能力 更强, 然后 那个 cloud 什么 上下文 更长 等等。 你 觉得 未来 大 模型 这块, 大家 会 是 混用 的 一个 情况 吗? 还是 怎么样?

会 的, 现在 就 已经 有了。 比如说 文本 生成 的 环节, 特例 的 环节, embedding 的 环节, 甚至 还有 这种 声音 转 文字 文字 转 声音 的 环节。 很多 环节 现在 在 我们的 这个 工程 里 就 已经 开始 混用 了。 那等 接下来 就是 这种 多 模态 出来 之后, O C I 的 这种 能力, 各种 能力 增进 了 它 一定 是 多个 模型 之间 配合 的 过程, 因为 每一个 模型 都 会有 自己的 擅长 领域, 以及 说 他们的 成本 也会 不一样。

所以 这块 其实 是 define 能 产生 很大 价值 的 地方, 吧? 也是 相对 这个 系统 会有 复杂度 的 地方。

我们 想象 两种 情况, 一种 是 说 未来 商业 模型 垄断 了 整个 市场, 对 吧? 在 这种 情况下, 每一个 模型 会 提供 自己的 一套 解决方案。 但是 这个 解决方案 就是 整个 封闭 在 他的 那个 体系 下。 比如说 OpenAI 可能 有 自己 一套, cloudy 可能 有 自己 一套, cohere 有 自己 一套, 这 一套 可能 有 他 自己 解决方案, 但是 你 就 可能 就有 一个 环节 不 满意, 你 就 想 用 另外 一家 的。 这 是一种 情况下。 另外 一种 是 开源, 开源 的 情况下, 可能 我们会 看到 像 现在 百 模 大战, 一堆 模型 都 出来 之后, 他们 之间 在 各个领域 会有 自己的 专长。 对于 def 来说, 可能 开源 模型 如果说 繁荣 的话, 对 我们 来说 是 更有 吸引力 的 一件事。 因为 相当于 说 这里 的 工程 可以 做 的 事情 就 很多 了, 大家 能 想象 的 可能性 就 很多 了。

如果 是 封闭 的 这种 商业 模型 去去 垄断市场 的话, 我们 可能 相信 一共 也就 3到5家 林家。 这 3到5家 每家 有 自己 一个 派系。 模型 的 多样性 少了 很多。

是你 目前 看起来 你 觉得 更 倾向 于 哪种 会 发生?

我 现在 从 近 一两年 的 角度 来讲, 我 觉得 还是 商用 模型 为主, 无论 在 效果 上, 成本 优势 上都 好 很多。 开源 模型 现在 来说 还是 比较 早期, 但是 它 仍然 让人 兴奋。

但 拉姆 拉 做得 很快, 然后 国内 G L M 其实 也 效果 还 不错。

对, 我 身边 很多人 我问 他们 一个 问题, 包括 我们 现在 社群 里面 的, 我问 你们 知道 lama 的 运行 成本 是 怎么样 的 吗? 就 比如说 你 想 和 达到 GPT1样的, 比如说 就是 100个并发 跑 起来, 然后 在 服务器 上 你知道 你 需要 多少 显卡, 大概是 什么样 的 配置, 能 让 它 稳定 运行 吗? 没有 一个人 能 回答我 这个 问题, 这是为什么 让 我们 自己 在 研究 说明, 第一 他们 没有 到 这个 阶段。 第二 是 现在 大家 不在乎 这件 事, 就 大家 享受 这种 做造 主的 乐趣, 我 就 赶紧 动手 把 这 东西 搞 起来。 或者说 如果 去做 一个 技术 实验, 大家 还是 在 这个 技术 验证 的 角度 考虑 更多, 而 不是说 放到 投产 角度 更多。 我 刚才 提 的 这个 问题, 推理 成本 就是 一个 很 重要 的 一个 问题, 不然的话 你的 稳定性 都 保证 不了。 但是 你 可能 说 抓 100个人, 这 里面 可 只有 一个人 知道 这个 事儿。 O K interesting。 所以 我 觉得 开源 模型 可能 离 他 真正 投产 还是 有 相当长 的。

一个 距离 的。 OK 明白, 但 商业化 模型 应该 也是 那 几个 混用, 对 吧? 商业 模型。

就是你 你可以 选 一个 OpenAI 的, 你可以 选 一个 百度 的, 或者 怎么样 去 各自 分工 去 解决 他们 擅长 的 问题。

是对 一堆 投资人 会 问 过 你 一样的 问题。 包括 所有 做 中间层 的 人都 会 受到 一样的 问题。 就是 这个 事儿 是不是 未来 大 模型 自己 会 做 掉, 尤其是 国内 投资人 会 问 这个 问题 问 的 最多。 然后 我 一般 的 答案 都 是我 觉得 模型 层 就是 像 我们 刚才 讲, 它 会 混合 起来, 它是 多个 模型 同时 存在 的。 只要 是 多个 模型 同时 存在, 那 中间层 就是 有 很大 的 价值 的。 我不知道 你 现在 是 怎么看 这个 问题 的, 如果 今天 再有 个人 问 你说 这个 事儿, 大 模型 是不是 自己 就 做 掉了?

大 模型 微软 为 代表, 他们 一定 会 去 做自己 蛮 好的 开发 的 工具包, 甚至 是 中间件 服务。 我 觉得 这个 都 挺好的, 因为 他们 离 模型 的 这种 技术细节 也 更 近。 但是 他们 有 这么 几个 问题, 第一个 是 他 屁股 不对, 所有的 事情 就是 围绕 他 自己的 那个 模型 去做 的。 第二个我 经常 说的是 说 我 云 厂商 做 不好 SaaS。 看 全球 范围内 云 厂商 几乎 没有 说 自己 在 那个 SARS 产品 上 做 的 特别 好。 要么 就是 收购, 因为 他们的 基因 全部 是 导向 到 最终 去 卖 资源。 他们 不对 这个 开发者 体验, 甚至 我们 说 接下来 饭 的 prom 的 工程师, 或者说 一些 其他 的 I M offs 人员 去 友好 这件 事 也 不是 他们的 基因 之一。

第三个 就是 他们 做 这个 中间件 本身, 因为他 不 中立, 所以 他在 开发者 的 角度 来说, 他们 会 保持距离, 会 比较 谨慎。 比如说 现在 的 开发者, 他们 在 选 define 或者说 浪漫 也 行, 选 这样的 产品 的 时候, 他们 其实 就 没有 什么 心理 包袱。 因为他 知道 你 不是 任何 一家 的, 你 后面 的 模型 可以 想 换 就 换, 我可以 先 拿 这个 OpenAI 的 能力 去做 一个 最好的 原型 出来, 然后 再 换 到 我 想要的 模型。 这 过程 很 自然, 没有 问题。 但 如果说 你 试图 你 拿到 一个 微软 的 开发 工具包, 只能 接 它的 模型 的 时候, 你 就 会有 疑虑。 万一 说 你 模型 下来 跟不上 市场 的 发展 或者 什么, 那 我的 代码 得 重写 吗? 肯定 不能 这样。

因为 我们 做 中间件 解决 了 一个 很 重要 的 一个 问题, 就是 把 prompt 工程 和 它的 原来的 这种。 程序代码 做 解耦 就是 分开, 就 代码 跟 代码, 中间件 为 中间件。 我们 做 有一个 价值, 就是 做 这个 事儿, 我 好不容易 把 你 分开 了, 然后 你 还要 再 把 我 连到 一块, 你 不行。

是是是, 确实 就是你 从 这个 角度 来讲, 好像 这个 问题 就 很 无厘头 的。 本来 它的 核心 价值 就是 分开。 然后 你们 现在 观察 了 这么 多个 应用 和 大家 在 你 平台 上 做 的 事情, 你 有没有 得到 一些 跟 市场 不同 的 一些 结论, 一些 观点 什么的, 或者 一些 有 价值 的 思考 和 发现。 通过 实际 的 大家 的 应用。

你们 看 的 东西, 不管 是 商业 模型、 开源 模型, 就是 任何 开发者、 厂商、 企业 要 去 基于 现在 的 模型 做点事, 肯定 是 有一个 周期。 不管 是你 打样 原型, 还是 说 产品 调动, 再到 用户 进来。 对, 和 原来 做 软件 一样, 你 至少 得 有 个 三个月 的 周期。 三个月 到 更长 的 周期, 每一个 环节 认认真真 做 这个 心理准备 的 有没有 那么 快?

用了 defi 跟 没用 define 到底 能 缩短 多长时间?

我们 观察 比如说 如果 以 浪漫 为 基准 的话, 大部分 的 这种 典型 应用 可能 能 缩短 1到2个月 的 开发 时间吧。 但 这个 不是 重点, 重点 是 我们 说 office, 指的 是 后面 需要 各种 人 参与 进来, 这个 反复 运营 的 数据 维护 的 时间。 很多 市面 工具 解决不了 的, 他 不 帮你 解决, 后面 的 问题 他 就算 帮你 解决 了。

第一个 阶段 开发 的 问题, 不 帮你 解决 后面 的 问题。 比如说 数据集 的 维护, 我们 刚才 提到 私有 数据, 那 私有 数据 你 肯定 不是 录 一次 进去 就 好的。 你 image 进行 数据 需要 精细 的 分段, 对 吧? 需要 所有人 都能 掌握 这个 数据, 需要 给 这些 数据 去 增加 权重 或者 降低 权重。 可能 你 在 国内 还需要 什么 维护 一些 敏感 的 东西。

然后 接下来 A 政策 之后, 你 会有 各种各样 的 工具。 哪个 工具 效果 好, 你 应该 把 它 生 权, 哪一个 工具 不好, 你 应该 把 它 替 掉。 有 很多 这样的 事儿 要人 反复 参与 进行 的 一个 事儿。

对。 而且 你 当时 还 讲 了 一个点, 我 印象 很 深。 就是 你说 不可能 这 公司 里面 只有 两个 懂 A I 的 人 来做 这些 所有的 事情, 对 吧? 未来 可能 是 大家 所有人 去 围绕 这个 来做 配合, 所以 你 做 的 这件 事情, 你 发 做 这件 事情 就是我 完全 不懂 A I 我就是 一个 真的 运营 的 后台 的 人我 也可以 去做 所有的 A I 相关 的 运营, 然后 并且 持续的 能 真的 改善 产品 的 效果。

因为 我们 相信 如果 做不到 这样的话, 那 A I 的 可塑性 的 潜力 就 没有 被 最大 的 发挥出来。 如果 每一个人 他 没有 能 轻松 的 去 塑造 自己 这个 符合 预期 的 A I 的话, 那么 世界上 的 A I 就 仍然 掌控 在 少数 技术人员 的 手里, 而 他们 对 世界 的 理解 也是 片面 的。

所以 你 其实 也是 在 推动 平权。

那 当然 OK 刚才。

我们 提到 好 几次 lang ten 对 吧? 这个 lang 趁 其实 是 今年 如果说 有 几个 该 相关 的 关键词, GPT long chain auto GPT 等等, 这 agent 这些 应该 是 跑不掉 的。 所以 long chain 到底 是一个 什么东西, 我 觉得 大家 经常 在 讲。 但 可能 这 几个 词 里 大家 对 long 称 的 理解 是 最弱 的。

你可以 理解 为 它 既是 一个 工具箱, 也是 一本 教科书。 我 前面 提到 的 说 大家 在 探索 tom 的 工程 或者 是 更大 模型 怎么 接入 一系列 的 事情。 当 产 从 去年 11月 开始 做了 一件 非常 有 价值 的 事情。 人们 在 每个 阶段 有 疑惑 的 时候, 它 正好 是 顺手 可以 取 到 的 工具。 它是 一个 library, 就是 开发者 的 库。

就 比如说 你 拿 python 或者 现在 叫 J S 去 写 代码 接入 大 模型。 然后 比如说 你 从 模型 的 驱动 进入 哪个 模型, 模型 的 模板, 我 这 一个 point 的 哪些 词 要 替换 掉。 然后 还有一个 很 重要 的 概念 就是 它的 称 就是 链条 一个 掉 模型 之前 你 要 干什么, 调 完 模型 之后 你 要 干什么? 这些 抽象 的 概念 它 把 它 分装 成了 一个 比较简单 的 形式 的 代码。 你 给他 写 代码 的 时候 去 用 它 这个 概念。

这就是 老 产 所 这 事儿, 它 有点像 一个 A P I 之类 的 那种感觉, 它是 一段 一段 的 代码 是 吧? 就是我 要 用 的 哪 块 的 时候, 我 直接 把 它 那 一段 复制粘贴 下来。

是 这么 理解 吗? 我们 编程 叫 方法, 很多很多 封装 好的 方式, 你 用 说 复制 代码 也没有 问题。 因为 我们 自己 对 浪费 非常 了解, 对 它的 准确 理解, 它是 一个 cobo 菜谱, 各种 你 要 用到 的 调味料 这种 东西 都在 里面, 你可以 拿 它 去 用。 但是 它 有一个 问题, 它 其实 是一个 非常 早期 的 产品。 它 在 大家 关心 的 模型 的 时候, 把 所有 需要 东西 一股脑 的 放进去, 油盐酱醋 都在 里面, 你可以 拿。 但 它 其实 因为 太早 了, 没有 经过 很 好的 设计。 当你 做到 比较 深 的 工程 的 时候, 你 会 发现 它 不够 用, 你 必须 改 它。 第二, 它 以 一个 成熟 的 产品 的 形式 来说, 它 没有 service 化, 它 不是 一个 服务, 它 仍然 是一个 代码 库, 你 需要 去 维护, 它 需要 和 你的 代码 去 耦合, 它 并没有 像 我们 这样 去 和 代码 去 解耦。

第 但是 他的 那些 分装 的 调味料、 食谱, 其实 都 非常 的 浅。 因为 的 他们的 团队 的 最大 的 能力 是 动员 很多 开发者 加入 他们 社区, 帮 他 去 一块 做。 而且 他 早期 对于 开发者 来说 是 最好的 一个 标的, 大家 都 贡献 代码。 比如 我 刚才 举 的 一个 来说, 他 可能 支持 了 20种模型, 又 支持 了 十种 向量 数据库, 又 支持 了 78种工具。 其实 你 稍微 把 其中 任何 一个 工具 拿出来, 你 发现 都很 脆弱, 仅仅 就是 能 跑 起来 的 程度。 所以 他 对于 有 句 话 叫 什么 long chance 开发者 做大 模型 的 新手村 什么的, 我 觉得 也 差不多。 你 要把 入门 的 东西 都在 里面, 你可以 拿来 用。 但是 你 稍微 想 拿 这个 东西 接着 做 下去, 你 要么 你 用 long time 第一周 写 完 东西, 第二周 接着 写写 到 一个 好的 程度, 你 基本上 就 写 完 代码 就得 废了 或者 是 魔改。

所以 他 其实 做 的 好地方 就是 他 把 一堆 东西 传到 一起, 然后 他 传 的 早。

传 的 多。 对, 而且 他 有 很多 定义 的 范式, 我们 说 量, agent 这些 抽象 的 概念。 我 跟 你说 代理 你 可能 agent 你 可能 不太 了解, 当然 有一个 代码 放在 那里, 告诉 你是 这么 写 的。 所以 它是 一个 非常 好的 一个 动态 的 教科书。

明白, 他 把 很多 概念 和 大家 基础 认知 去 拉 起。

对你 相当于 是一个 可以 实践 的, 一边 实践 一边 写 的 一个 说明书 一样的 一个 游乐场。 你 其实我 觉得 这么 定义 它是 准确 的对。

但 他 最近 好像 也 发现自己 有 这些 问题, 然后 他出 了 一个 long smith 是 吧? 对, lang smith 是一个 什么东西?

Long smith 其实 是一个 lunch 的 配套 的 服务, 它是 一个 调试 和 跟踪 的 工具, 在 传统 软件开发 里面 也会 有。 比如说 你 浏览器 里面 会 提供 一个 控制台 统计, 你 浏览 一个 网页 里面 又 加载 了 图片、 音频、 文字, 分别 用了 多少 时间。 它 一样的。 当时 miss 就是你 用了 LangChain 的话, lang time 代码 里面 可以 有一个 call back 的 开关 把 它 打开。 那你 这个 lang time 的 代码 在 运行 过程 中的 所有的 信息 被 跟踪, 上 传到 long smith 上, 你可以 去做 可视化 的 调试。 它是 一个 开发 辅助 的 一个 工具。 因为 本来 你 就 黑盒, 尤其是 你 用了 链 之后, 你 一个 大 模型 的 应用 掉 七八步, 每一步 输入 是什么, 输出 什么, 他用 这个 工具 帮你 统计 出来。

所以 LangChain 跟 long smith 和 define 的 关系 是 有什么 关系? 我 觉得 这个 问题 还 挺 难 回答 的。 首先 lunch 对于 define 也是 一个 基础设施, 我们 就 把 它 当 工具箱 就要 用 的 用, 不需要 用 就 不用, 后面 可能 完全 不用 浪, 不是 一个 完全 产品化 的 一个 产品。 Defy 是一个 完全 产品化 的 I M M 的 一个 应用技术 站。 它是 一个 既 可以在 云 服务 用 的, 也可以 在 开源, 你 拿 回来 自己 部署 的 这么 一个 东西。 因为 我们是 一站式 的 解决方案, 所以 long smith 的 那些 调试 的 能力, 包括 我 前面 提到 的 这些 我们的 I D E 这些 能力, 可能 都会 在 define 里面 会有 配套 的 工具。 所以 你可以 理解 为 define 一定 是 整体 解决方案, 即 拆 即用, 可以 满足 百分之七八十 的 情景 的。 Lang 可能 会 你 得 组 上 各种 东西。

然后 放到 一块儿 才能 去 用。 就是 lunch 它是 一 堆积木。 对对对, 然后 define 也 用到 了 一些 积木。 然后 未来 可能 还会 自己 重新 造 水泥。

把 这些 积 对 对对对, 我们 现在 有 内部 有 个 东西 叫 define canal, 就是 我们 其实 也 在在 做 define 的 过程中, 去 想象 一个 更 底层 的 一个 库 最好的 形式 是什么。 未来 可能 这个 东西 做出来 之后, 我们 可能 会 开源 出来。 那个 东西 就 有点像 迪拜 自己的 浪漫。

对对对, 是的, 因为 我们 发现 很多 lang time 的 用户, 我们 也很 了解 lunch 的 用户, 试图 拿 狼山 做 深度 的 应用 时候, 他们 也 把 狼山 丢掉, 是我 原来 没有 想到 的。 但是 我 最近 和 开发者 接触, 发现 都是 这样的, 就是 他 做到 了 某个 程度 之后, 狼山 必须 丢掉, 因为 已经 帮 他 完成 了 新手 做 上路 的 过程 之后。 你 也 知道 你那 堆积木 里面 你 要 用 哪个, 你 就 把 这 几个 积木 拿出来 重新 造, 剩下 的 不要 了。

基本 都是 这么 玩 的。 他 就 好像 一个 青铜剑, 然后 它 不断 的 去 打磨, 打磨 到 最后的 发现 怎么 打磨, 还是 就 只能 换成 一个 更 高级 材料 的 东西。 是 但 迪拜 会不会 遇到 类似的 问题? 我相信 肯定 有 公司, 比如 他是 一个 A I 的 创业 公司, 他 可能 觉得 自己 技术 很 牛, 那 他 不需要 用到 第三方 一个 很 简便 的 工具, 然后 他 就 自己 从 零 去去 造 的 东西, 他 觉得 是 最好的。 会不会有 这样的 场景 的 问题?

我们的 使命 当然 是 帮助 更多 的 开发者 把 大 模型 的 应用 落地, 解锁 这个 模型 的 潜力。 但 第一 肯定 不是 所有的。 第二 还是 我 前面 说 的 那个 问题。 也许在 逮捕 环节, 你 永远 去 自己 写 代码, 不要 用 狼 颤, 甚至 连 paton 都 不要。 你 用 C 加加 写 好了 是 能 达到 最大 的 自由度 的。 但是 你 那些 需要 人 反复 去 运营 的 这些 工作, 不是你 的 代码 能 解决 的。 这些 基础设施 是 define 能 提供 且 非常 好的。

我们 现在 其实 也 在 做 另外 一件 事儿, 就 define 现在 是一个 整体 的 产品。 我们会 把 几个 非常 好的 零件, 就 大家 觉得 比如说 我们的 数据集 的 能力, 我们 现在 上 的 那种 agent 的 这种 治疗 的 能力 非常 好。 我们会 把 这些 产品 单独 拆 一个 单品 产品 出来, 它 可以 配合 狼战 或者 你喜欢 的 其他 东西 一块 用。 你可以 用 我 整体 的 方案, 你 也可以 用 我 一个 方向盘, 轮胎 没有 问题。 这样的话 就可以 用 他 自己的 开发 能力, 再 配合 我们的 一些 做 的 比较 好的 工具。

对我 觉得 你 刚才 那个 解释 也很 好。 他 就是你 你 如果 为了 追求 更大 的 简便性, 你 一定 就是 放弃 了 一些 自由度, 对 吧? 就 不可能 是 兼得 的。 兼得 的话 一定 是用 你 自己 用 29个 字母 从头 去 写。

我们 既然 做 define, 我们 就 知道 一个 事。 就是 我们 遇到 的 所有 开发者, 可能 在 拿大 模型 做 应用 的 前 三个月, 遇到 问题 几乎 都是 一模一样 的。 这里 会有 一些 细枝末节 不一样, 但 几乎 大体上 问题是 一样的。 现在 比如说 很多 在 做 偏 自有 的 问答 的 知识库 的, 他们 遇到 问题 几乎 就会 是 同 一类 问题。 你 卖点 怎么做, 分段 怎么做, 掏空 怎么 分配? 这 问题是 都是 一模一样 的, 只是 里面 内容 不一样。

然后 接下来 就是 agent a 症 的, 就是说 模型 的 驱动, 怎么做 模型 的 这个 推理 模板 怎么做? 模型 的 工具 调用, 调用 哪些 工具? 这些 工具 的 限制 的 轮次 和 成本 怎么 控制, 他 仍然 会 是 一模一样 的 问题。

理解。 然后 我们 刚才 讲 的 所有的 那些 问题, 包括 大 模型 的 问题, 你 觉得 会 在 未来 多长 的 时间 内 会 得到 怎样 的 解决? 你 有没有 个 大概 的 预期?

我 比较 乐观, 我 把 defied 开发者 分为 大 以上 两类。 第一类 是 比较 务实 型 的 开发者, 他们 评估 过大 模型 的 能力, 认为 在 现实 的 情况下, 大 模型 应该 可以 做出 什么样 的 事儿。 我 认为 这类 开发者, 务实 型 的 开发者, 他们 现在 遇到 的 种种 困难 或者 什么什么 问题, 在 未来 一年 内 都能 得到 解决。 无论是 通过 在 模型 层面 解决, 还是 通过 我们 这种 中间件 工程 方面 解决, 我 觉得 能 解决。

第二类 开发者 是 比较 愿景 型 的, 就是 他们 希望 大 模型 一次 可以 替代 一个 团队, 或者 能能 做 很多 这样的 事情。 就是说 想象 中的 大 模型 已经 是一个 非常 强 的 一个 东西, 这种 可能 会 比较 难。 这种 我 觉得 有可能 三五年 内 其中 一部分 需求 能够 得到 满足, 但 另外 一部分 需求 可能 会 被 一些 厂商 做成 比较 深 的。

比较 垂直 的 产品。 对我 今天下午 去 跟 妙 鸭 的 负责人 聊 了 一会儿。 对, 很多 细节 他是 不能 讲 的。 但 我 觉得 他 讲 的 有 一个点, 也是 我 最近 跟你聊 一个 感想, 就是 大 模型 的 能力 肯定 是 有限 的。 但是 在 有限 的 前提 之下, 其实 最 考验 的 就是 产品 的 能力。 就是你 怎么样 把 这个 需求 定义 的 足够 清楚。 如果你 需求 不清楚, 其实 你 相当于 说 你 要 爬 一座 非常 高 的 山。 但 你 需求 如果 足够 清楚, 可能 你就是 要 稍微 让 我 进路, 或者 你可以 开 个 隧道 就可以 过去了。

对, 妙 鸭 就 很好, 他 就 解决 特定 问题, 限定 的 问题。 对你 问题 越 限定, 你 想 的 越 清楚, 技术 的 解决 的 难度 就 越 低。 起泡沫 也是 这样的。 是是是, 那 你们 现在 实际 看到 的 最 典型 的 一些 应用 场景, 能不能 给 大家 分享 一下?

教育 是 最多 的。 比如说 评估 一个 学生 的 水平, 给他 一些 命题 或者 题目, 这种 是 最多 的。 给 作文 打分 这个 事儿 是不是 完全 是 OK 的? 最近 看到 一些 产品, 你说 打分 这个 事情 太 主观 了, 但是 他 哥 告诉 你说 哪里 对, 哪里 不对, 这个 事 是 很 容易 的对, 比如说 尤其是 对于 相对 第一 年龄段 的, 不管 是 编程 也好, 写作文 也好, 去做 改进 是 非常 好是 是。

对我 为什么 我 提 这个, 我 就 觉得 现在 其实 定量 会 遇到 很多 问题, 就是 他 会 遇到 什么 记忆 问题, 什么什么 各种 问题。 但 其实 定性 相对 来讲 对 是 OK 的对, 就是我 觉得 大家 现在 过多 的 去 在意 它 定量 的。

其实 大 模型 给你的 任何 数字 可能 你 都 不要 信, 但 他 给你的 方向 很多 时候 都是 好的。

所以 我 觉得 大家 可以 多 去 从 定性 上去 想 这些 东西, 就 比如说 判断 某 段 话 的 情绪 等等, 这种 东西 应该 是 会 更好 用 一点。

对, 教育行政 市场 行政 是 行政, 就是我 刚才 给你 举 的 例子, 企业 内 各种 内部 的 调度, 市场营销, 这 其实 是 目前 来说 最 成熟 的。 不管 是 写 文案 是 图 商品 图 什么的, 然后 就是 客服? 替代 一些 这种 简单 的 客服 情景 也 非常 好。 比如说 现在已经 能 比较 做到 复杂 的 说 用户 买家 进来 去 查 你 这个 买家 过去 买 过 什么东西, 订单 是什么。 他 上来 问 一个 问题, 你 大概 就 知道 说 我 给他 可能 要 解决 哪些 问题。 他 今天 来 的 这个 情绪 是一个 愤怒 的 还是 一个 积极 的? 我应该 给他 退款 还是 不 退款, 对 吧? 这样的 问题 我 觉得 大 模型 已经 解决 很 好了。

所以 你们 实际 看到 的 还是 有 很多 比较 乐观 的 例子, 是 大家 持续 在 用, 而且 是 很 能 很 好的 运用 的对。

比如说 我们 团队 内部, 我们 不会 说 所有的 团队 成员 你们 都 把 这个 工作 交给 A I 我们会 把 一部分 的 工作, 比如说 我们 运营 类 的 这个 增长 的 工作, 可能 有 二三十 项 工种。 很多 细活 我会 圈 一下, 哪些 可能 现在 在 大 模型 的 成熟度 下 就 很 适合 做。 标出来 我们 就 试图 拿 define 或者 拿 各种 技术手段 帮 他 去做 这个 自动化 的 改进, 去 替换 人, 这个 没有 问题。 你 不要说 我 现在 就要 拿大 模型 去 替换 一个人, 你 要把 一个人 的 所有的 现在 所有的 这种 工种 能力 列出来, 去 看一下 哪些 大 模型 的 程度 已经 到了 可以 去做。 也许 你 在这里 能 发现 一个 非常 好的 市场机会, 做 一些 全世界 都能 用 的 一些 非常 好的 产品。

理解, 我 觉得 我们 前面 所有的 整体 聊 的 有点像 一个 AI101 的 这个 感觉。 现在 实际上 你 在 日常 的 操作 当中, 你 在 想 的 一些 更深 的 问题, 你 有没有 什么 事 给 大家 分享? 你 能不能 抛 两个 问题 出来, 是 让 大家 觉得 连 问题 都 听不懂 那种 震 一 震。

我们 怎么说呢? 我 现在 脑子里 最 困惑 的 是一个 简单 但是 难以 回答 的 问题。 就是 基于 现在 大 模型 的 能力, 未来 会 诞生 出 最多 的 新的 增量 的 应用, 我们 可以 叫 他 A I 原生 应用 到底 是 什么样 的? 比如说 我们 知道 移动 支付 在上 一代 互联网 就 激发 了 很多 像 o to 这样的 漫山遍野 的 这种 产品 出来。 那么 基于 大 模型 可能 会 诞生 什么样 的 一些 应用, 是 非常 大 增量 的这 是 我们 最 期待 看到 的 机会。

我 现在 看到 的 答案 可能 是 说得 多种 模型 的 能力 揉 到 一块儿 的, 甚至 再加上 一些 硬件 的 这样的 产品。 它是 一个 非常 封闭 很 好的 一个 解决方案。 就得 融入 到 你 身边 的 一些 物件 里 去, 对 吧? 这个 是一种 我们 能 看到, 因为 我们 并 不相信 说 未来 会有 那么 多 chatbot。

对你 这个 点 我 本来 想 问 你的, 像 我们 第一期 其实 他 提到 一个点, 他说 他的 毕竟 是 未来 每个人 或者 每个 企业 都有 报道, 对 吧? 然后 未来 可能 就 比如 几十亿 的 人口, 可能 会有 上千亿 个 报道。 我知道 你怎么看 这个 东西, 因为 现在 实际上 大家 用 题 干 做 的 东西 本质 上 也是 一种 boat, 对 吧? 就是 对话, 你可以 定义 成 一种 boat。

Chatbot 是一种 我们 交付给 用户 和 开发者 直观 的 显而易见 的 一种 交付 形式。 因为 这是 大家 现在 最能 理解 的。 Defi 作为 一个 应用技术 上, 其实 可以 完全 不做 这件 事儿。 我们 现在 做 这件 事 也是 为了 跟 用户 拉近 距离, 不 意味着 说 我们 相信未来 都是 chatbot。

就是 我们 总体上 看, 可能 说 可能 手上 有 个 ChatGPT。 可能 到 今年 9月10月 之后, 你的 手机, 你的 windows, 你的 操作系统 里面 都 会有 一个, 你的 企业 内部, 你的 公司 里面 可能 有一个。 其实 你 一个人 有 三 拆 的话, 他 已经 就 够受 了。 这 一个 你 还得 跟 他 磨 一下 性格 什么的, 三个 你 就 够 瘦了。 你 不可能 需要 那么 多 chatbot, 大 前端 至少 前端 上 不需要。

对, 因为 你是 觉得 说 像 OpenAI, 像 微软, 像 苹果 可能 就 把 这事 做 掉了。 我们 今天 入口 我 指的 是 入口。 对, 今天 好像 才 看到 新闻 说 苹果 在 招 人 做 端 上 的。

对对对, 我 一定 相信 在 操作系统 级别 也会 有 这个 chatbot 的 入口, 去 解决 调度 和 你 看到 的 这种 聊天 体验 的 问题。

对我 之前 跟 聊 个人 助手 这件 事情 的 时候, 其实 你知道 有 很多 创业者 这 一波 肯定 是 想 做个人 助手 的对, 我们 大家 就 聊 说 第一步 是 OpenAI 这种 做 的 怎么办, 然后 是 微信 做 怎么办? Google 这种 操作系统 做 的 怎么办? 最后 就是 苹果 自己 从 硬件 端 做 怎么办? 从 逻辑 上 来讲 几乎 是 必然 的。

每个 人都 要 做 的。 我们 相信 入口 不会 超过 三个, 肯定 三个 就 够 你 受 了。 但是 入口 它 可以 是一个 接线员, 它 放 各种 的 agent 接 进去。 因为 我们 相信 一件 事儿, 就是 每一个 大 模型 它 要 做成 一个 完备 的 agent, 其实 他 要 组装 很多 东西 进去。

每一个 A 政策 就 跟 每一个人 一样, 有 自己的 能力 站 必然 是 有 不同 的 能力 在 里面。 他 不可能 用 一个 A I 模型 去 替代 所有人 的 能力。 因为 这 里面 有 我的 特点, 有 自己的 知识 或者 一些 东西。 那 入口 可以 有一个, 但是 入口 后面 的 这些 A I 的 就 你说的 bot。 是 可以 有 无数个 的, 只不过 中间 有一个 接线 的 过程, 转接 的 过程。

是啊 路由 的 过程。 对对对, 你的 这种 路径 其实 比较 符合 大家 在 讲 那种 是 大 前端。 可能 前面 就是 一个 OpenAI, 还有 一堆 pluggin s plugins.

还 不就是 它 现在 是一个 模型 加 pledging, 它 实现 的 还是 一个 意志, 一个 主体。 但 实际上 我 指的 那种 情况 并 不是我 指的 是 有 很多 位置, 他们 有 自己的 工具, 工具 之间 的 权重 和 组合 关系 他们 都 设计 好了。 未来 有 很多很多 这种 虚拟 的 这种 人的 是 代理人, 类似 于 A P I 的 接口。 对对对, 是 整体 的, 是一个 完备 的 有 自己 意志 的 整体 的 这样 东西。 然后 这样的 东西 会 被 一个 入口 去 全 集成 进来, 去 接入 进来。 他 可能 会 像你 现在 微信 的 通讯录, 或者说 你 微信 上 的 一个 律师 或者 什么。 反正 在 你 需要 的 时候 找到 一个 正确 A 的 接进来。 对, 甚至 说 你 搞 三个 A 正在 中间 去 讨论 同一个 问题, 大家 吵 一个 架 什么的, 这个 都 没有 问题。

最 近几个月 其实 跟 大 模型 相关 的 新的 热点, 一些 质变 的 东西, 我 觉得 是 明显 的 变少。 你 觉得 未来 还 会有 哪些 方向 是 比较 热 的 吗? 比如说 就 像是 从 code 到 agent 的 这种 概念, 我们 今天 能不能 创造 一个 概念, 还有 没有 什么 你 觉得 是 未来 的 发展方向?

我 觉得 光 多 模态 的 这个 故事 就 已经 够 大 了。 现在 你 大 模型 的 所有 能力 都是 仅限于 文字 层面, 他们 对 世界 这种 图形图像 的 理解 还少。 但 你 想 是 想 在 下一代 的 大 模型, 他们 在 训练 的 时候, 如果 能 有人 的 五官 的 更多 感知。 比如说 像 我们 这样 聊天, 要有 视觉, 有 听觉, 甚至 有 触觉 温度 这样的 信息, 结合 文字 再去 一块 去做 一次 训练 的话, 他的 那个 能力 会 远远 大于 现在。 因为他 现在 接受 的 信息 毕竟 是 单一 的。 我 所以 我相信 说 多 模态 这个 方面, 一方面 是 本身 多 模态 的 训练, 哪怕 还是 文本 模型, 基于 这种 各种 的 感官 数据 重新 训练 一次, 模型 的 能力 会有 质的飞跃。

第二次 是 由于 它 有 这个 信息, 让 他 输出 的 内容 也是 多 模态 的 文字 图片? 3D的 模型, 声音 等等。 它的 这个 输出 形式 也 丰富 很多, 它 能 真正 的 去做 很多 现在 人类 的 知识 工作者 才能 做 的 事儿。

我 觉得 有点像 我们 邀请 大 模型 看 3D4D 电影 的 感觉。

对他 现在 还是 看 小说 的 阶段。

对, 我们 要 对他 好 一点, 争取 早上 起来 看 4D电影。

其实 你 会 发现 现在 很多 技术 是 有 往 一个 方向 走 的 趋势。 比如说 苹果 新 出的 vision pro 它 本身 就可以 是一个 训练 数据 的 采集 的 那个 东西, 跟 review 结合起来 就是 完美的。 对, 你 再看 比如说 马斯克 在 搞 一些 脑机 结合 的 东西, 等 这个 传感器 这些 方面 都 已经 对 其 之后, 那 模型 本身 的 能力 就会 超出 我们 现在 想象 很多。

你 觉得 还有什么 是 未来 有可能 会 发生 的, 或者 在 divide 的 vision 当中 一些 比较 核心 的 点。

还有 吗? 模型 的 小型化, 模型 的 这个 移动 化 小型化 可能 也是 一个 趋势。 因为我 前面 跟 你说的 是 模型 现在 参 数量 这么 大, 然后 获得 那么点 智商, 其实 他 还是 冗余 信息 很多 的。 这个 在 算法 面上 和 硬件 层面 上去 做了 调整 之后, 这个 模型 未来 是 可以 就 装 到 口袋 里。 这个 我们 也是 相信 的, 又 不需要 去 那么 依赖 去 云云 端。

对, 至少 是 可以 装 在 那个 家 里面, 类似 wifi 一样的 一个 东西, 对 吧? 然后 不需要 到 云端 了, 然后 它 整个 的 成本、 速度、 效率 什么 都会 比较。

还有 一件 事儿 就是 我们 define 之前 的 一个 原因。 我们 相信未来 的 所有的 数据 会向 量化。 就是你 现在 看到 的 所有的 有 知识产权 的 一些 东西, 电影、 小说 这种 书籍, 所有 东西 它 现在 是 给 人类 阅读 的。 这些 的 材料 都 应该 被 向 量化 一遍, 你 让 AI 可以 去 快速 的 加载 这些 数据, 就像 U 盘 一样 插 到 一个 A I 上。

比如说 你 现在 A I 问 他 一个 今年 的 一个 什么什么 知识, 你看 我们 现在 要 用 很多 手段 把 它 嵌入 进去 或者 怎么着。 这份 数据 可以 由 原来的 这种 内容 的 出版商 或者 直接 提供 的, 我 直接 加载 进去。 完了 这个 我相信 是一个 很大 的 市场, 相信 所有的 东西 在 这个 情况 下都 要 重新 出版 一遍, 就是 以 一种 A I 的 读 的 形式, 而 不是说 现在 像 原来 像 人 出版 的 这种 形式。 还是 请 他 看 4D电影。 对对对, 给他 都 准备好了, 然后 喂给 他。

对, 因为 现在 本身 大 模型 很多 问题 没 解决。 比如说 你 采集 的 数据 的 这个 内容 的 来源, 版权, 这 问题 都 没有 解决。 它 其实 也要 一个 很 合规 化 的 过程, 比如说 我会 跟 别人 举 一个 例子, 现在 这个 非常 混乱 的 时代, define 是一个 开源项目。 开源项目 你知道 是 有 许可证 的, 就是 让 你 干什么, 不让 你 干什么。 如果 像 接下来 GPT5, 他们的 能力 足够 强能 加工 很多 代码。 那 我 拿 一个 限制 很严 的 开源项目 给他 读 一遍, 让 他 重写 一遍, 那 不就是 一个 完全性 的 东西 吗?

对 吧 像 我自己 抄 了 一遍 书, 那 这个 书 还是 不是我的, 就这样 的 问题 有 很多, 这样 版权 的 问题 都都 需要解决。 有没有 什么 你 现在 最 担心 的 问题, 或者 最 焦虑 的 是什么 事情? 我 最 焦虑 的 问题, 其实我 焦虑 的 是 模型 的 发展速度 没有我 刚才 说 的 那么 乐观。

我 其实 也是 主要 焦虑 这个 问题, 所以 要 给 尤其是 国内 的 这些 大 模型 创始人 打 call 是 吧? 对, 还是 要 加油。

大 模型 厂商 很多, 最近 也 跟我聊 了 落地 的 问题, 因为 一个 是 define 现在 可以 帮 他们的 一些 用户 做 落地。 一方面 他们 现在 有 一些 模型 厂商, 他们 已经 卖出 了 一些 蛮 大 的 客户, 客户 的 预期 很高。 即使 现在 拿出 世界上 最好的 模型 的的 能力, 其实 还没有 办法 去 满足。 所以 他们 跟 我 一样, 跟 开发者 一样, 其实 也 处于 在 找 情景, 或者 各种各样 的 尝试。

对 他们的 就 像是 技术 材料 提供商, 就 像是 一个 装修队, 就 还是 要 有人 把 这些 东西 真的 装 好, 变成 一个 商品房。

因为 坦率 讲, 现在 说 今年 国内 大 模型 有一点 计划经济 的 味道, 对 吧? 他 可能 是 这种 需求 端, 可能 是 一股脑 大家 都 去做。

但 这个 我 唯一 有可能 觉得 他 应该 被 计划 的。 因为 大部分 人 这个 事情 确实 很 费 成本。

当然 没有 集中 的 资源 调度, 可能 做 的 就 赶不上 人家。

对, 所以 这个 事儿 我 反而 觉得 说 你 计划 一下。

但 你知道 计划经济 的 带来 的 问题 就是你 需要 拿着 锤子 找 钉子。

会有 这么 一个 过程。 是是是, 拿着 锤子 找 钉子, define 是什么 呢? Dey 是 锤子 吗? 也 不是 钉子。

也 不是 锤子, 不是, 我们是 介于 锤子 和 钉子 之间 的 东西。

对 对对对 对你 你是 那个 螺母。

就现在 锤子 们 都在 相互 模仿 去 造 锤子。 对。 Define 从 第一天 就是 围绕 钉子 去做 的 东西。 我们是 基于 一个 开发者, 甚至 是 小白 的 开发者 反推 如果 要 充分 的 利用 大 模型 能力 应该 做些什么 而 做 而 诞生 的 一个 产品。

所以 最后 结 我想 讲 的 这就是我 最 看好 define 的 地方。 未来 上游 一堆 大 模型, 下游 是 一堆 应用 开发者, 中间 一定 是 需要 一个 东西 来 串 起来。

我们 最 宝贵 的 那个 东西 不是 我们 现在 是 影视 人, 甚至 已经 连接 到 的 这种 几千个 开发者, 中间 可能 有 上 百个 跟 我们 关系 特别 好。 所有 问题 有 需要 落地 什么, 遇到 什么样 的 技术难题, 自己 受到 的 这个 成本 限制 或者 什么什么。 他们 会 把 这些 信息 毫无保留 的 告诉 我们, 他们 甚至 不一定 会 告诉 模型 厂商, 他 会 告诉 我们。 我们 就 知道 说 他在 这个 有限 的 命题 作用 下, 可以 做出 什么样 的 东西, 提法 可以 帮 他 什么。

对我 其实 看 了 好 几次 你们的 那个 公 号 的 文章, 里面 很多 文章 写 的 东西 都 非常 的 干货。 而且 他 一看 就是 实打实 的 一线 操作 上 遇到 的 各种 问题 和 解答。 所以 我 觉得 大家 有 机会 也可以 去 关注 一下。 你 但 你 宗教 就是 divide 这个 四个字母, 搜 D I F Y 就能 搜 到, 对 吧? 也 欢迎 大家 github 上 搜 一下, 然后 点一下 star 是 吧? 网站 就是 dividing A I 就是现在 已经 可以 用了。 对, 是对。 最后 还有什么 想要 跟 大家 讲 的 或者 分享 的 吗?

我们 最近 会 和和 很多 的 模型 厂商 合作, 因为 很多 国产 的 模型 或者说 一些 前轮 大家 还没有 用到 过, 我们会 跟 他们 合作, 会给 开发者 送出 很多很多 的 额度。

这个 听起来 像是 广告 的 有点 对, 但 确实 事实上 是 这样。 对, 这个 就是 底盘 的 家 也是。 对, 目前 是 独家 的。 对对对, 可以 送 很多很多 token, 挺 好好, 今天 反正 整体 我 觉得 讲 了 A I 相关 的 很多 细节, 我相信 其实 有 很多 人像 我 类似的, 就是 大家 经常 日常 讲 很 多次。 但 其实 对于 这次 背后 到底 实际 的 意义 是什么, 不一定 有 那么 清楚。 希望 今天 我们 讲 这些 东西 是 也能 给 大家 拉 起 一些 共识, 拉近 一些 基础 的。 好, 以上 就是 我们 这 一期 的 节目, 然后 感谢 陆宇。

好的, 谢谢 大家好, 拜拜。 叮咚, 下面 是 画外音 环节。

Hello 大家好, 我是 一档 播客 的 制作人 c define 是 曲 老师 特别 喜欢 的 一个 创业 项, 也是 他 自己 参与 投资 的 一个 项目。 所以 这 期 播客 结尾 我 又 拉 他 聊 了 聊 他 对 陆宇 老师, 对 中间层, 对 大 模型 应用 的 一些 判断 和 思考。 我们 前 两期 聊 了 很多人 本身, 然后 这 期 我们 就 单纯 在 辽 A I 在 聊 他 做 的 事情。 你 能不能 再 展开 讲讲 你 对 陆伟 老师 人 本身 的 认识?

对, 这 期 其实 没有 聊 太多 他 个人 相关 的 事情, 你 主要 是因为 我 跟 他 还 太 熟 了, 然后 陆羽 是个 很 有意思 的 人, 我们 当时 遇到 他的 时候, 其实 他 大概 我想 是 4 5月的 时候。 那个 时候 大家 还都 在 看 中间层 到底 有没有 机会, 大家 都 觉得 说 大 模型 会不会 做, 中国市场 会不会 跟 海外 不一样 等等。 但是 陆羽 跟 我 联系 的 时候, 他们 基本上 已经 把 这 一整套 东西 做出来 了。 所以说 他 其实 是一个 执行力 非常 强 的 团队。 他 也 给 我们 授 了 他 对 海外 市场 的 整体 的 研究, 包括 比如说 蓝晨 什么 等等 一些 其他 项目。 他们 已经 把 他们 那些 代码 看 了 好多遍。 我 觉得 就是 执行力 很强, 然后 人 也很 聪明, 但是 对于 市场 非常 的 理解。 因为他 做 中间层 其实 是 需要 他 对于 开发者 和 大 模型 都有 很多 理解 的。 所以 也是 为什么 我 去 找 他 来做 这 一期。

我 觉得 他 现在 肯定 是 国内 最 了解 大 模型 和 整个 生态 的 人, 以及 说 他 其实 对 这个 方向 有 很多 自己的 想法。 之前 也 做 过 很多 在 box, 国内 的 这些 应用 开发 的 工具 等等 相关 的 市场。 所以 我 觉得 他 其实 特别 适合 做 这件 事情。

你 会 格外 喜欢 什么样 的 创业者, 就和 市场上 其他人 相比 的话, 有 没有什么不同 的 偏好?

我们 还真 跟 市场上 大多数人 可能 不太 一样。 市场上 有 一派 是 喜欢 很 年轻 的, 就 那种 特别 聪明, 非常 有 潜力 的那 我们 其实 这种 类型 的 项目 接 的 并不多。 现在 市场 更多 的 是 需要 经验, 需要 更多 的 有过 组织 花钱, 知道 这个 事儿 怎么 落地, 怎么 从 0到1 的 这些 经验 的 人, 这个 是 一方面。 另外 市场上 还有 一批 人是 非常 喜欢 特别 背景 善念 的 高 管, 但 我们 也 不是 特别 喜欢 这种。 因为我 觉得 这种 其实 他 有可能 已经 不是 那么 落地 的 能力 不一定 很强。

我们 认为 一代人 有 一代人 的 机会。 上 一代 的 这些 成功 创业者, 他 已经 在 移动 互联网 里面, 不管 是 赚 到 钱 还是 卖国 公司 也好, 就 已经 有过 成功 的 经验 了。 这 一波 我们 更 喜欢 的 是 还是 像 之 前提 的 那个 所谓 的 underdog 的 这个 概念。 就是 他 怎么样 能够 在 这个 市场 里面 有 足够 的 冲, 然后 又 足够 的 hands on, 能 自己 做 很多 dirty work, 又 学习 能力 很强。 所以 我们 其实 比较 喜欢 这类, 就是 有点像 大厂 的 这种 中间层, 但是 是 大厂 的 核心力量。

对, 还有 一点 就是 执行 能力。 我们 刚才 也 提到 了, 我 觉得 现在 其实 整个 市场 拼 的 也是 执行 能力。 这个 事情 我们 也 聊 了 很多 团队, 他 其实 很 纠结, 就是 一直 在 看, 一直 在 思考, 那 可能 几个 月 时间 就 过去了, 但 像 我 刚才 提 的, 像 陆宇 他们的 团队, 可能 在 大家 还在 想 的 时候, 他 已经 把 事 做出来 了。 而且 他 不是说 盲目 的 埋头 去做, 是 想 的 很 清楚 前提 之下 把 这 事儿 已经 做出来 了。 这个 也是 我们 非常 喜欢 define 这个 项目 的 核心 原因 之一。 就 当 大家 在 差不多 起跑线 上 的 时候, 那你 每一步 都 能比 别人 快一点, 那 最后 就能 积累 很大 的 优势。

但 执行力 强 的 基础 是什么 呢? 就 做得 更快 的 本质 还是 说 他 想 的 比 别人 清楚。

想 得 清楚, 这是 最 重要 的 一点。 另外 一点 就是 像 我们 刚才 讲, 他 确实 是 做 过 类似的 事情 的。 所以 他 知道 这个 事儿 要 落地, 该 怎么 落 怎么样, 很快 的 就能 跑 通 从 0到1 的 这么 一个 过程, 而 不会 像 其他 团队 一样 要 重新 再 进来, 再去 踩 坑, 再去 走弯路, 再到 他们 现在 这个 阶段。

所以 在你看来 执行力 强 等于 想 的 清楚 加 有 经验。

是 明白。

所以 你 当时 为什么 自己 也 投 了 头发? 除了 刚刚 提到 的 创始人 的 方面, 主要 看中 他 哪 几点?

我们在 那个 节点, 其实 在 当 大家 都 没有 那么 看好 中间层 的 时候, 我们 就 已经 很 看好。 我 觉得 核心 原因 是因为 大多数 市场上 的 投资人 是从 大 模型 开始 看起来 的。 所以 大家 都会 觉得 说, 我 投 了 大 模型, 然后 大 模型 能力 很强, 或者说 大 模型 把 后面 事情 都会 自己 做。 我们 其实 是从 应用层 看起来 的。 就 我们 先 去 看 那些 做 应用 的 人, 然后 也 聊 了 很多 的 公司, 然后 发现 大家 其实 花费 大量 的 时间 在 做 一些 基础设施 上 的 东西。 就 比如说 可能 有 团队 花 几个 月 时间 就是 为了 追求 一个 可控性, 或者 追求 一个 可 落地 性。 那 这 里面 就有 大量 的 时间 和 工作 其实 是 浪费 掉 的, 或者说 是 重复 的 dirty work。 那 他 就 很 需要 一个人 在 中间 去 把 这些 事情 做 掉, 这个 是 一个点。

另外 一个点 就是 我们 还是 认为 未来 大 模型 会 是一个 分散 的 市场。 就 至少 相当长 的 一段时间 内, 大家 会 选择 各种各样 的 模型, 或者 甚至 说 会 自己 基于 开 模型 去做 些 相关 的 训练 等等 这样的 事情。 所以 如果我们 认可 说 未来 应用 端 会有 海量 的 应用, 大 模型 又是 一个 分散 的 市场。 那 其实 中间层 就会 是一个 很 好的 一个 入口。 反而 中间层 会 把 这 两边 集合起来, 成为 一个 平台 级 的 机会。

就像 美国市场, 其实 很多人 在 看 现在 数据库 这个 概念。 但 美国市场 其实 最近 起来 比较 快 的 一个 现代 数据库 叫 chroma。 那 它 为什么 能 起来 呢? 我们 后来 去 看, 就是 因为 LangChain 它 首选 首推 的 是 chroma 这个 相关 数据库。 其实 应用 开发者 他 可能 不会 那么 care 到底 我 用 谁, 或者说 他 不会 花 那么 多 的 时间 去 研究 各个环节。 这 里面 他 最能 接触 到 的 就是 L M O S 这 一层。 这 一层 就像 迪拜 这样的 公司, 后面 他 推荐 谁, 他 把 谁 整合 进来, 后面 这些 东西 就能 起来。 所以 其实 这个 战略 的 定位, 我们 觉得 是 非常重要, 非常 有 前景。

的那 你怎么看 接下来 中间层 的 创业 和 投资机会?

我们 把 中间层 其实 分成 两类, 一类 其实 它 更 偏向 于 大 模型 层 的, 比如说 现在 很多 做 分类, 做 做 训练, 推理 相关 的 这些 公司。 另外 一类 就像 defy 这样 比较 接近 应用 开发者 的。 我们 觉得 前 一类 会 是 比较 困难 的, 就会 遇到 很多 挑战。 比如说 这个 东西 它 到底 卖给 谁, 到底 落 的 场景 是 怎么样 的。 像 很多 应用 的 公司, 他 可能 不太会 自己 去 考虑 说 我要 怎么 去 做大 模型。 然后 如果 他的 客户 面向 的 是 大 模型 层 的, 那大 模型 的 很多 公司 确实 会 把 这些 东西 自己 做 掉。 如果 他是 核心 的 跟 训练 推理 等等 相关 的 东西, 我 觉得 大 模型 不太可能 把 这个 东西 放给 别人 来做。 所以 我们 觉得 跟 大 模型 越 近, 它的 难度 就 越高。

但 跟 应用 开发者 这边 越 近, 它 也有 个 问题, 就是 会不会 to c 的 事情 有 很多人 自己 就 做 掉了。 比如说 现在 有 很多 做 bot 社区, bot 的 应用 开发 平台 等等 这样的 东西。 它 其实 是 比较 偏向 于 to c 的 一个 事情, 就是 大家 进来 以后 就可以 使用 它。 或者说 未来 可能 它是 要 讲说 我要 做 一个 报 的 平台 等等 这样的 事情。

我们 觉得 两边 其实 你走 的 太 近 都 会有 问题。 你 跟 大 走 太 近 容易 被 大 模型 吃掉, 或者说 没有 市场 空间。 跟 C 端 那边 走 太 近, 你 就 容易 变成 一个 to c 的 平台。 那 未来 的 竞争 又 很 激烈, 然后 很多 做 应用 开发 的 事情 也会 觉得 说 你是不是 竞 品, 或者 你会不会 他们 就 把 这件 事情 做 掉了。 所以 这 里面 是 需要 有一个 团队 的, 非常 有 定力, 非常 有 经验, 就是 把 中间层 做好。 我 觉得 迪拜 就是 这么 一个 团队, 所以 我们是 比较 看好 在 中间 的 这么 一个 机会。

这个 思考 怎么样 有意思? 如果 再 往上走, 你 对 大 模型 怎么看, 有没有 什么 unpopular opinions?

其实 我们 在 3 4月 的 时候 就 一直 在 提说, 大家 高估 大 模型 的 能力, 低估 了 落地 的 难度。 这个 就是我 刚才 讲 的, 我们 看 了 很多 应用 得出 的 结论。 但 目前 越来越多 的 人 其实 是 同意 我们 这个 结论 的, 我们 仍然 是 觉得 说 未来 大 模型 能力 是 有限 的, 会 是 多 模型 共存 的 一个 状态。 所以说 我们会 比较 看好 中间层 的 一些 机会, 我 觉得 这个 是一个 非 共识。

以及 说 我们会 觉得 说 大家 既 乐观 又 悲观。 一开始 的 时候 大家 会 很 乐观, 觉得 大 模型 什么 都能 做。 现在 渐渐 的 就会 变得 比较 悲观, 觉得 说 大 模型 其实 在 能力 上 是 有 很多 欠缺, 很多 局限 的那 我们 始终 是 保持 个 中间 态。 我 觉得 大 模型 就 好像 每个人 发 的那 一手 牌 一样, 就是你 不太可能 一上台 给你 发 个 同花顺, 但 他 其实 也 不会 差 到 说是 一手 非常 烂 的 小牌。 那 这里 边 就 需要 很多 战略 策略 层 的 东西, 你 怎么样 去 把 自己的 手牌 打 好啊? 比如说 我 是不是 能够 用 大 模型 已有 的 能力 去做 这些 东西 出来。 我们 还是 看到 一些 公司, 比如 像 妙 鸭 会 读 这样的 公司, 它 基于 已有 的 能力 能够 去做 更好 的 产品 定位, 然后 能 做出来 一些 跟 之前 不一样的 产品, 而且 是 大家 能 用 应用 的 东西。

明白, 那 除了 你们 之前 说 这种, 不要 试图用 A I 解决 一个 大问题, 然后 最好 先 找到 一个 小的 精确 的 切口 问题, 越线 就 越 容易 出 结果。 你 觉得 现在 创业者 普遍 暴露出来 的 问题 还有什么? 应用层 的话。

我 觉得 这个 是 核心 的 问题。 就是 作为 一家 应用 的 公司, 现在 有 很多 公司 在 讲 自己 怎么样 去 突破 技术 上 的 局限, 或者说 花了 很多 精力 人力 跟 时间 财力 的 成本 在 解决 技术 的 问题 上。 我 觉得 这个 不是 应用层 公司 最好的 选择。 就 做 应用 最好的 选择 是 怎么样 利用 已有 的 技术 去 更好 的 定义 用户需求, 去 解决 用户 的 问题。 而 不是说 我 现在 找到了 一个 需求, 但是 我需要 更好 的 技术 来解决 这件 事情。 那 我 就要 先 投入 很多 精力 在技术上, 我 觉得 这个 不是 一个 特别 好的 路径。

然后 最后 总结 一下, 你 聊 完 整体 感受 怎么样。

你看 像 3 4月 开始, 我们 其实 讲 很多 所谓 的 fine tune on, 所谓 的 什么 embedding 这样的 事情。 但 至少 从 我 个人 的 角度 来讲, 我 其实 也没有 把 这个 事儿 理 得 特别 清楚。 就 到底 在 什么 场景 需要 用 番茄, 什么 场景 需要 用 这个 prop engineering, 或者 说到底 这个 背后 意味着 什么。 我 觉得 这 一期 的 节目 主要是 把 这些 问题 相对 的 理 清楚 了, 告诉 大家 说 这个 背后 的 意义 是什么, 在 什么 场景 应该 用 什么东西。 所以 这件 事儿 我 觉得 是 比较 有 价值 的, 以及 说 我们 聊 了 很多 跟 大 模型 落地 场景 相关 的 东西。

你看 像 迪拜, 他 讲 他们 现在 平台 上 应该 有 五万多 个 实际 的 应用。 就在 大家 都在 质疑 怀疑 说到底 哪些 应用 是 好的, 到底 A I 能不能 落地 的 时候, 他 这边 掌握 了 最 一手 的 数据。 所以 他 给 我们 分享 的 这些 落地 的 场景 和 他 看到 的 一些 问题, 应该 是 最 实际 的, 是 最好的 视角。 我 觉得 这些 应该 也能 给 大家 一些 参考。

对我 也 觉得 这是 一期 很 完整 的 关于 大 模型 落地 的 一站式 讲解。 就 从 开头 的 小白 科普, 然后 到 商业 应用, 到 最后的 未来 展望。

对 这些 可能 不会 有 那么 多 的 方法论 什么 相关 的 东西。 但 我 觉得 这些 其实 对于 实际 在 做 这个 领域 的 人, 或者 关注 这个 领域 的 人 来讲 是 价值 很高 的。

好, 我们 这 期 就 聊到 这。

好。

拜拜。