cover of episode S8E07 | 还不能预测万物,聊聊AlphaFold3的创新和局限

S8E07 | 还不能预测万物,聊聊AlphaFold3的创新和局限

2024/5/31
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
张璐
推动太空投资和提供深入行业分析的风险投资专家。
徐魁
雅娴
推动科技教育和行业分析的播客监制和媒体从业者。
Topics
张璐从商业角度分析了AlphaFold3,指出其在预测效率和精度上的显著提升,以及友好的用户界面使其更易于使用,并能预测蛋白质与其他分子(如核酸、小分子、金属离子)的相互作用,这对于药物设计和研发至关重要。她还强调了AlphaFold3在CPU上的高效运行降低了算力成本,并认为其对产业的影响可能比其他AI产品更快更大。同时,她也提醒大家对技术的商业化周期要有合理的预期,AlphaFold3并不能大幅缩短药物研发周期,尤其是在临床试验阶段。 徐魁从技术角度详细解释了AlphaFold3的改进,包括模型架构的优化(例如将Airformer模块替换为Pyformer模块),以及预测和优化步骤的整合,从而提高了预测效率。他指出AlphaFold3应用了扩散模型等技术,并对耗时长的模块进行了改进,预测速度大幅提升。他还提到了AlphaFold3在药化方面的改进,以及一些局限性,例如原子碰撞、模型幻觉和多构象蛋白预测等问题。 雅娴补充了AlphaFold3的应用场景,指出其主要应用于药物研发的临床前阶段,用于筛选潜在药物分子,而对临床试验阶段的帮助有限。她还提到,在临床实验阶段也有其他AI技术在帮助加速临床过程。 丁教对AlphaFold3的应用前景进行了总结,指出其虽然在药物研发中具有巨大潜力,但需要理性看待,短期内可能被高估,长期内可能被低估。她认为,在可见的未来,人类的参与和判断仍然是必要的,人工智能只是高效的工具。

Deep Dive

Chapters
AlphaFold 3在蛋白质预测的基础上增加了蛋白质与DNA、RNA相互作用的预测,并提升了预测效率和精准度。其用户界面更加友好,且在CPU上的运行表现比GPU更好,降低了算力成本。
  • AlphaFold 3可以处理蛋白质、核酸、小分子和金属离子,并预测它们之间的相互作用。
  • AlphaFold 3的效能和精准度相较于AlphaFold 2均有显著提升。
  • AlphaFold 3的用户界面更加友好,降低了使用门槛。
  • AlphaFold 3在CPU上的运行表现比GPU更好,降低了算力成本。

Shownotes Transcript

用 声音 碰撞 世界 生动活泼。 在 本期 节目 开始 之前, 我想 和 大家 分享 一款 由 3C数码 品牌 图拉斯 推出 的 叫做 yoga 的 二合一 充电器。 熟悉 我的朋友 应该 知道, 我就是 在 中美 两边 跑, 也 经常 会 在 不同 的 城市 出差。 上周 我 去 上海 参加 四 出门 之前 我是 拿到 了 图拉斯 送给 我的 这 款 yoga 的 充电器, 使用 起来 确实 是 蛮 方便 的, 一来 它是 充电线 和 充电头 集成 在一起 的, 线 是 可以 自动 伸缩, 就和 我们的 这种 卷尺 是 非常 类似的, 用 的 时候 拉 出来, 然后 收 的 时候 一 拉线, 然后 它 就会 很 丝滑 的 自动 缩回, 能够 无痕 的 隐藏 到 充电头 里面, 它的 两个 插脚 其实 也是 内嵌式 的, 可以 折叠, 不用 的 时候 它 就是 感觉 比 我们的 耳机 air port 稍微 大 一点 的。 这种 平滑 的 立方体 确实 是 像 他们的 产品 slogan 一样, 就 叫做 随 取、 随 用、 随 收、 随 走。 而且 它 基本 适配 全球 的 电压。 像 我 这种 中美 两边 跑, 然后 经常 去 国外 出差 的话, 其实 带 一个 yoga 就 够了。 二来 图拉斯 的 yoga 其实 是 多用 的 充电口, 可以 同时 充 我的 苹果 电脑和手机。 而且 是 这种 40瓦的 功率 的 快充, 不会 过热, 然后 也 不会 给 电池寿命 造成 额外 的 伤害。

这 款 图拉斯 尤卡 充电器 的 链接 我们 也 放在 了 show no 当中。 如果 大家 对 这 款 产品 感兴趣 的话, 可以 了解 详情, 激情 下单。 感谢 大家 对 科 槽 的 支持, 谢谢。

欢迎来到 我 科技 早知道 第八 季, 和 全球 创新 第一 时间同步。 Hello, 大家好, 欢迎来到 我们 今天 的 科技 早知道。 最近 因为 各种 A I 产品 发布 的 确实 有点 多, 有一个 非常重要 的 话题 我 一直 想 聊, 今天 终于 排上 日程 了, 那 就是 alpha four three。 我们在 20年底 的 时候 邀请 过 fusion fund 的 创始 合伙人 张璐 来 聊 ala 42。

Alpha 43在原本 的 蛋白质 预测 上 又 增加 了 比如 蛋白质 与 D N A R N A 相互作用 的 预测。 Deep my 宣称 在 新药 发现 和 临床 测试 上面, 本来 会 以 10年 起计 的, 这种 开发 的 时间 会 大幅 的 缩短。 特别是 有 一些 临床试验, 它 可以在 人体 试验 之前, 就 把 很多 不确定 的 风险 提前 在 实验室 里 先 模拟 出来。 这样 会 极大 的 提高 药物 的 研发 效率, 延长 人类 的 寿命。 可能 不仅仅 只是 说说而已 了。 但是 在 商业 上, 最近 他们 也 是因为 没有 把 alpha 43的算法 开放 出来, 受到 了 很多 业界 人士 的 诟病。 所以 我们 今天 就 请来 了 几位 嘉宾, 分别 是 学界 和 业界 的 嘉宾, 一起 从 技术 和 商业 的 角度 分析 一下 f for four three。

第一位 就是 我们的 老朋友 张璐, fusion fund 的 创始 合伙人。

大家好, 很高兴 再次 参与。

然后 是 清华大学 计算 生物学 博士 徐 奎。

你好, 大家好。

最后 一位 是 我们的 科 早 监制 雅 贤雅 贤, 自己 也是 这个 生物 背景。

大家好, 我是 雅 贤。

首先 我们 可能 还是 先聊 一 聊 up for four three 他 能够 做到 什么? 然后 他 跟 前面 的 alpha four two 相比 的 这个 区别, 有没有 什么 upgrade? 我想 先请 徐 博士, 我们 大概 的 简短 先聊 一下。

2或者 数据 出来 的话, 我 觉得 当然 我 经常 跟 你 身边的人 介绍 的 时候, 就是 以 这种 比较 扩大 的 方式, 经常 给 他们说 三体 来了, 以 这种 方式 吸引 大家 的 注意力, 对它 确实 是一个 很大 的 突破, 就是 它 功能 上 有 很多 的 扩展, 对 吧? 之前 只是 做 蛋白 相互作用 经常 被 大家 诟病 的话, 就是说 第一个 不能 做 抗体, 第二个 也 不支持 蛋白 和 其他 的 各种各样 的 分子 的 相互作用, 包括 小分子 等等 之类 的。 现在 这些 功能 都有, 而且 他 还 做了 很多 就是 像 蛋白 上 有 各种各样 的 一些 供应链 的 修饰、 糖基化、 甲基化 等等 这些。 而且 它 支持 的 非常 的 全面, 这就是 在 功能 上 有 这么 一些 扩展。 扩展 算法 上 的话, 就是 这些 新的 一些 像 mid journey, 像 sora 等等, 这里 边用 的 一些 division 扩散 的 这种 模型, 它 也都 应用 进来 了。 包括 前面 24的2代里边 一些 耗时 比较 长 的 一些 模块 上, 他 都 做了 极大 的的 修改, 使得 他 现在 这个 方法 非常 快速 的。

说 身体 来 的话, 最 主要 的话 就是我 是 使用 之后 的 一个 感想。 除了 说 我们在 paper 里面 能 看到, 还有 各种各样 的 一些 我们的 提升, 或者 是在 各 大 任务 上面 都是 最好的。 比 以前 之前 的 Baker 他们 做 的 像 那些 M A, 或者 是 process for 的 or autun 等等 这些 都 要好 很多。 除此之外 的话, 它 速度 上面 是 可以 说是 非常 快。 像 之前 我们 对我 比如说 预测 这种 5000个氨基酸 的 这种 蛋白 复合物 也好 之类 的, 基本上 怎么 也得 花 个 五六个 小时。 这个 的话 差不多 就在 20分钟 左右 就 出来 了, 包括 还有 这里 边 现在 有 很多 药化 的 一些 功能, 就是 和 小分子 结合 的。

虽然 现在 他们 官方 开放 了 一个 server 可以 供 大家 去 使用, 但是 有 很多 的 这种 小分子 什么的, 其实 都 受限 了的。 但是 它 内部 的话 肯定 是 可以 支持 很多 的, 像 各种各样 的 一些 修饰 什么的, 可以 支持 到 将近 一千 多种。 像 小分子 的话, 可能 估计 百万 千万级 别的, 我 估计 都会 支持 很多。

因为他 这次 好像 是 有一个 单独 的 一个 spin off 出来 的 公司, 叫做 s mop c lab。 这个 其实 是 他们 自己的 一个 想要 商业化, 然后 这 样子 的 一个 新的 一个 在 业务 上 的 一个 举措。 我不知道 这块 请 张璐 来 帮 我们 可能 更 详细 的 介绍 一下。

那 我 可能 补充 一下 徐 博士 讲 的, 其实 包括 像 alpha 4的话, 就像 刚才 徐 博士 提到 的话, 它 不仅 可以 处理 蛋白质, 它 可以 同时 输入 像 核酸、 小分子, 包括 金属离子。 因为我 以前 是 学 材料科学 工程 的, 我们 做 无机 非金属、 金属离子 等等。 所以 他 可以 去 预测 这些 小分子, 包括 不同 的 离子 怎么 和 蛋白质 去 结合 这种 作用, 其实 这种 预测 是 非常 关键 的, 因为 蛋白质 它 不能 孤立 地 发生 任何 作用, 它 一定 要是 和 其他 物质 产生 交流。 而且 这个 交流 的 过程 实际上 是 我们 再去 聊, 比如说 药物 设计, 药物 研发 中 比较 重要 的 一个 部分。 所以 这也是 为什么 说 这个 alpha 43让大家 会 觉得 说 A D 商用 的 应用 非常 近, 而且 它 非常 好用。

另外一个 的话, 就是 刚才 徐 博士 已经 提到 的, 像 它 效能 的 提升 也是 非常 惊艳 的这 里面 我 也要 提 一点, 就是 它的 U I 很 好用。 其实 像 阿尔法 42的话, 虽然 出来 了 之后 你 觉得 技术 很 惊艳, 但是 真的 你 没有 一个 programming 或者说 是 这样的 一个 背景 的 人 去 用。 像 结构 生物学家 直接去 用, 还是 有 一定 门槛 的, 不是 特别 好用。 但 现在 这个 三 出来 之后 的话, 它 U I 非常 好用。 这里 我 还要 再 提 另外 一家 公司, 因为 大家 经常 提 的 就是 谷歌 demand, 对 吧? 其实 英伟 达 在 过去 这几年 也是 在 和 阿尔法 四三 的 结合 上 做了 很多很多 的 工作。 包括 在 整个 这个 平台 的 搭建 上去 降低 使用 的 门槛, 在 后面 调用 不同 的 模型, 做 的 非常 的 顺滑。 所以 我 觉得 所有的 这些 聚集 到 一起, 然后 现在 大家 觉得 不仅 可以 用 技术 很 惊艳, 而且 很 好用, 所以 它 效能 提升 就 很 明确。 另外一个 更 重要 的 就是 它的 精准度 的 提升。 就 包括 是 小分子 蛋白质 的 精准, 还有 包括 抗体 蛋白, 还有 D N 蛋白, 这些 预测 的 精准度 都在 大规模 的 提升。

像 最早 alpha fold two 出来 的 时候, 如果 丁 酱 你还记得 当时 我们 聊 我们 就 提到 过 说 它是 很 让人 惊艳, 但 真的 去 影响 临床, 还 包括 药物 研发, 我们 还是 要 看 它的 精确度。 你 精确度 不够 的话, 你 差一点 也 用不了。 你那 部分 还是 要 再去 把 缺失 的那 一点, 你 用 传统 的 方式 或 怎么样 去 给 它 补上。 但是 现在 精确度 增加 了 之后, 精确度 如此 之高, 有些 的 结构 就可以 直接 来 用, 而且 它 又 相对 复杂 的 这种 复合物 的 一个 结构。 所以 他 对于 产业 的 商业化 的 一个 影响, 其实 对于 整个 产业 的 影响 来讲 还是 非常 巨大 的那 现在 包括 我 觉得 也 回到 你 刚才 提 的 一个 问题。 这次 也 不单 单纯 是 deep mind 再去 支持 这个 技术, 也有 他们 spin off 的 这样的 一个 公司。 所以 他 也可以 更强 的 去 结合 工业界 对 这个 技术 的 需求 反馈, 还有 包括 数据 去 更好 的 帮助 他 下载 产品 的 一个 迭代。

另外 还有一个 小的 优势 我 可能 要 提 一下, 很多人 没有 关注。 因为 现在 大家 都在 聊 A I A I 然后 硅谷 希望 人工智能 可以 更好更快。 还有 一点 就是 要 更便宜。 便宜 的 一个 核心 就是说 你 在 G P U 算 力 上 的 使用 是否 高效, 或者说 你 需要 用到 多少 的 G P U 的 算 力。

最近 我们在 内部 也 做 一个 A I infrastructure 的 一个 研究报告。 其实 我们 就 发现 其实 像 比如说 像 阿尔法 A 43, 它 其实 在 C P U 上面 的 一个 表现, 运行 的 表现 可能 比 G P U 还要 好。 这个 对待 对于 很多 产业 来讲 就是 一个 福音。 因为 C P U 比 G P U 要 便宜 很多。 然后 你 对 算 力 的 需求 也 不会 那么 的 巨大, 那么 的 不可 持续。 所以 还是 非常 让人 兴奋 和 激动 的。

因为我 觉得 我们在 硅谷 也是 一方面, 我们 也 投 enterprise AI。 大家 每个 人都 在 聊 这个 Jimmy night 的 发布, 然后 包括 ChatGPT 的 four o 的 发布 等等等等。 但是 另外 一方面, 其实 alpha 4的3的发布 也 让人 非常 的 兴奋。 而且 我 觉得 在 某种程度 上 对 产业 的 影响 可能 会 更快 和 更大。

因为 我们 一 聊 这个 东西 就 感觉 它 太 底层 科学 了。 对于 很多人 来说, 它 在 day to day 生活 当中 其实 不会 太 接触 到。 然后 我 又又 太 专业 了。 有的 时候 聊起来, 大家 觉得 这 跟 我 好像 没有 太 大关, 但是 其实 不是 的。 所以 这 期 节目 我是 特别是 想 让 大家 去 了解 of a four three, 然后 对 我们 潜在 的 这样的 一个 影响。 我们 刚刚 也是 聊到 有 一些 他的 同样 的 一些 预测 软件 的 竞争对手, 像是 徐波 刚刚 提到 roseta four, 然后 包括 张璐 提到 了 有 很多 英伟 达 正在 做 的 一些 产品 方面, 或者 投资 的 一些 公司 这些 方面 的 这些 effort。 我不知道 现在 竞争 的 这个 landscape 是谁, 然后 他 这些 公司 分别 是在 哪一块, 可能 是 有 他 自己的 一个 竞争 优势。

在这里 边 最大 的 和 他 最 相关 的 有 几个 组, 当然 他 这个 配置 里边 也 提到 了, 包括 所以 不 声明 的 就是 带着 的 完成 我们 开发 了 很多, 包括 这个 的 后面 的 像 or autumn, 还有 r ford 5NA 等等, 这些 都是 和 他 这个 or four d three 相关 的 一些 功能, 最 相关 的 方法。 其次 的话 就是 meta 他们 有一个 团队, 就是 那个 E S M for 的。

但 不是 最近 被 解散 了 吗?

理解 上了 对不对? 但是 他 这个 语言 模型 的话, 确实 已经 在 学界 已经 服务 于 很多很多 这个人 了也 基本上 很多 城市 就是 拿 这样的 一个 蛋白质 语言 模型, 就是 这个 E S M two 作为 他的 输入, 然后 后面 去做 各种各样 的 下游 的。 无论是 说 蛋白 的 设计 也好, 它的 模型 的 生成, 或者 是 和 一些 R I 结合 的 这样的 一些 模型 就 用 在这里 边。 如果 一 提到 蛋白质 设计 的话, 那 这个 范围 就 大 了 很多 了。 但 目前 of four three 里边 没有 包含 蛋白质 设计 这块 主要是 还 偏向 于 分子 之间 的的 预测 和 这个 有关的。 国内 的话 倒是 有 一些 团队 在 做 着 相关 的 事情, 就 比如说 像 华盛 的 amic food, 这也是 语言 模型 的 这种 方法。 包括 清华 的 人工智能 产业 研究院 的 之前 也 基于 2F的 two 有了 一些 创新, 走出 了 这个 open complex, 也是 开源 的。

我 觉得 美国 的 生态 可能 要 比 刚才 徐 博士 提到 的 中国 的 生态 要 更加 简单 一些。 因为 其实 大家 也很 清楚, 阿尔法 四 团队 本身 做出来, 他 也没有 特别 强 的 意愿 要 去 把 它 从 底层 的 这个 模型 一直 做到 应用 端。 所以 其实 还是 有 更多 的 创新。 它 其实 集中 在 应用 端, 这是 整个 现在 人工智能 创新 在 硅谷 的 一个 特点。 当然 也有 公司 做 模型, 但是 少数 大部分 人 专注 的 是在 这个 infrastructure, 还有 应用 端。 所以 对 阿尔法 四 来讲 的话, 本身 epa a 43它又是 一个 非常 开放 的 态度。

我 刚才 提到 英伟 达, 其实 英伟 达 也是 直接 把 alpha fold 整合 到 他们 这个 platform 面, 只是 说 把 这个 用户界面 做 的 更加 容易 用了。 然后 在 这个 基础 之上, 让 你 去 更好 的 使用 这些 产品。 买 了 更多 的 产品化 的。 所以 在 这边 我们 反而 没有 看到 太多 的 公司 想 去 直接 和 alpha fold 去 竞争。

另外 的话, 我 还是 觉得 我是 个人 非常 的 看好, 也 非常 的 佩服 deep man 的 这个 团队 的。 它是 谷歌 的 一个 大 杀器, 包括 现在 我们 看到 说 谷歌 最新 的 M I 的 发布, 它 其实 是在 赶超 OpenAI 的 GPGP4O 有 一部分 原因 也 是因为 deep mind 的 那边, 他 其实 在 持续 探索 新的 architecture, 这是 和 我们 其他 的 一些 做 模型 的 公司 不一样。 其他 的 模型 公司 它是 scaling 了, 就是说 我 还是 现有 的 这个 语言 模型 怎么样 越做越 大, 或者 做 一些 行业 专属 模型。 但是 到了 谷歌, 尤其是 这边 的话, 当然 他们 有 做 transformer 原 模型 的。 但是 我 觉得 deep man 一直以来 还是 去 探索, 或者说 是 根本性 的 探索, 或者说 是在 现有 的 大 模型 的 基础 上去 做 一些 architecture 层面 上 的 创新。 那 这个 architecture 层面 上 的 创新 就 会给 阿尔法 ford 非常 强 的 底气。 如果现在 有 started 出来 说 我要 和 阿尔法 4D出 去 竞争, 我会 觉得 不太 值得 投。

对, 非常 interest。 我 最近 是 知道 我 一个 朋友, 他是 国内 非常 知名 的 科幻 作家 叫 陈 楸 帆。 然后 他 最近 是 被 deep mind 邀请 过去 去 开 一个 这样的 一个 研讨会。 然后 是从 科幻 学家 的 这个 角度 来来 聊 一 聊, 未来 可能 会有 什么东西 是 可以 值得 被 实现 的。 然后 迪曼 就 往 这个 方向 去 研究。 我 觉得 到时候 我们 也 希望能够 可能 请 陈 楸 帆 过来, 然后 也 跟 我们 可以 早知道 的 听众 们 聊 一 聊, 到底 他们 聊 了 些 什么, 然后 也 帮 我们 预测 一下, 看 他们 往 哪个 方向 会 去 继续 研究。 我 觉得 这个 特别 interesting。

我可以 这边 再 多 加 一句, 因为你 提 的 这点 特别 有意思, 我也 经常 跟 一些 朋友 聊, 因为 我们 除了 投 A I 我们 也 投 医疗。 然后 对照 biology 等等。 其实 你 会 发现 蒂夫 曼 它 有一个 很大 的 优势, 就是 它 不仅 有 人工智能 科学家, 可能 比较 数学 物理 为 背景, 还有 很多 生物学家。 而 生物学家 尤其是 对 脑神经 科学 的 一些 理解, 对于 我们 大脑 的 这个 意识 潜意识 news network 的 理解, 会 帮助 我们在 人工智能 模型 的 基础 之上 做 下一代 的 探索。 所以 现在 你 会 发现 其实 会有 很多 新的 路径, 是因为 我们 对于 人 本身 的, 我们 这个 脑神经 网络 的 认知 在 加深, 去 反馈 给 下一代 新的 architecture 人工智能 的 一个 提升。 所以 这就是 跟 过去 十几二十年 很 不一样的 一个 路径。 过去 十几二十年 更多 还是 在 数学 的 这个 层面 上, 现在 是一个 更多 偏向 发掘 人类 本身 的 一个 优势, 然后 用 这个 东西 去 复制 人工智能 的 发展。 所以 这也是 为什么 你看 包括 英伟 达 Johnson 也 在 讲, 说 你 现在 下一代 要 去 做什么? 做 biotech, 然后 做 biology, 做 脑神经 学。

对对对, 我 觉得 今年 我也 去 G T C 的 这个 现场, 其实 发现 有 很多很多 的 药厂, 他们 派 了 一些 员工 就 过来 去 参加 G T C, 他们 从来 都 不会 来 G T C 的。 他们 就 想说 我 怎么样 能够 把 我们 这个 研发 药物 的 这个 流程 跟 英伟 达 的 这个 solution 结合起来。 但是 他们 现在 怎么能 大部分 人我 聊过 的 就 还没有 一个 特别 清晰 的 一个 路径。 我 觉得 是不是 也是 在 应用 层面 上面, 其实 还是 比较 早期 的 这样的 一个 阶段。

对, 是的, 对 药物 这块 r four three 这个 出来 之后, 其实 除了 结构 预测, 就是 在 这些 药物 上面 应该 有一个 极大 的 潜力 对 吧? 他 已经 将 因为 现在 比较 多 的话, 就是 大部分 的话 绝大部分 的话 是 靶向 蛋白 的 药物 对 吧? 然后 就 相当于 说 蛋白 和 这个 小分子 之间 的, 无论是 叫 docking 也好, 反正 就是 这种 结合, 目前 来说 这种 软件 的话 还是 非常 受限 的。 其实 从 他 那个 破 paper 里边 的 port 来看 的话, 像 大家 可能 用 的 比较 多 的, 像 这种 像 李安 的 等等 这些。 因为 它是 开源 的, 大家 都 可以 用。 但是 大家 用 的 这么 广泛 的 这个 软件 的话, 它的 功能 其实 可能 就 50%左右。 Paper 里面 写 的 大概 他们 测 了 一 K 的, 大概是 百分之 将近 59 52左右 的 这样的 一个 points。 然后 of four 的 three 的话, 它 直接 到了 九十 巨大 的 提升, 对 吧? 像 之前 大家 做 这 一步 的 时候, 当然 这 一步 主要是 用 C P U, 因为 当然 虽然 auto talk 它 也 出了 G P U 版。 大量 的 这种 分子 筛选, 就是 在 这 一部分 的话 需要 很长 的 时间, 无论是 像 机器 还是 什么的。

因为 小分子 的 量 很大, 所以 对 r four 是 第一个 他 很快, 第二个 他 又 准。 所以 在 这个 上面 可以 认为是 极大 的 加速。 这个 药物 的 研发 也好, 还是 发现 也好 等等 之类 的, 这个 领域 里边 应该 可以 释放出 巨大 的 潜力。 所以 这个 也是 他 一开始 说 的, 这个 三体 来了 在 方法 上面 降 维 打击。

我 可能 补充 一点, 就是说 一来 是 像 徐 博士 讲 的话, 他 对 效能 提升, 尤其是 在 寻找 新的 打点 层面 上 的话, 是 非常 的 有 帮助 的。 但是 我们 经常 讲 药物 研发 有 两个 阶段, 一个 阶段 是 research, 对 吧? 你 要把 新药 给 找到, 就是 潜在 的 这个 组合 找到。 找到 之后 的话, 你 还要 经过 临床 阿尔法 fold, 并 不能 让 我们的 临床 变快。 所以 其实 你 要 去 看 整体 的 这个 研发 的 周期, 对 吧? 你 可能 比如说 你 要 找到 这个 标的, 你 以前 需要 两年 时间, 现在 可能 几个 月 就 找到了。 但 后面 临床 七年 十年 还是 要 七年 十年。

所以 我 觉得 一方面 的话, 大家 确实 能够 看到 说, 包括 他在 工作 流程 的 一个 一体化 也 非常重要。 就 相当于 让 药物 研发 的 人员 他的 工作 起来 也 更 高效, 也 更 顺畅 了, 他 出错 的 几率 也 少了, 这个 也很 重要。 但是 后面 的 临床实验 还是 需要 很长 的 时间, 所以 我们 要 对 技术 的 商业化 周期 有一个 合理 的 预期。

我不 希望 大家 突然间 觉得 说 ARRA43 这么 的 惊艳。 三体 来了, 我们 是不是 以后 出现 什么 问题 的话, 药物 研发 两年 三年 就 完成 了, 这个 还是 不太可能 的。 但是 好在 是 说 以前 我们 可能 说 这 十种 疾病, 只有 这五种 我们 能 找到 潜在 的 药物。 但 现在 可能 这 十种 都能 找到 潜在 的 药物 和 潜在 的 药物 组合。 再 通过 相关 的 临床 还有 审批 去 把 它 推进 下去。

这也是 为什么 我 开始 在 准备 我们 前面 的 intro 的 时候, 我们的 监制 雅 贤 提醒 我是 要说 deep my 宣称 在 他们 会 减少 50% 的 时间, 他 还是 没有 被 验证 的, 所以 我们 得要 稍微 严谨 一点点。 不知道 雅 贤 这块 儿 有没有 什么 要 加 的。

前两天 我 其实 试用 了 一下 阿尔法 43, 确实 就是 像 徐辉 博士 说 的, 我 感觉 非常 的 快, 大概 20分钟 时间吧。 我 让 他 预测 了 一个 蛋白 抗体 的 相互作用, 基本上 就是 20分钟 就 给出 结果 了。 所以 我想 问 一下 徐辉 博士, 就是 他在 底层 设计 或者 在 模型 上 具体 是 有 一些 什么样 的 优化, 能 让 他 现在 效率 提高 这么 多 呢?

我 觉得 主要 有 两方面, 网络结构 的 设计 这 一块儿 之前 它 有一个 模型 架构, 对模型 架构。 对, 之前 有一个 叫 ever former 的 一个 模块。 这个 模块 大概 的话 就是 将 比如说 你 要 做 蛋白, 因为 二代 的话 主要是 做 蛋白 的 结构 的 预测。 对你 会 拿到 一个 蛋白 的 序列 对 吧? 输入 进去 之后, 它 会 在 前期 预处理 的 时候, 会 根据 这个 序列 把 它的 同源 序列 都 给 搜 到, 也就是 通常 我们 所说 的 这个 M A C。 搜 出来 的话, 看 这个 蛋白 的 同一性 的 也 多 的话 可能 就是 十几万, 甚至 上百万, 这种 其实 也会 说 出来。 少 的话 可能 就是 几百、 几十, 但 绝大部分 的话 都是 至少 成百上千 的。 把 所有的 这些 序列 都 输入 到 这个 网络 上去 的话, 完了 这个 模块 在 计算 过程中, 而且 很多 都是 那种 transformer 的 架构。

罗 默 的话 我们 来讲 它的 这个 叫 技能 效果 都是 N 方 级 的那 新一代 的 这个 它 改 了改 了, 它 更新 成为 叫 performer, 在 这个 M A C C 上面 做了 其他 方面 的 改进。 就像 这些 更新 的话, 都是 极大 的 减少 了 在 针对 序列 这 一个 模块 的 一个 处理。 这样的话 把 这个 计算 效率 以及 内存 带来 了 极大 的 提升, 这是 这 应该 是 最 主要 的 一个 模块。

其次 的话 是 他 后面 其实 还有一个 relax 的 步骤。 这个 relax 步骤 方面 跟 这个 蛋白 的 大小 有关, 原子 的 大小 有关。 如果 原子 数很多 的话, 这 一步 release 过程 的话 可能 会 时间 会 稍微 多一些。 总的来说 好像 这 一部分 占 时间 不多。 但是 它 从 框架 设计 上 来讲, 之前 要 两 一个 步骤。 先 通过 offer 的 two 预测, 再 用 通过 relax 来解决 一些 clash 的 这种 这样的 一些 问题。 现在 offer three 里边 将 这个 步骤 给 它 去掉 了, 它 完全 是一个 end to 的 单 到 单 的 一个 模块 就 直接 打通 了。 这也是 它 模型 上 一个 极大 的 一个 提升。

对, 就是说 流水线 变成 了 一个 一体化。 所以 你 想 的话, 你 流水线 你 有分 好几个 步骤。 我 就 给 大家 讲 的 简略 一点, 不是 特别 准确, 帮助 大家 更加 好的 理解。 就是 流水线 的话 你 有 好几个 步骤, 然后 你 步骤 与 步骤 之间 就会 出现 错误, 然后 这个 准确, 还有 速度 都会 降低。 但是 你 这个 阿尔法 四 它是 一个 一体化 的那 一体化 之后 的话, 它 就像 一次 全 建 一样。 如果说 不 一个 不是 很 准确 的 表达, 那你 记 准确, 然后 以 效率 更 很高。

而且 另外 刚才 徐 博士 也 提到 说 他用 的 一个 模块, 其中 一个 比较 核心 的, 也是 大家 比较 熟悉 的 一个 扩散 模块。 所以 通过 扩散 模块, 它 相当于 先 用 它 去 渲染 了 一下 这个 架构, 渲染 了 这个 分子结构 之后 的话, 它 在 相当于 用 去 噪 的 方式。 是从 这个 原子 云 里面 再 把 它 由由 繁 化简, 获得 了 这个 结构。 所以 你 会 发现 这个 过程 其实 是 非常 高效 的。

另外 他 也 做了 一些 数据 的 预 训练 等等 的 去 提高 它的 准确率。 包括 就是 解决 这个 人工智能, 包括 像 错误 模型 这个 幻觉 的 问题。 所以 我 觉得 很多 它 不是说 一个 技术 让 它 现在 变得 更 加快, 更加 高效 了。 它是 做了 很多 底层 模型 的 一个 调整 优化。 就像 一个 鸡尾酒 酒 一样。 你可以 这么 理解, 它 有一个 底层 模型, 但 在 鸡尾酒 上 掺 了 很多 东西。 再 进行 进一步 的 优化, 再加上 一个 整个 流程 的 一个 优化。 最后 呈现 给 大家 的 一个 效果 就是 非常 快, 非常 高效, 而且 准确率 也很 高, 而且 覆盖 的 范围 也 非常 广。

如果 从 我 个人 理解 一下, 我 觉得 可能 是 等于 在 这一次 的 offer a three 的 这样的 一个 升级 上面。 我们 其实 是 基于 整个 transformer 这样的 新的 一个 范式 的 一个 变化。 它是 最底层 的 东西。 然后 我们 其实 是 有 整个 alpha four two 以来 的 所有 可能 我们 新 predict 的 这样的 一些 蛋白质 的 结构, 全部 用来 作为 data, 然后 再 train 整个 L F 的 模型。 所以 在 这 几个 方面 其实 是 都有 不同 的 程度 的 一个 进步。 所以 才 导致 了 我们 现在 非常 好用, 非常 smooth, 然后 interface 也 更好 了, 它 更加 是一个 产品 了, 并不是 一个 scientific 的 一个 breakthrough。 当然 也有 了。

对, 丁 教 你 其实 提 了 一点, 我 刚才 忘了 听你说 的 非常 对它 其实 就是 在 预 加上 预 训练 模型 的 时候 的话, 预 训练 的 模型 的 时候, 它 其实 产生 了 很多 的 这样的 一个 结构 的 数据。 然后 用 这个 数据 去 让 alpha 4R去 学习。 学习 的 过程中 他 不仅 可以 说 学 得 更加 精准, 而且 也是 降低 他 幻觉 出现 的 可能性。 当然 现在 也 不是说 完全 没有 幻觉, 还是会 出现 像 比如说 那个 手性 元素, 它 那个 部分 就 不是 特别的 准确, 但是 整体 上 跟 alpha fold 2比的话 还是 提升 了 一大截。

我想要 再 call back 一下, 你 之前 刚刚 讲 的 是在 这个 临床 上面, 其实 并不 能够 让 他 提 效。 这个 是 基于 research, 还是 基于 政策, 在 这个 policy 这个 level 方面 不能 提 效。 我不知道 这个 能不能 帮 我们 break down 一下。

一方面 的话, 其实 还是 技术 本身。 当然 这个 是 技术, 它是 一个 我 觉得 是 有史以来 最伟大的 人工智能 在 生物学 的 一个 进展 和 发现 和 一个 提升。 但是 它 还是会 出现 错误, 还是会 出现 原子 重叠 的 现象。 所以 这些 错误 在 biology 这个 领域 或者 药物 研发 的 领域, 它是 不能 容错 的这 是一个 问题。

所以 的话 还需要 技术 去 进一步 的 发展, 或者说 我们 也 需要 有 额外 的 投入 去 验证 这些 结构。 验证 了 之后 再 进入 到 下一代 的 临床。 然后 临床 的话, 它 就是 一个 正常 的 临床 周期。 你 也要 理解 说 每个 药物 的话, 它 进行 临床 周期, 它的 一些 要求 监管 等等等等。 所以 这个 并 不是说 监管 故意 不让 他 去 快速 进入 市场, 是 我们 确实 有一个 现实 的 技术。 还有 包括 药物 它 本身 的 一个 发展 周期 的 一个 限制。

我 觉得 张路 说 的 特别 对, 我 可能 可以 从 这个 药物 的 研发 周期 角度, 还有 这个 阿尔法 A 4的所以 应用 场景 上 补充 一下, 就 刚才 答案 说 的 这个 问题, 就是 一个 新药 的 它 研发 其实 是 包括 临床 前和 临床 阶段。 临床 前 阶段 就是 包括 我们 实验室, 就是 筛选 一些 小分子, 然后 做 一些 简单 的 生化 实验, 阿尔法 四三 其实 是在 这个 阶段 主要 的 应用。 然后 临床 周期, 它 大概是 占 整个 药物 研发 周期 的 可能 大概 70%。

就像 刚才 张总 说 的, 可能 有有 7到10年 的 时间。 在 这个 阶段, 就 阿尔法 four three 其实 是 没有 办法 太多 帮助 了, 他 只能 是 说 在 临床 前 的 阶段 帮 我们 筛选 出来 一些 promising 的 小分子, 然后 经过 动物 实验、 细胞 实验、 动物 实验, 最后 进入 到 人体。 所谓 的 临床实验 其实 指的 是在 人体 的 这个 阶段。

其实 在 临床实验 这个 阶段, 也有 非常 多 的 A I 布局 在 帮助 大家 加速 这个 临床 的 过程。 包括 分析 这些 小分子 在 身体 里头 的 一些 溶解性、 吸收, 然后 它的 吸收 代谢 分泌 这个 过程。 然后 也有 一些 A I 帮助 设计 更 优化 这个 临床实验 的 流程。

他们 现在 不属于 alpha .

43的这个 对它 在 应用 场景 上 的话, 就是 阿尔法 四三 其实 是 主动 主要 集中 在前 30% 的 这个 时间 的 临床 前 的 过程 大概是 这样。

明白, 我 今天 感觉 是 三个人 在 这个 科普。

没有我 再 多 加 一句, 其实我 觉得 我们 包括 看 人工智能 技术, 整体 在 医疗 领域, 生物 工程 领域 的 一个 应用。 我 觉得 还是 要 有一个 很 客观 的 态度。 就是 不要 觉得 说 人工智能 是 无所不能 的。 他 其实 最终 是 至少 在 的 未来, 我们 还是 需要 human 的 loop。 我们 还是 需要 科学家, 需要 这个人 在 这个 中间 中 去 把 人工智能 作为 一个 非常 高效 的 工具 去 使用 的。 就 包括 像 刚才 雅欣 也 讲 了, 如果说 你 找到 这么 多 的 target, 你 选 哪个 去 move forward? 这个 东西 也是 需要 人的 一个 判断 的那 哪些 优先级 的 去 判断, 然后 包括 临床 后面 怎么 设计 等等等等。 这部分 不是说 人工智能 可以 给你 解决 掉 的, 哪怕 你 用 人工智能 去做 一些 临床 模拟, 模拟 和 现实 还是 不一样。 人的 身体 是 太 复杂 的, human biology 是一个 非常复杂 的 系统。

但 我们 现在 是 能够 看到 这个 outlook 吗? 我不 不知道 我们 能够 这 样子 觉得 是 ala 4让我们 离 减少 这个 临床试验 的 时间 我们 更进一步 吗? 能 这么 理解 吗?

在 这块 我 觉得 我应该 有一点 不同 的 想法, 只能 说 太好了。 我 对 临床 是我 对 临床 是 完全 是 零 背景 的 或者 是 零 了解 的对, 但是 首先 第一个 的话, 就是 刚才 其实 大家 聊 的 也 比较 多。 就是 人工智能 无论是 在 医药 还是 在 各种 行业 上, 确实 应该 是 理性 的 来去 看待 它, 尤其是 在 医药 这个 领域。 目前 总的来说 的话 有一点 就是说 短期 被 高估, 长期 被 低估 的 这么 一个 状态。 刚才 雅 贤 还有 张总 都 提到 了, 这个 在 临床 里边 其实 也有 一些 A I 在 介入 进去 加速 这个 过程。

确实 还有 一点 的话, 就是现在 offer for three 它 更 准 了。 比如说 一个 简单 的 情况 的话, 就是 比如说 像 V N A experience for three, 相对于 他 来说 提 从 五十多 提到 了 九十多。 这个 更 准 意味着 什么 呢? 就 比如说 之前 大家 可能 比如说 筛 出来 的 十个 药, 这 十个 药 要 分别 去做 临床, 但 这 十个 药 里边 可能 只有 一个 是 准的。 当然 不知道 他们是 周期 是 并行 的 去做, 还是 串行 的 去做。 如果 串行 的话, 那个 周期 是 非常 长 的。 但是 现在 的话 after three 它的 准确度 更高 了。 更高 了 的话, 意味着 你 可能 拿到 了 十个 target 的这 是个 套。 这个 极有可能 绝大部分 都是 比较 有效 的。

然后 在 这种 情况下, 你 再去 在 临床 过程中 的话, 你 可能 能 走 得 更 远 对 吧? 或者说 能 走 得 更快。 在 这 如果 从 这个 角度 来看 的话, 是不是 因为 它 前面 的 A I 筛选 这部分 筛 的 更 准, 使得 后面 的 这个 临床。

成本 降低 了。

对, 降低 了, 而且 更 快了 一些。 像 那个 deep man 的 这个 B O, 就是 丹尼斯, 他 也 之前 也 2f two 出来 的 时候, 他 也 说过 d one 的。 最终 的话 他 肯定 是 禁止 这个 A I D D 的, 尤其 像 offer three, 我们 可能 确实 已经 直接 看到 了。 当时 他他 就说 过 这个 R F 的 建制 是 这个 A I D D, 但是 目前 离 A I D D 还差 六个 of two。

Sorry, A I D D 是 啥?

Drug discovery 的, D D drug discovery OK.

就是说 还差 六个。 对, 然后 这个 offer for three, 你可以 认为是 第一个。 所以说 不要说 offer three 来 的话, 我看 我 直接 就可以 用来 去做 制药 了, 对 吧? 在 人家 的 估计 里边 的话, 他他 觉得 还有 第二个、 第三个、 第四个、 第五个。 最后 到 第六个 的 时候, 他 可能 觉得 才是 真正 能 用 A I, 很 好的 去做 这个 制药。

但是 对 您 是 说到 这, 我们 等于 等到 offer four six, 然后 我们 才能 等 真的 去去 在 治疗 中 使用 它 吗?

是 这 意思 吗? 人家 是 这么说 的对。

人家 是 这个 意思, 我 接着 徐 博士 讲, 我 其实 觉得 徐 博士 这个 点 非常 有意思。 因为我 刚才 讲 的 更多 是从 单一 的 一个 药 的 研发 那个 周期 去 看。 但 其实 它是 一个 更 宏观 的 角度 去, 确实 也是 对的。 就是 因为 它的 准确率 更高, 所以 它 其实 临床 的 成功率 也 高。 临床 成功率高 了 之后, 确实 在 某种程度 上, 如果说 你 同时 在 是 十个 药, 以前 可能 是 十个 药 临床 只有 两个 出来, 现在 可能 十个 药 临床 八个 跑 出来 了。 那 在 某种程度 上 也可以 说 它 更 快了, 成本 也 更 低 了, 效率 也 更高 了。 所以 这个 方面 是 确实 的 一个 推进, 这个 我是 非常 同意 的。

另外 我 还想 稍微 转 一下, 我们 经常 就是 一 聊到 阿尔法 fold, 然后 一 聊到 这个 蛋白质 折叠 结构, 聊 的 就是 药。 但 其实 除了 药 之外 的话, 还有一个 非常 巨大 的 市场 就是 化工行业。 化工行业 用到 很多 蛋白质 的 酶, 而且 这个 行业 有一个 优势, 就是你 不需要 做 临床。 所以 像 我们 其实 前一段 也 投 了 一些 公司, 然后 也 用到 人工智能。 它 做 这个 合成 生物学 相关, 它 其实 针对 的 市场 是 化工市场。 然后 化工 的 这个 领域, 它 无论 精细化工 还是 大 的 化工行业, 你 想想 它 这个 市场 规模 有 多大。 就 比如说 简单 来讲, 一个 精细化工 行业 里面, 它 需要 用到 的 那种 没, 你 就可以 用 合成 生物学 加 A I 然后 去 把 它的 成本 降低, 然后 效能 增加。 而且 它 还 不需要 过 临床。

所以 这个 时候 你 看到 它 对于 包括 阿尔法 a fold 的 一个 应用。 因为 阿尔法 a fold 也会 帮助 他 去 产生 新的 这个 分子 合成物, 对 吧? 然后 蛋白质 合成物, 所以 这 也会 加速 它的 效能。 在 这个 应用 场景 里面, 我们 就 不用担心 临床 了。 反而 你 会 看到 的 这个 加速 的 过程 会 更加 快速, 而且 商业 应用 的 角度, 还有 包括 说 它的 机会 也会 更大。

我不知 道路 有没有 研究, 比如说 是我 看到 很多 不同 的 一些 数据, 大家 的 这个 测算, 有的人 说是 可能 整个 新的 F43, 然后 在 这个 药物 开发 这块 儿 可能 是 一个五百 亿 的 市场。 有的人 说是 可能 是 一千亿 的 市场。 然后 我不知道 你 可能 更 同意 哪个 说法, 然后 包括 这个 化工 的 这个 市场 又是 多大 的 这样的 一个 规模 呢?

非常 巨大。 当然 具体 的 数字 我 不一定 有 很 精准 的 数字。 你知道 美国 的 医疗 市场 是 多大? 美国 的 医疗 市场 是 美国 G D P 的 20%, 而且 还在 增加, 是 美国 G D P 的 20%。

给你 做 一个 量级 的 比较, 中国 的 医疗 市场 是 中国 的 G D P 的 5% 然后 美国 的 G D P 还 比 中国 的 要 大 很多。 所以 美国 G D P 的 20% 都 是在 医疗, 那 医疗 里面 有 一大部分 又是 药物 相关 的。 而且 另外 还有 一点 就是 美国 的 药厂 它是 服务 全世界 的, 疫苗 什么 它 也是 全球 在 卖。

然后 另外 的 一个 的话, 你 就是说 的 化工行业, 化工行业 也是 一个 巨大 的 行业。 因为 它 其实 在 我们的生活 中的 方方面面, 只是 日常 说 大家 感觉 感受 不到。 比如说 轮胎, 它 就是 化工 相关, 你 所有 用 的 这些 很多 的 产品, 它 都是 化工 产业 的。 精细化工 的 是 非常 巨大 的 产业。 随便 拎 出来 一个 就是 万亿 级别 的 市场, 就 trillion dollar market ze 所以 它 这个 市场 不是 大家 单纯 假设 几百亿、 几千 亿, 它是 一个 万亿 级别 的 市场。

不知道 大家 听到 这儿 有没有 觉得 这个 可能 offer for three 跟 自己 稍微 接近 了 一点点。

而且 我 可能 除了 说 经济利益 层面 上 的话, 我 可能 还想 再 提 一个点, 就 比如说 像 我们 投 的 这个 合成 生物学 的 公司, 用 人工智能。 然后 在 化工 的 应用, 它 除了 说 降低成本, 加快 效率 之外, 还有一个 特点 就是 它 可以 降低 这个 传统 化工行业 化工过程 bell reactor 它 对于 环境 的 伤害。 所以 其实 现在 这也是 至少 说 在 美国 的 大企业 里面, 这些 传统 行业 里面 非常重要 的 一个 考量 点。 就是 我们 寄 希望 技术 可以 让 我们的 成本 降低, 效能 提升。 同时 我也 希望 不要 再 对 环境 产生 很多 的 伤害 或 很多 的 污染。

Esg 的 角度 也是 一个 重要 的 考量。 所以 这个 时候 你 会 发现, 有 像 阿尔法 ford 这样的 技术, 它 可以 达成 两个 目的。 我 既 可以 让 它 更便宜、 更快, 同时 还 可以 esg 对 环境 没有 污染, 然后 对 整个 气候 的 变暖 有一个 抑制 的 作用。 所以 这 其实 是 技术 给 我们 带来 一个 非常 让人 兴奋 的 一点, 就是你 又 可以 改变世界 的 同时 创造财富。

就是 我们在 这个 底层 的 科学, 我们 有了 一个 大 的 进步 之后, 其实 在 上层 我们 看到 的 其实 是 蛮 巨大 的 不同 的 行业 的 它的 一个 变革。 就 又 回到 了 徐 博士 最 开始 讲, 他是 一个 三体 moment 的 一个 到来。 我 刚 其实 提到 了 这次 的 G T C 上面, 我 看到 了 很多 大型 的 这些 药厂, 然后 他们 都 会派 员工 过来 看看。 现在 因为 大家 有什么 新的 solution, 我不知道 现在 这些 大型 的 药厂, 他们 我不知道 张璐 在 看 的 一些 创业 公司 上面 有没有 一些 像是 现在 的 竞争对手。 大家 这个 药厂 是不是 已经 有 adobe 的 一些 这种 A I 的 一些 新的 产品 在 他们的 研发 过程 当中。

对, 当然 药厂 一来 是 说 他们 手里 现金 比较 多, 二来 的话, 确实 他们 现在 手里 的 预算 在 增加。 我们 其实 有一个 非常 直接 的 网络, 就是 我们 有一个 叫 C X O 网。 我是 18年 成立 的, 我们 里面 有 40 5555百强 企业 的 C T O, 一千 强 企业 的 C T O, 也有 很多 是 这种 药厂 的 出来 的。 所以 其实 直接 从 他们 那 听到 的, 就是 他们的 董事会 在 每天 讲说 我们 怎么样 建立 自己的 数字 战略。 因为 它 有 海量 的 数据, 但是 这个 数据 你 需要 用 人工智能 去 进行, 又能 训练 等等, 去 发掘 它的 价值。 所以 它 有一个 角度 说, 我希望 建立 我的 数字 战略, 那 对我 的 公司 整体 的 一个 价值 也是 一个 提升。 以前 可能 考虑 说 要不要 内部 自己 去 搭建, 但 内部 自己 去 搭建 他们 招 不到 合适 的 人才。

二来 的话, 其实 这个 医药行业 还是 比较 特殊 的 一个 行业, 它是 一个 高 监管 行业。 所以 从 它 C T U 的 角度 来讲 的话, 我 高 监管 我 直接 监管 的 就是 属 据。 这 和 科技 行业 不一样。 科技 行业 以前 是 没有 监管 的, 但是 医疗 行业 一直 监管 的 就是 医疗 数据 或 医药 数据, 所以 他 宁可 去 找 一个 第三方 的 公司 来去 处理 这些 相对 比较 敏感 的 数据, 那 自己 做 的话 风险 更大。 所以 这就 造就 了 一个 非常 奇特 的 新的 生态。 以前 其实 像 这种 大型 的 药厂 或者 医疗 公司 是 很难 和 初创 企 合 做 的。

但 现在 反而 他们 会 以 更 开放 和 更快 的 速度, 就 相对 更快 的 速度 和 初创 企业 合作。 包括 你看 英伟 达, 其实 英伟 达 不 只是 现在, 他 从 17年 开始, 他 其实 重点 在 布局 的 初创 企业 的 人工智能 公司 里面, 大头 就是 人工智能 在 医疗 领域 的 应用。 我们 为什么 从 17年 开始 和 英伟 达 合作 这么 紧密? 因为我 从 17年 开始 也是 在 重点 投资 A I in house care, 所以 我们 跟 他的 合作 非常 紧密。 包括 我 前一段 在 G T C 大会, 他们 请 我 做了 一个 演讲, 我 也有 一部分 是在 讲 A I in house car。 包括 现在 其实 你 能 听到 Johnson 对 吧? 他 也 经常 是在 讲 这个 角度 的 一个 机会。

因为 人工智能 需要 海量 的、 高质量 的、 多样性 的 数据 去 体现 它的 优势。 哪个 行业 有 海量 的 高质量 的、 多样性 的 数据 呢? 都 不是说 医疗 是 之一, 它是 最好的 行业。 所以 这 是一个 非常 好的 一个 契合点。 所以 我们会 看到 说 很多 这种 医药公司, 他在 学习 之后 的话, 他 要 去 布局, 或者 是 投资, 或者 是 战略 合作, 给 订单 这方面 的 进展 速度 很快 的。 另外 一点 我也 可能 要 稍微 提 一下, 就是说 他们 在 对于 这种 人工智能 模型 的 选择 上 的话, 他 反而 不会 去 选择 那种 大一统 的 大 模型。 当然 有可能 这就是 两个 路线 之争。

有 一种 想法 是 说 你 用 一个 A G I? 未来 的 AGI1个 模型 可以 解决 各种各样 的 场景 的 问题, 各种各样 的 应用 和 针对 各种各样 不同 的 行业。 但是 即使 这个 能 做到, 先 不讲 他 幻觉 那些 的 问题, 有一个 很大 的 问题 就是 成本 太高了。 你的 算 力 成本, 你的 数据 成本, 还有 包括 你 inference 成本, 电力 成本 都 非常 高。 所以 现在 其实 像 尤其 像 医疗 医药 这么 专精 的 行业, 其实 更 适合 做 行业 专属 的 相对 小的 模型。

行业 专属 模型 通过 行业 专属 模型 去 进行 行业 模型 的 一个 优化。 我们 有 公司 就是 做 这种 生成式 A I 平台, 针对 制药 行业 的。 所以 他 这个 优化 做 的 小而精, 而且 非常 准确。 而且 准确 之后 的话, 他 还 可以 不停 的 去 迭代。 根据 他 客户 的 一个 合作 去 吸取 后 客户 那边 优秀 的 就是 优质 的 数据。

再 通过 自己的 一个 专业知识 进行 模型 的 训练 和 反馈。 其实 模型 训练 是一个 很 复杂 的 活。 所以 在 这个 基础 之上, 你 会 发现 这些 公司 它的 模型 的 成本 也 比较 低成本 比较 低 之后 的话, 对于 大 的 医药公司 来讲, 它 应用 任何 新技术 第一 考量 的 是 成本。 它 不是说 你来了 告诉我 你是 硅谷 最好的 人工智能。 我 就 一定要 用 你, 它是 要 更好更快 更便宜。 所以 这是 我们 看到 一个 产业 的 欣欣向荣 的 一个 现象。 这也是 为什么 我会 说 很多 公司 它 现在 不一定 再去 说 我要 和 阿四 去 竞争。 他 其实 是在 f four 基础 之上, 我在 基础上 再去 训练 自己 行业 专属 模型, 然后 去做 一个 应用 来去 服务 我的 客户。

那 可能 跟 这个 general, 我们的 这个 tax base 其实 是 类似的。 对, 就 还是 有 一些 像 什么 grama 这种 我就是 服务 气氛 赛道 的这 样子 的 模型, 我 可能 就是 有 更好 的 细分 行业 的 data, 然后 细分 行业 的 用户 的 诉求, 我就是 Better product.

而且 cheap o product。 而且 我 觉得 医疗 的 一个 优势 是 在于, 虽然 你 觉得 它是 做 垂直, 它是 做 行业 专属 模型, 但是 它 这个 细分 行业 每个 行业 都 还是 很 巨大 的。 你 想 医疗 行业 整体 是 美国 G D P 的 20%, 如果 一个 公司 你 能 服务 G P 的 1%, 你就是 一个 非常 大 的 企业 了。

但 目前 生物界 里边 还没有 这么 一个 类似 于 像 R G M, 或者 GPT 这样的 一个 基座 的 一个 模型。 也就是说 所谓 的 大一统 的 模型, 包括 r four 的 three。 我们 也是 不能用 的, 就是 对于 一些 企业 来说, 他 也是 不能用 的。 他 只能 说 上面 去 提交 一些, 自己的 一些 预测 什么 之类 的。 如果 他 能 像 2F的 two 那样, 但 虽然 他们 其实 好像 有 个 O R 的话, 他 已经 说 要 后面 六个月 之后 可能 要 开源。 这样的话 大家 可以 基于 他 这个 去做 后续 的 迭代 的话, 确实 就是 如 刚才 张璐 说 的 这样, 在 他的 基础上, 然后 我们 去做 各种各样 的 下游 的 各种 翻译 unit, 各种各样 的 对于 下游 的 服务, 各种各样 的 下游 任务。 你 比如说 里边 它 里边 有 那个 抗体 的 功能, 那 做 抗体 公司 就 专门 把 这 一块 浸 在 他们 收集 的 数据 上面, 进行 进一步 反应 的, 然后 优化 出来。 比如说 比 他 这个 更高 的 抗体 的 药物 设计 也好, 抗体 的 结构 预测 也好 之类 的。

他 目前 来说 可是 可以 认为是 这个 领域 里边 的 大一统 的 模型, 但 他 还没有 开源 出来。 他说 如果 开源 出来 的话, 大家 基于 这个 底座 往 下游 去做 各种各样 的 事情。 确实 这 是一个 非常 廉价 而且 现实 问题。 而 这个 是 可以 一个 非常 可行 的 问题。 否则 大家 都 去做 这个, 从头 做 这个 offer three 的话, 这个 代价 确实 是 非常 巨大 的。

他 不 开源 的 原因 是因为 他 想要 保护自己 的 公司 的 那种 知识产权。 你说 他 比如说 他们 现在 建立 的 这个 S O mopy lab 是 他们 自己 孵化 的 一个 药 企, 那么 他们是 为了 保护自己 的 产权 吗?

至少 按 他 前一阵子 采访 的话, 他 就说 可以 拿 好几千 亿个 命令 的 订单, 对 吧? 他 投入 那么 多, 他 得 有些 回报。 他 开源 出去 的话, 他的 回报 就 给 别人 了, 就 不是 他 了, 对 吧?

另外一个 的话, 还有 就是 刚才 我们 提到 的 一点, 就是说 数据 的 问题, 它 还是 需要 用 一些 行业 数据 和 产业 数据 去 优化 它的 下一代 的 模型。 如果说 他 开始 做 大规模 的 商业 变现, 或者说 是啊 就是你 怎么样 一个 形式, 你 更 愿意 让 行业 去 跟 你 合作, 去 分享 数据。 所以 我 觉得 他 一方面 的话, 又 想 保护自己 的 知识产权, 但 一方面 的话 他 卡 在那。 它 其实 这个 商业模式 很 不好 做, 都 希望 人家 开源, 但是 说实话 人家 投入 也 很大。 当然 我 个人 是 非常 支持 开源 生态 的。 因为 开源 大公司 开源 对 小企业 有 帮助, 对 科研 界 都有 帮助, 就 看 他们是 什么样 的 一个 心态。 他 开源 之后 就 打造 生态, 他 也可以 去 把 生态 打造 起来 之后 就是 另外一个 方式 去 进行 商业 变现。

对, 就是 阿尔法 fold 3它有 一些 局限性 明显。 徐博 有 很多 想说。

的 他的 缺点 的话, 其实 paper 里边 他 其实 也 说 了, 包括 还有 一些 clash 对 吧? 有时候 会 预测 出来 两个 原子 在 挨着 特别 近, 甚至 两条 链 混 在一起 了。 像 这种 的话 在在 物理 上 的 化学 上都 不太可能。 这个 问题 在 训练 过程中 的话, 是 可以 去 加 penalty 来去 惩罚 他的。 但是 在 预测 的 时候 保证 不了 这个 这也是 二 的 时候, 其实 就有 这个 问题。 他用 那个 relax 让 他 放松, 然后 使得 他 这个 之后 特别 近 的 把 它 变 开 了。 因为你 离 得 越 近 的话, 这个 能量 会 特别 高就 特别 不稳定。

换句 的 问题 的话, 首先 解释一下 什么 叫 幻觉, 就 比如说 一个 结构, 它 通过 电竞 或者 x ray, 它 解析 了 比如说 整个 的 一个 大 的 结构, 它 解析 了 中间 某 一个 核心 的 区域。 其他 的 区域 因为 电竞 比如说 分辨率 很低 看不到, 所以 那些 区域 那个 结构 到底 什么样 的 他不知道。 Or four three 的话, 他在 一开始 训练 的 时候, 他 就 把 其他 的 那些 区域, 他 也 折叠 出来 了 一些 螺旋 或者 贝塔 shed 等等 这样的 一些 结构 出来。 而 这部分 的话 到底 是不是真的 不知道, 可以 认为是 他 幻想 的。 然后 就 相当于 为了 解决 这个 幻觉 效应 的 问题, 他 又 把 刚才 说 的 预测 的 那些 螺旋 又 给他 退化 成 那些 disorder regional。 为了 解决 这个 问题 确实 也是 花了 很大 的 力气, 但 这个 问题 其实 还是 在 里边, 对于 用户 来说 很难 区分 这块 到底 是真的 是 假的。

这 是因为 是 这个 diffusion model, 就是 这个 扩散 模型 它 本身 的 缺点。 因为 我们 也 看到 塑料 里面 会有 这个 老太太 的 手 好多个, 然后 那个 小狗 有 很多 头, 是 事实 类似的 这 样子 的 原理 吗?

对, tokyo 那个那个 视频, sorry, 里边 那里 边 那个 腿 有点 螺旋 那种感觉, 对 吧? 就是 其实 有 很多 这种 物理现象 其实 还没有 完全 respect。 对, 就是 这些 模型 目前 普遍 都 确实 都有 这个 问题, 这是 幻觉 的 这个 问题。

第三个 的话 就是说 多 构象 蛋白 的话, 我们 也 知道 它 确实 有些 蛋白 非常 保守, 但 他 觉得 也 不是说 完全 不动 的, 他 其实 在 体内 他 确实 是 很多 个 状态 的。 大家 其实 想 拿到 一些 其他 的 状态, 然后 在 那个 状态 下边, 他 和 疾病 的 之间 的 关系 等等 之类 的。 这种 目前 缺乏 这种 结构, 所以 大家 很多 想 解 这种 结构。 那 他 目前 来说 在 这个 问题 上面 确实 还不 太行。 其他 的话, 就是说 它 server 上面 有 很多 的 限制, 这个 就 不说 了。 就是 相信 它 内部 的 门 版本 的话, 其实 是 支持 我 估计 应该 是 支持 成百上千 甚至 百万 这种 level 的 这种 小分子 的 一个 预测。

因为 我们 刚刚 其实 聊到 觉得 alpha four 6 six 的 时候, 可能 才会 出现 一个 比较 革命性 的 这样的 一些 变化。 我不知道 像是 从 我们 现在 再到 over four six 会 是一个 线性 的 过程 吗? 还是 可能 会有 一个, 比如说 是 可能 就 集中 爆发 了。 然后 我们 来 再 展望 一下, 然后 未来 可能 在 这个 领域 会有 一些 什么样 的, 我们会 期待 一些 什么样 的 东西。

我 觉得 应该 会 是一个 指数 级别 的 一个 非常 快速 迭代 的 方式。 这个 你看 二代 它 出来 的 时候, 对于 多 各个 项目, 其实 大家 有 很多 的 别的 探索。 他在 paper 里面 都 没有 讲 这个 事情。 大家 用了 它 之后, 学术界 各抒己见, 然后 自己 就 自己 有 更大 的 一些 想法, 然后 发现 他 有 很多 其他 的 功能。 然后 如果 three 开发 出来 的话, 那 就是 更多 的 人 也 冒 不 进来 了。 无论是 在 蛋白 相互作用、 抗 挤压, 还有 小分子, 还有 修饰 等等 各个领域 都 可以 爆发式 的 这种 方式 的 去 增长 了。

但是 这个 话 我 又 收 着 点 的话, 就是说 目前 这个 领域 最大 的 问题 就是 这个 数据 确实 该 用 的, 它 其实 已经 用了。 然后 你 发现 这个 三代 里边, 为了 帮 他 朋友 更好, 他 自己 有 自己 产生。 就 有点像 阿尔法 zero 的 时候, 他 利用 offer zero 自己 产生 很多 的 这种 棋盘 的 数据, 然后 在 他的 基础上 又 进一步 进行 学习。 这个 offer three 里边 他 为了 做 这 一步, 他 不仅 做了 加 了 刚才 说 的 这种 disorder 这种 蛋白 的, 还有 R A 的, 还有 蛋白 和 R 相互作用 的 等等 这样的 一些 数据, 做了 很多 的 这种 叫 自 蒸馏 的 这种 数据 出来。 就是说 数据 上 感觉 已经 很 受限 了, 但 方法 上 的 迭代 的话, 我 觉得 确实 可以 是 指数 是 适应 的这 两个 有点 不太好 估计。

你 账户 这边 我也 觉得。

是一个 指数 级 的 增长。 而且 其实 虽然 我们 刚才 也 讨论 了 说 现在 可能 阿对 我们 还需要 再 等到 four、 five、 six. 但是 你 想一想, 从 iphone 1到 iphone four, 其实 也没有 多长时间。 那你 再 比较 iphone 4和 iphone one 的 一个 区别, 它 不是 一个 简单 的 量变, 它是 一个 质变。 所以 我 对于 未来 还是 非常 可 期 的。

现在 阿尔法 four three 还是 有 很多 的 一些 现实 商用 的 一些 局限, 但是 这些 问题 一步一步 都能 解决。 其实 想一想 阿尔法 42出来 的话 是 几年 前, 其实 就是 对于 短短的 这几年 的 时间, 它的 进展 速度 如此 之 快, 再加上 现在 有 更多 的 资源 和 人才 涌进 到 这个 领域。 而且 我 觉得 很 好的 一点 就是, 以前 人才 都 不太 愿意 去做 跟 生物 医疗 相关 的。 现在 其实 有 越来越多 的 人才 愿意 进入 到 生物 医疗 领域, 而且 他 也 需要 一个 跨学科 的 合作 和 交流。 包括 现在 我 能 看到 像 斯坦福 的话, 也有 很多 医学院 和 计算机 学院 和 工学院 的 一些 合作, 所以 我 还是 非常 期待 的。 所以 接下来 这几年, 我相信 是一个 医疗 领域, 生物工程 领域 的 大 机会, 也是 一个 大趋势。

好的, 我 觉得 这个 也是 一个 比较 完美的 这 样子 一个 ending 了。 然后 我们 也 给出 了 对 未来 的 一个 期许, 一个 期待。 好的, 我们 今天 的 这个 话题 就 讨论 到 这里 了。 如果 有 任何 的 大家 对 这 一期 感兴趣 的 一些 细节 方向, 比如说 是 可能 是不是 在 一些 细分 领域, 大家 有什么 问题 的话, 也可以 在 这 期 评论 区 里面 给 我们 留言。 然后 这 一期 我们 也会 同时 把 文稿 在 我们 生动活泼 的 公众 号 里面 发布。 如果 大家 有 兴趣 或者 哪 块 没 听懂 的话, 我们 也会 通过 文稿 的 方式 来 查看 这 一期。 好的, 非常感谢 张路 以及 徐 博士, 还有 牙仙。 好, 谢谢 大家 的 时间。

谢谢。

这就是 我们 今天 的 whats next 科技 早知道。 欢迎 大家 在 评论 区 和 我们 留言 互动, 加入到 科技 和 创新 的 下一步 讨论 中 来。 另外 如果你 想 支持 我们在 播客 内容 上 的 探索 和 创新, 欢迎 大家 加入 我们的 生动 胡同 会员 计划。 详细 的 加入 方式 和 信息 请 查看 本期 节目 的 收, 我们 下期 再见。