cover of episode 从图形学到 AI 生成 3D:我们离 3D 版 Midjourney 还有多远? | 对谈 Meshy.AI 创始人渊鸣

从图形学到 AI 生成 3D:我们离 3D 版 Midjourney 还有多远? | 对谈 Meshy.AI 创始人渊鸣

2023/12/16
logo of podcast 42章经

42章经

AI Deep Dive AI Chapters Transcript
People
曲凯
专注于推动AI应用创业领域的发展和分享行业见解的“42章经”创始人。
胡渊鸣
Topics
曲凯:探讨了图形学的发展历程,从真实感渲染到仿真,再到与AI的结合,并对AI生成3D技术的市场前景和挑战进行了深入分析。他提出了许多关键问题,例如AI生成3D的多种表达方式(点云、体素、神经辐射场、网格)的优劣,以及AI生成视频和AI生成3D哪个技术会更快发展等。 胡渊鸣:详细解释了图形学的概念、渲染的原理以及3D模型的多种表达方式。他深入探讨了AI生成3D的三个主要任务:文字生成贴图、文字生成3D模型和图像生成3D模型。他还分析了AI生成3D技术面临的挑战,例如数据匮乏、模型质量、可控性、速度等问题,并对未来发展趋势和市场需求进行了预测。他分享了自己从科研转向创业的经历和感悟,强调了市场需求的重要性以及科研人员在创业过程中需要克服的挑战。 曲凯:对AI生成3D技术的市场前景和挑战进行了深入分析,并与胡渊鸣就AI生成视频和AI生成3D哪个技术会更快发展展开了讨论。他关注了3D技术发展中可能跳过的步骤,以及3D技术在消费级市场的普及问题。 胡渊鸣:详细解释了AI生成3D技术的三个主要任务,并对每个任务的应用场景和技术难点进行了深入分析。他还分析了3D数据集规模远小于2D数据集的问题,以及3D资产市场规模和缺乏UGC内容的问题。他分享了自己从科研转向创业的经历和感悟,强调了市场需求的重要性以及科研人员在创业过程中需要克服的挑战,并对未来发展趋势和市场需求进行了预测。

Deep Dive

Chapters
讨论了图形学的定义、历史发展及其与AI的结合,解释了图形学如何从真实感渲染发展到与AI结合的现状。
  • 图形学最初关注真实感渲染,后来扩展到仿真和AI结合
  • 图形学涉及硬件和软件两部分,包括渲染、仿真和游戏引擎

Shownotes Transcript

It's something there.

我们 今天 很 开心 请 到了 胡 元明, 他是 M I T 的 图形, 觉得 博士 过去 十多年, 应该说 一直 是在 做 图形学 相关 的 事情。 然后 最近 刚 发 了 一个 A I 生成 3D的 产品 叫 messi, 他 也是 mesi e 点 A I 的 创始人 曰 明, 跟 大家 打个招呼。

嗨 大家好, 我是 月明, 很高兴 今天 能 和 大家 一起 交流 分享, 也 感谢 曲 凯 老师 的 邀请。

对, 我们 今天 其实 最 主要 的 请 袁明 来, 就是 想 聊 一下 整个 的 图形学, 包括 A I 生成 图片、 视频 三 弟 这 一整套 的 一个 大 的 逻辑 跟 发展 的 脉络。 尤其是 A I 生成 三 弟 这块, 是因为 现在 比较 核心 的 在 做 的 这么 一个 事情, 所以 我们 可能 稍微 深入 的 聊 一下 A I 升 3D这件 事。 然后 你 最早 其实 是在 国内 读 的 本科 是 吧? 就是 学 技术。

对, 我是 13年到17年 是在 清华 的 姚 班 学 计算机。 然后 本科毕业 以后 就 到了 博士 那边, 麻省理工学院 开始 读 博士。 然后 读 博士 也 比较顺利。 四年 不到 三年 半左右 就 博士 毕业了, 那是 非常 快。 对, 是 挺快 的。 我 毕业 以后 两年 半 的 时间, 在 一直 就是 做 图形 软件 这方面 的 产品 和 创业 方面 的 工作。 所以 我 觉得 我 可能 比较 有意思 的 经历 就是 学术界 和 创业 界 这 两边 的 事情 我都知道 一些。

你 本科 其实 就在 做 图形学 的 吗? 对, 到底 什么 是 图形学, 其实 大家 最早 对于 图形学 的 理解 就是 真实感 渲染。 什么 意思 呢? 我给你 一些 三 弟 的 数据, 你 给我 把 它 渲染 成 一部 电影, 越 真实 越好。 但是 这 一部分 的 内容, 坦率 来说 到 可能 2000年 左右, 再 往后 大家 就 发现 这块 能 做 的 本质 上 的 突破 它 就 越来越少 了。

大家 逐渐 的 兴趣 就是 到 很多很多 其他 的 地方。 比如说 我 现在 能 渲染 的 比较 好了, 那 我 怎么样 把 仿真 这些 东西 能够 做得 更好。 比如说 我 现在 要 炸 一个 楼, 我不 炸 了, 我 就 继续 实拍 炸 这个 楼 了。 我 现在 变成 我 用 一些 数理方程 来 描述 它, 这个 热潮 也 持续 了 一段时间。 后来 到了 20 1213年 的 时候, 那个 是 alex lab 这样的 工作 出来 了, 然后 大家 对 A I 的 关注度 也 逐渐 上去 了, 图形 方面 的 东西 和 A I 结合 的 就 越来越 紧密。 所以 我 觉得 图形学 它 可能 不是 一个 具体 的 技术, 它是 一个 有 很多 的 应用 去 催生 演化 出来 的 一个 学科。

我 能不能 理解 图形学 还是 大家 在 试图 怎么样 用 技术 更好 的 去 把 控 或者 去 修改 对外 的 一个 图形 的 输出 的 感觉。

对我 觉得 可以 这么 理解。 因为 始终 不管 是 现在 显示屏 还是 以后 的 vrar, 你 都 是要 输出 成 视觉 的 东西 给 大家 能 看到, 对 吧? 所以 图形学 很多 的 东西 就是 在 研究 我 如何 去 能 更好 的 合成 这样的 数字 内容 OK。

所以 它 就 必然 会 分成 硬件 和 软件 两 部分。 对, 这个 非常 对。 然后 软件 就是 包括 你 讲 的 渲染 和 模拟 仿真 等等, 可能 更多 的 算法 层面 的。 是的。 然后 另外 一部分 就是 硬件, 就是 比如说 显卡 这 一部分。 对我 顺便 想 问 一下 游戏 里 的, 其实 历史上 那种 各 代 的 游戏 引擎, 它 本质 上 也是 图形学。

对, 其实 实时 渲染 是 图形学 里面 特别 重要 的 一个 内容。 你 要 做好 的 实时 渲染 基本上都 要 用到 有 引擎。 典型 的 比如说 像 unity, 像 aral engine, 这些 都是 用来 做 实时 渲染 的 一个游戏 引擎。

我 觉得 我们 是不是 能 快速 的 把 这个 概念 给 大家 讲 一下。 我 觉得 大多数人 可能 大家 经常 听到 C P U、 G P U, 也 经常 听到 渲染 仿真 这些 东西, 或者 也 经常 听到 各种 引擎 到底 他们是 干嘛 的。

对我 觉得 就 一个 目的, 这个 目的 就是 给 大家 合成 一个 更加 真实的, 更加 沉浸 感 的 数字世界。 通常 是 三 弟 的 图形学 做了 很多 的 研究, 都 是在 朝着 这个 方向, 这个 目标 去 努力。 你 刚才 提到 的 几个 概念, 有 这种 硬件 对 吧? 比如说 C P U 和 G P U。 那么 C P U 之所以 会 诞生, 其实 是因为 它 比 C P U 有 更大 的 吞吐量, 更容易 去做 渲染 仿真 这方面 的 一些 事情。 但是 最后 发展到 A I 变成 了 G P U 上面 的 一个 很 重要 的 一个 workload。 硬件 方面 大概是 这样。

然后 软件 方面, 其实 有 很多 的 大家 用到 的 创作 软件。 这 里面 其实 包括 用于 影视 行业 的 一些 创作 软件, 主要 这些 都是 离线 图形学 了。 Offline computer graphics 他 做 的 事情 就是我 把 这个 东西 给 渲染 好。 比如说 我 就 渲染 出来 是 一 的 M K B 或者 MKMP4 格式 的 一个 文件, 你 就可以 去 固定 的 播放, 它是 没有 交互 属性 的。 这类 软件 就 包括 很多 的 传统意义 上 来说, 像 3d max 玛雅、 blender、 胡迪尼 这类 一般 叫做 D C C 软件。 主要是 影视、 广告 这种 行业 的 应用。

然后 再到 后面, 有 一些 他们的 功能 也 变得 更加 的 能够 被 实时 应用。 比如说 古里 里面 很多 的 这个 程序化 建模 的 功能, 其实 在游戏 引擎 里面 也可以 用上。 另一类 软件 就是 这个 游戏 引擎 了。 游戏 引擎 它的 特点 是什么? 它是 可 交互 的。 因为 它 可 交互, 所以 带来 了 很多 的 新的 挑战。

比如说 你 渲染 得 是 实时, 比如说 我 举 个 例子, 影视 里面 的 一些 场景, 你是 可以 直接 把 它 全部 加载 到 内存 里面 的。 但是 游戏 又 不能 这么 干, 游戏 它的 特别是 一些 开放 世界游戏, 它的 整个 的 地图, 它的 场景 是 非常 大 的。 你 很难说 我 把 整个 场景 全部 加载 到 你的 机器 里面 去。 在 这种 情况下 就会 使得 有 信心 它 作为 实时 图形 渲染 的 里面 一个 重要 的 角色, 他 要 去做 的 挑战 就 非常 多。 比如说 你 可能 离线 有 1个小时 选 一张 图, 但是 你 实时 有 16毫秒 的 时间 选 一张 图。 这 中间 就是 千倍 万倍 的 一个 计算能力 的 差异。

就 解决 这 两个 问题 是你的 条件, 你的 产出 的 要求 是 不一样的。 所以 软件 其实 分为 离线 的 软件 和 实时 的 软件, 还有 一类 的 可能 就是 算法 了。 算法 往往 比如说 nerve, 比如说 这个 光线 追踪, 比如说 刚才 提到 的 高斯 散射, 这样的 算法 它 永远 是在 不断 的 去 迭代 的那 它 当然 是 可以 运行 在 C P U 上, 也可以 运行 在 G P U 上, 可以 用于 离线, 也可以 用于 实时。 但是 不同 的 算法 它 会有 不同 的 要求。 所以 算法、 软件、 硬件, 当然 还有 一块 可能 是 它的 商业 生态。 这 四个 我 觉得 它 中间 的 关系 可能 是一个 相互 偶合 的 关系。

把 它 往 这些年 你 觉得 整体 图形学 的 进展, 更多 的 是 硬件 驱动 还是 软件 或者 算法 驱动。

很 好的 问题。 我 只能 说 它是 相互 的, 就是 硬件 和 软件 它的 发展 永远是 处于 一个 这种 相互 迭代 的 状态。 我们 就举 G P U 诞生 这个 例子。 当你 有了 G P U 以后, 大家 突然 发现 能 渲染 的 东西 变 多了。 我 以前 可能 渲染 五个 三角形, 我 现在 能 渲染 500个了, 5000个、 5万个, 对 吧? 我 就可以 有 新的 软件 和 算法 去 利用 好 这个 硬件 给我 提供 的 这样的 资源, 去 把 这个 东西 给 它 渲染 出来。

当 你的 算法 需求 逐渐 变 高了 以后, 硬件 他 可能 说, 我 现在 不行, 我 只能 渲染 5万个 三角形。 但是 我的 软件 里面 要求 我 能 渲染 500万个, 那 怎么办 呢? 它 只能 不断 优化 这个 硬件, 在 摩尔定律 的 不断 推动 下, 它 硬件 可能 是 越来越 厉害, 越来越 猛 的。 那么 有了 这些 硬件 的 更新 以后, 算法 又会 去 想, 是不是 我可以 做 点 什么 别的, 整点 花活。

因为 大众 对于 游戏 的 画面 的 需求, 它 其实 是 不断 的 去 抬高 的。 由于 你 需求 不断 的 提高 了, 那 它的 硬件 和 软件 总会 去 不断 的 迭代。 所以 你可以 认为 它是 一个 左脚 踩 右脚, 一步一步 爬 得 越来越高 的 这样的 一个 状态。

是 我们 刚才 其实 提 了 一堆 渲染, 所以 能不能 再 简单 解释 什么 是 渲染?

对, 渲染 其实 是一个 很 经典 的 任务, 他 做 的 事情 就是 你的 场景 里面 有 一些 3D的 模型。 那你 现在 想 把 它 渲染 成 一张 有 真实感 的 2D的 图像, 其实 他 就是 在 做 这个 事儿。 这个 事儿 有什么 难 的 呢? 因为你 在 现实 世界 中, 你 这个 光线 会 在 这个 场景 中 不断 的 弹射。 比如说 当你 去 打开 一盏灯 的 时候, 并不是 只有 这个 灯 照亮 的 地方 它 会 变亮。 你是 整个 房间 都 变亮 了, 为什么呢? 因为 这个 灯 发出 来 的 光子, 它 照亮 这个 物体 以后, 这 光子 它 会 继续 的 在 整个 空间 里面 去 传播。 所以 这 带来 的 巨大 的 计算 量, 这就 带来 了 很多 渲染 算法 方面 的 研究。 比如说 光线 追踪, 比如说 光山 化, 他们 所做 的 事情 都是 希望 在 尽可能少 的 硬件资源 前提 之下, 我 把 这个 场景 渲染 的 更加 符合 人类 的 视觉 系统。 所以 渲染 其实 最 直接 的 就是 光 对, 最 直接 的 就是 光线 的 传播。

当然 光线 传播 这个 是 非常复杂 的 一个 问题。 因为 光线 它 如果 遇到 物体 表面 的 时候, 它 会 根据 不同 表面 的 属性。 大家 可能 在 以前 学 过 表面 有 镜面反射 和 漫反射, 对 吧? 但 实际情况 可能 比 这个 更 复杂 一些, 它 可能 有 一些 很多 材质, 它是 介于 镜面 和 漫反射 之间 的, 甚至 有 透明 的 材质, 甚至 有些 材质 它 会有 一些 花纹 和 纹理。 比如说 咱们 房间 里面 这些 大理石, 这些 木板, 它 其实 是 特别 复杂 的 一个 问题。 当你 去 越来越 精确 的 去 建模 这种 光线 传播 的 方式 了 以后, 那你 就可以 越来越 精确 的 去 还原 整个。 数字世界 它 呈现 在 你的 观众 眼前 的 样子。

对我 好像 大概 摸 到点 门路。 就 本质 来讲 肉眼 看到 就是 一张 图, 对 吧? 这 张 图 里面 有 无数 的 像素 试点, 其实 光 最后 它 呈现 出来 的 也就是 当时 那个 像素点 位 的 一个 效果, 对 吧? 什么颜色, 什么样 一个 形态。 然后 最终 人眼 把 这 整个 图片 吸收 以后, 他在 脑子 当中 形成了 实际 的 一个 类似 仿真 的 这么 一个 结果。

对, 你可以 认为 渲染 这个 事情, 就是 在 做 光线 传输 的 仿真 是 但 我 好奇。

的 一个点 就是 你看 我们 说 渲染, 说 图片, 说 图形学, 但 好像 很少 提到 图片 本身 对 吧? 都 是在 讲 视频, 讲 三 弟, 这个 是 为什么? 就 比如 我 一键 修 图 算不算 在 做 渲染? 一键 修 图 不算 做 渲染 的, 这个 区别 是什么 呢? 我 也可以 改 它的 光影 效果。

对, 很 好的 问题。 你 如果 只是 一个 二弟 的 问题, 那 它 一般 大家 不会 认为 它是 做 渲染。 O K 渲染 和 其他 东西 的 原则 就是 渲染 它 一定 是 有 3D的 数据 的, 把 3D转化成 2D这个 过程 在 图形学 里面 一般 叫做 渲染, 或者 英文 叫 andy。 如果你 狭义 意义 上面 说 图形学 领域 里面 的 rendering 这个 事情 的话, 那 它 其实 就是指 把 三 弟 以 物理 真实 或者 风格化 的 方式 变成 二弟 的 这种 竞争。 或者说 渲染 成 视频 也可以。

那 我不能 问 视频 跟 三体 之间 到底 是一个 什么样 的 关系 呢? 你 就 这么 讲。

对, 这也是 特别 本质 的 一个 问题。 这个 问题 其实 很大, 我们 要不 把 它 聚焦 在 A I 生成 视频 和 A I 生成 三 弟 上面, 这样 可能 更 具体 一些。 视频 和 3弟它 最 直接 的 一个 关系 可能 是 大家 会 觉得, 如果说 我 能 生成 一个 绕 这个 物体 转 一圈 的 视频, 我 是不是 就可以 通过 这样的 所谓 的 一个 环绕 视频, 把 这个 物体 给 用 三 弟 重建 的 方法 给 它 重建 出来。 这个 是的。

为什么 会 有人 觉得 如果 A I 甚至 视频 能 解决 了, 那么 A I 甚至 3弟也能 解决。 很多 学术界 的 朋友, 还有 也有 一些 在 创业 的 人, 他 会 这样 去 想 我自己 的 观点, 就 一家之言。 我 感觉 这样 其实 有点 绕路 了。 其实 你 有 一条 更好 的 路线, 去 直接 从 通过 A I 去 学习 二弟 和 3弟数据。 你可以 直接 不用 这个 A I 生成 视频 的 方法 去 生成 三 弟 的 模型。

那 具体 到 视频 和 3弟他们 俩 有什么 区别 呢? 我 觉得 可能 比较 让人 头疼 的 事情 是 三 弟 它的 表达 的 格式 和 视频 比 起来 更加 的 复杂。 比如说 三 弟 你 表达 一个 3D物体, 它 有 很 多种 表达 的 方式。 你可以 用 神经 辐射 场, 用 nerve, 可以 用 pooling cloud, 用 这种 点 云。 点 云是 什么 呢? 就是 空间 中 一个点。 你可以 用 很多 点 把 这个 三 弟 物体 给 表达出来, 就像 你可以 用 很多 像素 把 二弟 的 图像 给 表达出来 一样。 你 还 可以 用 提速, 提速 就是 3D版 的 像素。 我不知道 大家 有没有 玩 过 minecraft, 它 其实 就是 一个 方块。

你可以 把 这 物体 堆 出来, 但 我 能不能 解 提速 是一个 更大 的 点 云 的 感觉。

体 速 和 点 云 唯一 的 区别 就是 体 速 它是 规则 分布 的。 你 就 想象 体素 是什么 呢? 就是你 有 一块 豆腐, 你 要把 这个 豆腐 给 它 切成 1块1块 的 豆腐 丁。 你 会 怎么做? 横切 一百 刀, 竖 切 一百 刀, 然后 再 水平 的 切 一百 刀, 对 吧? 那你 这样 就 得到了 100乘100万个 小的 豆腐 丁。 它是 非常 规则 一种 表示 方式。

起诉 有什么 好处 呢? 它 对 计算机体系结构 是 非常 的 合适 的。 因为 计算机体系结构 特别 喜欢 这种 横 平竖直 的 东西, 并且 它 和 神经网络 也是 非常 适应 的。 因为你 再去 做 二弟 的 这种 神经网络 的 时候, 你的 图像 就是 二弟 的 这种 山阁, 横 多少 行 多少 列, 对 吧? 所以 你 基本上 可以 把 二弟 的 这些 神经网络 的 组织 无缝 的 给 它 切换 成 3D无非 就是 加 一维, 只不过 计算 量 可能 会 大 一些。 这个 是 体素 的 表达。

就 有点 像素 风 的 那种。

对对对, 它是 规则 的, 点 云 它是 不规则 的。

所以 点 云 应该 更 高级。 因为 点 云 可以 做出来 提速。 如果 这么 讲。

理论上 是 这样, 它 可能 确实 是 更 通用 的。 但是 它 也 失去 了 提速, 由于 提速 的 这种 规则 排列 的 性质 带来 的 很多 的 好处。 然后 nerve.

你 刚才 其实 提 了 一下, 就 大家 其实 今年 经常 讲 nerve 这个 词。 对, 但 所以 就 跟 点 云 跟 习俗 其实 是 平行 的。

是 吧? 那时候 全名 叫做 neural radiance field, 中文名 叫做 神经 辐射 场。 他 做 的 是什么 事 呢? 他是 用 一个 神经网络 去 表示 这个 场景 里面 的 每 一个点, 从 不同 角度观察 时候 他的 样子。 因为 这个 场景 里面 每 一个点 它 都有 自己的 不同 角度 看上去 的 样子。 O K 但是 这个 数据 是 很大 的, 对你 需要 一个 东西 去 压缩 它, 神经网络 恰好 就 很 适合 做 这个 事儿。 OK 所以 这是为什么?

神经 辐射 场 是 大家 现在 经常 研究 的 一个 东西, 和 神经 辐射 场 很 相关 的 一个 东西 叫做 高斯 散射。 大家 一般 会 把 它 认为是 nerve 的 一个 替代品, 或者说 有些 情况下 是一个 升级 的 版本。 其实 高斯 散射 它 就和 神经网络 没有 任何 关系 了, 它 就是 用 一堆 在 空间 中的 点, 然后 每 一个点 有 自己的 应该 你可以 认为 它 有 一定程度 的 方向性 和 大小, 所以 他 就 也可以 像 神经 辐射 场 一样, 表示 一个 场景 的 3D的 信息。

点 云 其实 和 高斯 散射 也有 一些 关系, 其实 你可以 认为 高斯 散射 是一种 点 云。 但是 一般来说, 点 云 它的 数据 的 表示 的 形式, 它 就是 一些 独立 的 点。 大家 也 比较 少 在 一个点 云 上面 直接去 优化 这个 点 云, 让 它 能够 去 还原 整个 场景。 一般 点 云 就是 通过 一些 算法 直接 给 吐出来, 直接 作为 算法 的 输出 给 输出 出来 的。 但是 高时 资产 设有 一个 优点 是 你可以 不断 的 去 微调 它, 不断 去 调整 它, 去 在 上面 做 优化。

但 其实 在 实时 图形 领域, real time graphics, 比如说 你 玩游戏 的 时候, 大家 最 常用 的 是 三角 网格。 什么 是 三角 网格 呢? 就是我 用 一堆 三角形 把 你的 模型 给 表示 出来。 在 传统 的 渲染 管线 里面, 大家 一般 是以 三角形 为 单位 去 进行 渲染 的。 这个 三角形 可能 会 非常 的 小, 非常 的 细微。 然后 光有 三角形 还 不够, 一般来说 大家 还 会有 表面 的 贴图, 贴图 就 决定 了 它 表面 看起来 的 样子。

比如说 我 送你 一个 圣诞 礼盒, 那 它的 三角 网格 可能 就是 假设 它是 一个 完完全全 立方体, 那 它 立方体 有 六个 面对 吧? 但是 每个 面 它是 一个 正方形 怎么办? 我 每个 面 给 它 斜切 一刀 就 变成 两个 三角形。 所以 我 其实 可以 用 12个3角形 去 表达 一个 立方体。

我 现在 突然 有 个 想法, 我 觉得 你们 搞 这个 的 应该 几何学, 什么 线性代数 都要 学 的 非常 好。 你说的 非常 对我说 我 线性代数 好像 考 到 60分了。

其实 线性代数 是 图形学 里面 最最 关键 的 一个 基础 要 用到 的 科学。 这样 当然 没 说完, 就是 这个 三角 网格 可以 表达 它的 几何, 然后 它 表面 的 这个 花纹 是用 纹理 贴图 去 实现 的。

明白, 但 刚才 有一个 没讲究 match, 然后 你们 肯定 是用 match, 是 吧? 你们 就 match 点。

A 对讲 mesh 就是 三角 网格。 但是 mesh 它 除了 三角 网格 以外, 还 可以 是 四边形 网格, 还 可以 是 五边形 网格。 OK 这个 是 非常复杂 的。 比如说 你 问 一个 动画师, 他 肯定 说 我要 四边形 网格。 因为 四边形 网格 他 要 做 动画 的 时候 比较 方便。 对于 建模 的 人 来说, 四边形 的 网格 他 会 觉得 这个 拓扑 结构 会 更好。

更容易 它 进行 编辑。 但 我 听起来 就是 三角形 可以 拼成 四边形, 可以 拼成 五边形。 对你 也很 容易。

把 四边形 转呈 三角形, 但是 你 把 但是 问题 就 变成 当你 把 一个 四边形 网格, 把 它 变成 三角形 网格 时候, 再 对它 进行 编辑, 再去 做 动画 就会 更难 一些。 因为 它 失去 了 原有 的 一些 几何 的 信息。

所以 这 几个 技术 之间 大体 的 优劣 跟 现在 市面上 公认 的 大家 在 选择 的 方向 上 是 怎么样 的。 为什么 你们 会 选择 了 match? 因为 我们 今天 听 的 最多 的 还是 nerve。 对。

首先 我们 叫 messi 的 A I 倒 不是说 我们的 技术 上面 用了 很多 match 相关 的 东西, 当然 肯定 也有, 因为 做 图形 的 人 肯定 没有 谁 是 不用 match 的。 其实 虽然 现在 有 很多 新的 表达方式, 但是 主要 大家 用 的 最多 的 还是 三角 网格。 这个 就 包括 你 玩 的 手机游戏, 大家 还是会 用 三角形 的 网格 去 表示 里面 的 道具, 还有 一些 角色。 当然 你 可能 也 看到 一些 创新者, 他们 在 尝试 把 nerve 或者 高斯 散射 这样的 东西 给 放到 游戏 引擎 里面 去。 这样 带来 的 一个 好处 就是说 你可以 把 一些 真实世界 中 捕获 的 一些 东西 给 放到 游戏 里面, 其实 是 很 有 吸引力 的。 但是 它 距离 真正 的 在 主流 的 游戏 里面 发挥 很大 的 作用 还需要 时间。 我 觉得 以后 可能 是 这样, 但是 在 也许 五年 的 时间 之内, 它 还 不会 是 主流 的 表示 方式。

我们 今年 其实 聊 了 一些 A I 生成 3D的 公司, 然后 尤其 就是 在 上半年 的 时候, 我 感觉 大家 都 比较 纠结 于 说 就是 一个点, 就是 它 不能 进 所谓 的 管线 对 吧? 就是 这个 东西 生成 出来 以后, 它 不 具备 里面 的那 我 粗浅 理解 里面 要有 一些 网状 的 什么 点 格 之类 的。

你说的 很 对, 就是 它 最后 输出 的 东西 一定 得 是 match。 才能够 和 现有 的 图形 的 使用 场景 去 吻合。

就 才是 可 编辑 可控, 吧? 才能 有 这个 可用。 所以 今年 一 整年 的 整体 的 技术 进展, 你 觉得 怎么样? 因为 我们 其实 不断 的 还是 看到 一些 技术 上 的 突破, 一些 新的 开源 的 算法 出来。

对我 觉得 真的 进展 的 非常 快。 我在 这个 行业 也有 一段时间 了, 我 从来 没有 看到 说 大家 如此 猛烈 的 研究 这 一个 问题。 这个 问题 就是 A I 生成 3D内容。 那 进展 快 也 是因为 大 模型 带来 的 吗? 我 觉得 大 模型 在 这 里面 的 贡献 可能 没有 那么 大。 坦率 来说, 因为 large language model 更多 的 是一个 语言 方面 的 模型。 反倒 是 像 一些 开源 的 图像 的 模型, 比如说 stable diffusion 这样的 模型, 其实 给 大家 提供了 很 好的 科研。

的 基础设施。

OK 因为 很多 的 人 在 做 这个 事儿 的 时候, 他 就是 把 二弟 的 这种 生成 模型 给 升为 做到 三 弟。 所以 像 stable diffusion 这样的 开源 的 二弟 模型, 反倒 是 给 学术研究 带来 了 很大 的 价值。

所以 你看 你 像 我们都知道 A I 生成 文字 或者 生成 图片 等等, 它 本质 上 还是 一个 概率 的 模型, 对 吧? 然后 生成 视频 其实 也可以 理解, 就是 像素 的 一个 概率 的 延续, 对 吧? 那 3D也是 类似的 吗?

好, 问题是 3D是的, 3D基本上 你可以 认为 它是 2D的 一个 未来 的 方向。 2D有 两个 方向, 第一种 你 加上 时间 维度 变成 视频 对 吧? 第二种 你 加上 空间维度 变成 三 弟。 但是 虽然 说 他的 思想上 是 这样, 但是 当你 真的 要 去 解决 这个 问题 的 时候, 你 会 发现 三 弟 会 带来 很多 额外 的 挑战。 就 比如说 二弟 你 身上 一张 图像, 我们 就 举例 512乘512 这个 分辨率 还行, 对 吧? 但是 你 如果 真的 要 去 搞 一个 三 弟 的 512乘512 再 乘 512 的 这样的 一种 表示, 那 这个 计算 量 是 非常 高 的。 所以 大家 就得 另辟蹊径, 去 在 这种 有限 的 计算资源, 有限 的 数据 的 情况下, 带着 镣铐 跳舞 去 想 好的 算法。

我们 今天 看到 的 其实 应该 有 4种生成 3D的 方法。 第一种 是 可能 做 的 比较 早, 你们 我 我知道 比较 早 也 在 做, 贴图 的 改变 的 方法, 给定 模型 去 绘制 贴图。 对, 反正 这个 技术 就是说 我可以 通过 换 贴图 来 换 各种 的 材质 跟 光线 的 感觉。

对, 首先 这 里面 我 觉得 涉及到 两个 问题。 第一个 问题 叫做 什么样 的 三 弟 甚至 是 A I 产品 是 好的, 这 是一个 问题。 第二个 问题 是 三 弟 甚至 是 A I 到底 应该 解决 哪 几类 的 任务? 我 先 说 第二个 问题, 就是 三 弟 的 AIGC 或者 甚至 是 A I 它 应该 去 解决 什么 任务 呢? 我 觉得 主要是 三个 任务。 第一个 就 是从 文字 身上 贴图, 这个 我们 现在 是 做 的 最早, 也是 市场 上面 最有 竞争力 的 产品。 我们的 贴图 可以 到 4K的 分辨率, 也有 很 好的 风格 控制。

Texture 就是 文字 到 一个 文字 贴图 的对 对, texture 这 其实 就 很 说明 它的 这个 东西? 就是 一个 材质 什么 那种。

对对对, 就是 它的 材质 纹理。 这是 任务 一。 任务 二 是 文字 直接 到 三 弟 模型。 它 和 文字 到 纹理 的 区别 在于, 文字 到 纹理 还是 需要 用户 去 提供 三维 模型 的。 你可以 认为 我 拿到 了 一个 白色 的 一个 雕像, 然后 我 用 水彩笔 在 上面 去 绘画, 只是 在 改变 它 表面 的 样子 而已。 那么 文字 到 三 弟 或者说 text 3D他 做 的 事情 是 模型 和 贴图 是 同时 一起 生成 的那 这个 难度 就会 更大 一些。 这块 儿 我们 也 在 做, 也是 市场上 现在 最 领先 的 产品 之一。 这块 它 主要 应用 场景 是 你可以 用 它 去 生成 一些 像 影视, 还有 游戏 里面 的 一些 中 远景 的 这样的 道具, 那是 没有 问题 的。 比如说 我 远处 有一个 小房子, 我 桌上 有 一个苹果, 大家 不太会 凑近 的 去 看你 本来 需要 大量 这样的 道具 来 填充 你的 场景, 但是 你 有 A I 了, 可以 去做 这样的 生成。 这个 是 任务 2, 从 文字 生成 三 弟。

任务 三 是从 图像 生成 3D模型 和 贴图。 这个 问题 其实 和 从 文字 生成 3D是 差不多 难 的 问题。 这个 方面, 大家 之所以 希望 用 图像 去 生成 3D模型, 而 不是 用 文字, 最 主要 的 原因 就是 因为 图像 更加 可控。 比如说 你 要 描述 一个 角色, 他 正面 长 什么样, 你 用 文字 去 描述 是 挺 难 的 一个 事儿, 但 你 有 一张照片 就 容易 很多。 这 一块 其实 在 做 的 学术界 的 研究 是 也是 很多 的。 然后 我们 也有 一个 产品 在线 上, 当然 这个 可能 不是 我们 最近 主要 花 精力 去做 的 事情 了。

之前 其实 传统 的 也是 说 我可以 比如说 电商 场景 里面, 他 把 一双鞋 然后 去 不断 的 去 拍照, 拍 几十张, 最后 合成 一个 三 弟 的 东西。 这个 其实 是 大家 能 做到 的, 只是 说 成本 很高。

这个 就 属于 三 弟 重建 了。 其实 成本 也没有 那么 高, 这个 技术 十年 前 就 很 成熟 了。 就是你 拍 一堆 照片, 但是 他 对你 照片 的 要求 是 很高 的。 那你 得 是 受控 条件 之下, 相机 角度 有 约束, 有点像 黑客帝国 的 那个 子弹。 对对对, 有点像 这个 子弹时间, 他 得 摆 一个 相机 阵列, 或者说 你是 相机 得 放在 很 稳定 的 位置。

不能 拍 虎。 是, 但 现在 我们 刚才 讲 的 那个 就是我 只 给你 一张 照 一张 图, 然后 其实 是 它 还是 一个 概率 预测, 就是我 去 预测 你 其他 的 各 面 是 长 什么 样子 的对, 就是 A I 要 去 猜 背面 是 长 什么样。 那 这个 他 怎么 猜得到 呢? 他 首先 要 先 理解 这 张 图 是什么 吗? 还是 怎么样?

这是 很多人 会 问 的 问题。 首先 他 会 去 尝试 理解 它的 正面 是 什么样, 你的 A I 在 训练 它的 时候, 它的 数据集 里面 会有 一个 叫做 多角度 数据集。 这个 多角度 数据集 它 就是我 不是 单张 图片 去 训练, 我是 把 你的 正面 和 背面 一起 训练。 我给你 正面 你 出 背面, 给你 背面 你 出 正面, 所以 他 这样 就可以 通过 你的 正面 的 图像 去 预测 出来 它的 其他 角度, 看到 图像 是 长 什么样。

但 这 一块 大家 一直都在 讲 3D现成 的 数据 跟 资产 还是 相对 比较 少 很少。 所以 它 就是 数据 上 是一个 最大 的 局限。

目前 来看 确实 是的。 我给你 举 几个 具体 的 数字。 比如说 二弟 的 数据集, 像 lio 它 有 58亿5000万张 图, 这 是一个 巨大 的 数据集。 但是 你 如果 看 比如 三 弟 模型 的 数据集, 你 如果 去 看 sketch fab 这样的 三 弟 模型 的 网站, 它 也 只有 500万个 模型。 你 想 500万和 50亿中间 差 了 有 三个 数量级。 而且 还 不是 那些 sketchup 数据 你 就能 直接 用了, 人家 有 版权 问题 对 吧? 所以 这 里面 数据 上 的 差距 是 很大 的。 是 但 他。

其实 另一方面 说明 了 说, 就 因为我 觉得 三 弟 这个 东西, 它 还是 一个 to b 的 一个 事情, 对 吧? 大家 更多 的 时候 是在 做 游戏 或者 做 一些 其他 的 建筑 等等 的 事情, 但 图片 跟 视频 有 U G C 的 一个 事情。 对, 33D其实 是 很少 有 U G C 的 概念 的。

是 这个 也是 我们 想 的 比较 多 的 一个 事儿。 坦率 来说, 三 弟 资产 的 市场 只有 2D资产 市上 的, 其实 一年 统计 口径 大概 可能 是 十分之 1到20分之一 的 规模。 目前 来看, 至于 三 弟 有没有 ugc, 我们 其实 也 做了 一些 探索。 有的 地方 是 有的, 就 比如说 在游戏 里面, 我们 做了 全球 第一款 3D的 AIGC 的 手游 和 我们的 合作伙伴。 我们 提供 的 功能 是你 以前 在游戏 里面 穿 的 衣服, 都是 和 美术 老师 提前 画 好, 你 去 选择。 但 我们 现在 可以 你 输入 提示 词, 然后 我给你 把 衣服 给 画 出来, 这个 就是 一个 典型 U G C 的 场景。 并且 其实 U G C 的 场景 还 更 适合 3D的 这样的 技术。 因为 现在 三 弟 的 技术 还 不太 成熟, 反倒 是 U G C 的 场景, 大家 对于 质量 的 要求 没有 那么 高。 大家 更多 觉得 我 能 生成 三 弟 的, 我 觉得很有 意思, 我 就 愿意 用。 你 如果 真的 放在 这种 professional 的 专业 的 场景 里面, 那么 3D坦率 来说 还 达不到 大家 的 要求。

但 这 里面 你看 我 觉得 3D是不是 跳过 了 一个 步骤, 就是 图片 跟 视频 它 都 有一个 从 专业 工具 到 C 端 工具 演进 的 一个 过程。 首先 to c 它 先 有的, 比如 现有 的 美图秀秀 这样的 工具, 我 能 快速 的 自己 去 修 图。 现有 的 剪 映 这样 工具, 我 能 快速 自己 去 剪 视频。 但 三 弟 还是 非常 专业 的 一整套 工具。 然后 中间 其实 现在 是不是 没有 这么 一个 C 端 自己 能 使用 的 工具 的 环节。 然后 他 直接 跳 到了 一个 A I 使用 3D的 一个 程度。

我 觉得 其实 美图秀秀 和 剪 映 他们 都有 相应 的 专业 产品。 比如说 美图秀秀 可能 是 photoshop, 是 P S 对。 然后 剪 映 它 可能 之前 是 adobe P A E P R premiere 这些 工具。 那么 三 弟 现在 大家 还 停留 在 blender、 maya max 这样的 专业 工具。

对, 都 是我 没 听 过 的 工具, 对 吧?

可能 大家 就 离 这个 比较 远 了。 但 3D有一个 问题 是什么 呢? 你 让 普通人 去 操作 美图秀秀, 操作 这个 剪 映, 它 还是 能 学会 的。 当你 把 界面 经过 良好 的 设计 以后, 还是 能 学会 的。 但是 三 弟 建模 这个 东西 可不是 所有人 都 愿意 去 折腾 的。 并且 你 其实 很难 把 三 弟 建模 这个 东西 变成 大家 都能 接受 的。 不是 所有人 都有 这个 空间 的 感觉。

对, 而且 我 觉得 主要是 好像 确实 没有 太多 的 场景, 这个 东西 它 是不是 得 在 什么 vrar 里面 去 实现 的?

对我 觉得 现在 的 一个 大问题, 其实 是 你看 所有的 V R headset, V R 头 显 它 有 多少 的 M A U, 就是 月活 大 几百万。 但是 这个 和 比如说 手机 它的 月活 差距 是 很大 的。 是 大家 会 期望 什么 呢? 是不是 在 26年、 27年、 28年 过 几年 以后, 像 vision pro, vision pro 是不是 iphone? 这个 是一个 很大 的 一个 问题, 你 觉得 是吗? 我 觉得 可能 是 我 觉得 我也 觉得 我 觉得 有可能 是。 如果 是 这样的话, 你 就 想 如果 大家 日常 比如说 有 1亿的 V R headset 的 这个 M A U, 那么 在 这个 时候, 他 可能 就会 催生出 每个 人的 日常生活 中都 会 用到 这样的 三 弟 的 资产。 是 那 这样 就 他 就有 了 场景。

是, 所以 我 觉得 这个 时间点 现在 是 很好, 现在 二三年, 对 吧? 我 咱们 可以 27年 再 回来 做 一期, 四年 以后 再做 一期。 我看 今天 说 的 到底 对不对, 26年, 争取 争取 26年。 对, 因为 你看 iphone 和 iphone 4 中间 其实 是 隔 了 三年 的 时间。 Iphone 07年, iphone 4是 2010年, 对 吧? 移动 互联网 这个 革命 什么时候开始 的? 10年 的 时候, 所以 你 如果 把 vision pro 看成 是 iphone 的话, 那 其实 也就是 三四年 两三年 的 时间。

对, 但 你 之前 其实 都在 做 一些 视频 渲染, 或者 一些 也有 做 一些 游戏 相关 的 三 弟 渲染 的 东西, 对 吧? 就 你为什么 会 在 这个 节点 想到 要 做 再加 3D生成 这件 事情?

很 好的 问题。 其实 我自己 的 经历 有 这么 一个 转变。 刚才 也 提到 过, 最早 的 时候 我是一个 非常 正统 的 图形 研究者。 什么 叫 正统? 就是我 不 咋 信 数据 驱动 这套 方式 O K 我 更 信 渲染 方程, 更 信 牛顿、 麦克斯韦、 拉格朗日 给 我们的 一套 线性代数。 对, 就 线性代数 的 一套。

然后 后来 做 着 做 着呢, 我也 意识到 这种 尝试 去 精确 的 刻画 世界 的 方式, 它 本身 是 有一个 局限 的。 就 比如说 这些 方程 有 很多 东西 你是 很难 去, 甚至 你 都 很难 去 测量, 也很 难 去 建模。 它是 在 这种 情况下, 有的 时候 数据 去 驱动 它 反倒 是一个 更好 的 方式。

我在 整个 读 博士 的 期间, 我 就 既 做 图形学 方面 的 东西, 也 去做 图形学 和 A I 的 结合。 这块 儿 可能 有 个 五年 的 时间 改变 了 我的 看法。 你看 我 最早 做 科研 是 2016年, 现在 七年 过去了。 我 现在 就有 一个 独特 的 属于 我们 团队 的 机会, 也是 属于我 的 机会。 就是我 既 熟悉 传统 图形 这块, 又 熟悉 人工智能 这 一块儿。 在 他们 中间 恰好 又有 一个 商业化 上面 听起来 很 有 希望 的 一个 事情。 我们 相信 这个 事情 是 有 市场需求 的, 而且 我们 整个 团队 在 这个 里面 我想 是 非常 有 竞争力 的。 所以 我们 现在 非常 坚定 的 去做 A I 生成 3D内容。

你 刚才 提到 你 看到 的 一个 很 明确 的 市场需求 是什么? 是 更 多是 游戏 行业 吗? 还是 什么? 我 觉得。

是从 传统 的 图形 行业 来说, 不管 是 游戏 还是 影视, 大家 对于 3D模型 的 需求 是 永远存在 的。 我 去 问 过 一些 公司, 我给你 举 几个 数字。 第一个 是 3A游戏, 它 里面 的 成本 有 50% 都是 3D美术。 特别是 越是 这种 开放 世界 的 M M O R P G 这种 游戏, 它 里面 需要 的 资产 越多, 他 做 资产 的 成本 就 越高。 那 现在 这些 资产 是 怎么做 的 呢? 他 可能 外包 给 一些 资产 外包公司, 1000块钱 一个人 一天。 那你 做 一个游戏 里面 的 剑 盾牌 搞 了 两周 就是 一两万 就 放进去 了。 一些 制作 更 精良 的 角色, 他 可能 成本 会 更高。 所以 整个 游戏 行业, 影视 行业, 它 对于 这种 3D资产 的 诉求 是 其实 挺 高 的。

整个 的 如果你 只是 看 这个 专业 的 市场, 大概是 一个 30到100 亿美金 的 一个 市场。 当然 这 里面 你 作为 一个 A I 生成 的 3D资产, 你 不可能 一下子把 它 全部 给 吃掉, 对 吧? 肯定 能 找出 一些 细分 的 一些 地方, 先 去 在 这些 地方 去 把 它 打 透。 哪怕 你就是你 占 一百亿 的 市场, 1%, 那 也 足够 做 你 作为 一个 me journey 级别 的 一个 产品 了。

对我 刚才 就 想 问 你, 你 觉得 三 弟 这个 技术 它 到 me journey 或者 S D 的 那个 程度 大概 需要 多久? 然后 还有 哪些 挑战?

对我 想 从 市场 和 技术 两方面 来说, 市场 就是 咱们 刚才 聊到 的, 现在 其实 消费 级别 的 3D的 需求 的 市场 还 比较 少。 比如说 我 发给你 一个 3D模型, 你知道 怎么 打开 它 吗? 应该 打不开。 这个 就是 现 三 弟 的 消费 级 市场 的 现状。

那 这个 什么时候 会 改变 呢? 我 觉得 也许 26年 等到 可能 一些 愿意 尝鲜 的 人手 一台 vision pro, 或者说 小米 版 的 vision pro 能够 普及 了 以后, 大家 不会 再去 满足 于 看 图片 视频 对 吧? 那么 大家 肯定 会 去 希望 去 看 可 交互 的 3D的 内容。 这个 时候 就 会有 大量 的 一个 需求 和 供给 的 一个 差别。 所以 市场 方面 我 觉得 两三年 时间 乐观 来看, 技术 方面 我 觉得 我们 只 解决 了 10% 的 问题。

现在 我们 A I 生成 的 3D模型 还有 很多 问题 没有 解决。 专业点 说什么 U V, 拓扑 它的 生成 的 模型 的 质量, 贴图 的 质量、 可控性, 速度 好多 都 没 解决。 但是 我想 这个 领域 进展 是 很快 的, 我们 自己 也 在 加大 投入 去做 这个 方向。 所以 我想 未来 90% 的 问题 可能 也就是 两三年 的 时间 OK, 所以 我是 比较 乐观 的。

所以 你 觉得 视频 跟 三 弟 哪个 会 更 快一点? 我 觉得 视频 会 更快。 你 不可否认 的 是 视频 的 市场 比 3弟要 大 很多。 你 视频 的 已经 有 消费 场景 了, 但是 它的 技术 的 成熟度, 我 觉得 和 3D成熟度 半斤八两。 大家 现在 还在 解决 我 视频 我 甚至 2秒钟 如何 扩展 到 8秒这样的 问题是。

但 视频 应该 还是 有 一些 这种 小的 技巧, 比如 用 一些 什么 插针 补针, 一些 A I 剪辑 去去 做成 一个 类似 效果 的。 最后的 结果 出来 了 可以。

但是 这个 核心 的 问题 还是 大家 之所以 希望 宣传 视频, 还是 希望 它 有 故事 有 逻辑。 你 如果 只是 几秒钟, 那你 再 怎么 查 真, 你 也很 难 把 故事 的 逻辑 给 搞 出来。

但 视频 它 现在 有 很多 公司 在 做 那种 什么 换 电, 然后 换 语言, 对嘴 这些。 三 弟 上 我 能 基于 已有 的 东西 快速 的 去 变 一个 模型 出来 吗?

可以 是 可以, 但是 没有 应用 场景 对 吧?

也是 场景 的 问题。

对, 是 如果 有 V R 的话, 就是 如果 人手 一台 V R 设备, 那你 做 这个 是 有意义 的。 比如说 我 拍 一张 你的 照片, 把 你 变成 Q 版 的 一个 头像, 这个 肯定 是 有 需求 的。 但 现在 主要 还是 大家 没有 很 好的 三 弟 的 消费 场景。

你 其实 在 过去 几年 里面, 其实 像 开头 也 讲 了, 你 经历 了 科研 跟 创业 的 两件 事情, 对 吧? 对, 而且 你 中间 正好 是在 那个 转折点, 你 做了 用 图形 的 那个 算什么, 用 图形 编程 的 语言 去 快速 做出来 一个 冰雪奇缘 的 那个 效果。 那个 当时 非常 炸裂, 应该 大多数 人都 看过。

对, 当时 大家 挺 喜欢我 也没有 想到 其实我 自己 写 了 一篇 文章, 初中 就 只是 一个 技术 分享吧。 然后 大概 的 背景 就是我 那个 时候 拔 智齿, 然后 拔 了 智齿 以后 牙疼, 然后 就 也 写 不动 代码 了。 我 就 想 能不能 把 这个 科研 的 经历 稍微 写 一 写。 我也 没想到 大家 会 这么 喜欢 这样的 一个 科研 工作者。 非常 枯燥 的 故事。

所以 这几年 做 起来, 你 觉得 这 两种 生活 和 体验 的 感受 如何?

我 觉得 创业 好 难。

比比 科研 和发。

论文 还 可能 难 多了。

或者 我 可能 比如说 如果 问 你说 你 最终 后不后悔 创 这件 事情。

我 觉得 不后悔, 目前为止 不后悔。 我没有 像 老黄 一样, 老黄 就说 再选 一次 的话, 可能 就 不会 去 创立 英伟 达 了。

对 吧? 他 都 做成 这个 样子, 他 还 可以 这么 讲。

对 对, 是 就是我 觉得 可能 目前 来看, 我 还是 很 享受 创业 的 这个 状态。 中途 有 一段时间 确实 是 觉得 压力 比较 大 的。 那 段时间 有家 里面 有 老人 去世, 有 这个 方向 的 选择, 也有 一些 刚 创业 的 时候 有 一些 问题, 其实 是 缺乏经验。 但是 我 觉得 我 现在 走 过去了 这个 阶段, 特别是 开始 做 mesh 以后, 我 觉得 我自己 会 非常 享受 这个 事情, 而且 团队 也很 享受 这个 事情。 因为他 有 个 很 好的 一个 反馈。

对我 觉得 这件 事情 在 某些 层面 上 又 回到 了 你 之前 擅长 的 那些 事情 和 模式 上, 就是 更 偏 底层 跟 技术 一些。

对, 反倒 是我 觉得 技术 方面 对 我们 来说 是 容易 的 事情。

商业化 到底 该 怎么做, 怎么样 找到 P M F 是 永远 的 挑战。

时刻 要 去 想, 我们 得 去 build 一个 对 世界 有用的 东西, 而 不是 我们 想 build 的 东西。 前者 我 觉得 是 特别 大 的 一个 误区。 因为 你 如果 build 自己 想做 的 一个 东西, 你 非常容易 有 这种 正反馈。 你 很 容易 我 今天 写 了 一个 什么 code, 然后 就 自己 开心, 自己 很 开心 对 吧? 但是 你 如果 朝 更 远 的 时间 去 想 的话, 你 会 发现 很多 问题是 没有 一个 好的 答案 的。

是 A I 这 波 里面 其实 有 非常 多 的 教授 或者 这个 P H D 学生, 什么 就 做 科研 的 过来 创业, 你 你 就 你 有什么 建议 给 他们 吗?

我 觉得 就 几点。 第一点 是 还是 要 尽早 的 去 想一想 市场需求。 我 觉得 我 经常 聊 的 一个 事情 是 这 两年 创业 给我 带来 的 感悟 是什么? 我 觉得 最大 的 感悟 就是 why 可能 是 比 how 更 重要 的 事情。 其实 在 科研 也是 一样的, 在 科研 界 大家 都会 强调 你 要 去 work on an important problem, 在 一个 重要 的 问题 上面 去 工作, 是 就是 选题 很 重要, 选题 非常重要, 也就 问 用户 你 有什么 问题, 而 不是你 强加 给 用户 说 我 觉得 你 要 有什么 问题。 我 觉得 你 有 这个 问题 是不是? 用户 可能 比较 nice, 他 跟 你说, 对对对, 确实 有 这个 问题。 但 你 做了 之后, 你 就 发现 被 这个 东西 带到 坑 里面 去了。

所以 其实 答案 还是 商业化, 就是你 在 问 的 时候 就让 他 付钱, 他他 如果 真的 付 了 就 还好。

对, 更好 的 问题 可能 是 你 会 为 什么样 的 东西 付钱, 对 吧? 或者说 来 我给你 这个 东西 你 付钱, 我看 你 付 不 付。

就是你 就 像你 刚才 提到 中国 的 用户 真的 太 nice 了。 你 问 他 会不会 付钱, 他 很多 时候 说 会, 但 你 真的 非常 不会 对你 真的 让 他 付钱。

他 可能 宁可 去 买 一杯 二三十块 钱 的 喜 茶, 也 不会 为你 的 软件 付钱。 是 这个 是 挺 大 的 一个 挑战。 所以 我 觉得 从 科研 的 领域 出来, 有的 时候 得 忘记 自己的 之前 的 经历。 一是 忘记 自己 具体 科研 的 时候 解决 了 一些 问题。 第二 是 忘记 自己 从 一个 科学家 角度 对 这个世界 的 理解。 所以 前者 就是 防止 什么 问题 呢?

比如说 我 博士 期间, 我 研究 的 问题 可能 是 A B C。 但是 我 去 问 了 一下 用户, 他 可能 给我 答案 是 D E F 和 我 研究 的 A B C 完全 不一样。 这时候 我 到底 该怎么办? 我 到底 是 强行 继续 做 A B C, 不知道 南墙 不后悔? 还是 说 我 觉得 一种 另外 一种 心态 可能 就 更好。 这种 心态 叫做 我 作为 一个 科研人员, 我 能把 A B C 做好, 我 就 一定 也能 把 D E F 做好。 并且 D E F 是 用户 真正 需要 的 东西。

但 我 很 同意 你 刚才 讲 一个点, 我 觉得 其实 很多 做 投资 的 是从 管理咨询 转过 来 的。 然后 管理咨询 那 套 逻辑 其实 是 来自于 科研 的, 就是 hypothetic driven, 就是 假设 驱动, 怎么样 去做 A B T S 去做 实验。 是的, 对, 所以 其实 就是你 如果 是一个 好的 科研 者, 我 觉得 有的 时候 可能 不一定 是你 要 去 跟 商业 的 人 去 学。 反而 是 怎么样 把 科研 的那 一套 理论 的 逻辑 用到 最 极致。

对我 觉得 科研 工作者 其实 有 自己的 优势。 比如说 逻辑 清楚 是, 比如说 大部分 科研 工作者 是 比较 客观 的。 但是 往往 我会 发现 大家 对 实验 是 比较 客观 的, 但是 对 自己 有的 时候 没有 那么 客观。 比如说 你 很难 去 改变自己 的 一些 想法, 但是 创业 这个 事情 你 要 非常 及时 的 做出 很多 的 调整, 对 吧? 你 作为 C E O 你就是 一个 赛车手, 你 开 这个 方向盘, 那你 路 肯定 不是 直 的, 你 要 及时 的 转弯 的。 这个 也是 很多 我在 科研 界 的 时候, 可能 会对 一个 事情 很 执着, 有 这种 执念, 一定要 按照 某种 方式 去做 一个 事儿。 但 其实 创业 不一定, 可能 还有一个 事情 是 很多 的 科研 工作者 相对来说 内向 一些。 比如说 我自己 就是 很 严重 的 内向 的 性格。

但 我 觉得 你 已经 比 大多数人 大多数 科研 的 人。

我 老实 跟 你说, 我 跟你聊 这 俩 小时 我 已经 虚脱 了, 我 我 得 我 跟着 俩 小时, 我 就得 休息 一整天, 我 才能 缓 过劲 来。 OK. 但是 因为我 从事 这样的 岗位, 我告诉自己 不要 以 自己 舒服 的 方式 去过 每一天。 你 要 不断 的 走出 自己的 舒适 圈, 去 做自己 没有 那么 舒服 的 事情。 有的 时候 你 没有 那么 舒服 的 事情, 反倒 是对 整个 团队, 对 整个 公司, 对 所有 利益相关者 更 负责 的 事情。 是 这个 过程 可能 是 痛苦 的, 但是 你 不去 逼迫 自己 做 这些 事儿, 那是 不可能 取得 很 好的 成绩 的。 但是 其实我 恨不得 我 你 让 我 休假 的 时候, 我 恨不得 一人 把 自己 关 在 小黑屋 里面 写 代码, 那样 是我 最舒服 的 状态。

明白, 完全 理解。 现在 你们是 已经 发 了 一 版 产品 了, 是 吧? 大家 其实 想 用 的话 是 可以 去 用 的对, 大家 可以 直接 在 massage 点 A I 这个 网站 上面 去 用是 但 我 觉得 反正 A I 智能 3D听起来 是一个 需要 延迟满足 的 事情, 但 你 在 做 的 是 整个 世界 的 一个 基石, 我 觉得 这个 肯定 是 可以 这么 讲 的对 吧?

我 觉得 这个 其实 往 愿景 的 层面 说, 我们 就是 希望 每个 人都 能 去 创造 一个 自己的 虚拟世界。 这个 和 咱们 一开始 说 的 图形学 是 一门 帮助 大家 创造 更好 的 虚拟 数字世界 的 学科 是 非常 吻合 的这 也是 很多 人的 一个 梦想。 每个 人都 希望 说 一句话 就能 把 整个 世界 给 创造 出来。 对我 觉得 现在 这个 时间点 是 很 好的 一个 机会, 而且 A I 的 三 弟 也是 解决 这个 问题 最 重要 的 途径 之一。

上帝 是不是 第一句 话 说的是 要有光?

很 对 对, 上帝说要有光, 所以 我们 先 解决 了 渲染 的 问题。 要有光 以后, 就得 去 有 这个 山川, 有 这个 森林, 对 吧? 这个 就是 A I 生成 内容 的 问题。 是是是。

我们 就 谢谢 袁明。

好, 谢谢 邱 凯 老师 的 podcast, 也 特别 开心 能够 和 大家 分享 这些 内容。