EP 45. 深度解读 OpenAI Sora（上）：硅谷AI研究员眼里的技术创新、局限，多模态融合与世界模型

2024/2/21

OnBoard!

Frequently requested episodes will be transcribed first

Chapters

Shownotes Transcript

OnBoard! 终于成立听友群啦！新年新气象，加入Onboard听友群，结识到高质量的听友们，我们还会组织线下主题聚会，开放实时旁听播客录制，嘉宾互动等新的尝试。添加小助手微信，Nine_tunes, 发送你的姓名、公司和职位，就可以获得进群链接。期待你来！

这是Onboard 2024年姗姗来迟的第一期更新，给大家拜个晚年！这次我们讨论的话题，就是这周AI领域最让人激动的一个重磅炸弹：**OpenAI 发布了文生视频模型 Sora！**仅仅根据提示词，就可以生成60秒的视频，连贯、高清，有丰富运镜，甚至符合大部分物理规律。

未来真是比我们想象的还要更快到来。Sora是不是文生视频领域的GPT时刻？Sora 的真正创新是什么？scaling law 的暴力美学背后，还有哪些容易被忽略的技术细节？Sora 对于产生我们期望的世界模型意味着什么？

Hello World, who is OnBoard!?

如此重要的话题，我们当然要邀请来真正训练过视频大模型的专家和一线从业者，才能探究到本质。这次的深度解读，两个视角，长达三个小时，我们分成两个部分放送。

今天的第一部分，专注技术解读。重磅嘉宾 Lijun Yu 是 VideoPoet 第一作者。VideoPoet 是另一个革命性的视频生成大模型，由 Google Deepmind 2023年12月发布，8B参数量的模型产生的视频效果也震惊了世界。Lijun 绝对是transformer 和 diffusion 模型应用于视频生成领域最有发言权的研究员之一了。另一位嘉宾是爱丁堡大学phd的 Yao Fu，他在LLM，尤其是 scaling law 领域的深度研究，跟专注做视频生成的 Lijun 的视角，形成非常有意思的补充和碰撞。

即将放送的第二部分，我们邀请到真格基金管理合伙人，也是AI领域研究非常深度的投资人戴雨森，还有真格基金EIR，曾经的AI创业者，Peak。从投资人和创业者的视角，聊聊他们眼里Sora 对于创业公司意味着什么。

本期嘉宾们都是在美国工作生活，难免夹杂很多英文技术术语。show notes 中会有注释，虽然烧脑但是绝对值得，不接受抱怨。

嗯别忘了，添加小助手，Nine_tunes, 加入我们的听众群哈，等你来！满满的干货来袭，Enjoy!

嘉宾介绍

Lijun Yu)（推特 @@LijunYu0), 卡内基梅隆大学人工智能领域的博士生。北京大学本科。CMU 导师是 Alexander Hauptmann 博士，聚焦于多媒体的研究。曾在 Google Deepmind 工作。

Yao Fu)（推特 @@Francis_YAO_）, 爱丁堡大学博士生，北京大学本科哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型，包括数据工程，复杂推理长上下文，以及模型背后的科学原理。开源社区 LLaMafia 创建人。

OnBoard! 主持：Monica, 美元VC投资人，前 AWS 硅谷团队+ AI 创业公司打工人，公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

我们都聊了什么

03:21 嘉宾自我介绍，如何进入视频生成领域，快评：Sora 的 demo 中，哪一个让你印象最深刻？为什么？

10:52 VideoPoet 作者解读 Sora: 核心组成部分，重要创新，与以往 trasnformer + diffusion 工作的异同

14:52 为什么最让人意料之外的视频长度和高分辨率？与LLM中处理 long context 的方式有什么相通之处？

18:35 为什么模型中的 compression（压缩算法）这么重要？Sora 在压缩上的创新是什么？

24:05 视频生成模型中的 transformer 架构，与多模态LLM中的架构有什么异同？

27:10 如何理解Sora 展现出的涌现能力？为什么说 Sora 在理解能力上会有局限性？

29:39 为什么说将 Sora 与 GPT 这样的LLM结合起来会是大趋势？难点和可能诞生的机会是什么？

35:01 Sora 真的具备了理解世界的能力吗？从视频生成和 LLM 角度，如何理解世界模型？

49:19 如何估算 Sora 的大小和可能需要的计算量？这种模型形态未来还有什么增长空间？有什么局限？

71:53 现有 Diffusion 架构为主的视频生成公司改成 Sora 架构会有什么难点？

74:16 训练数据：VideoPoet 有哪些经验？Sora 可能有哪些创新？合成数据的价值和局限？

88:55 快问快答（虽然也没有很快！）Sora 改变了你什么观点？大家对 Sora 有什么常见的误解、高估和低估？如何看待 Bill Peebles 论文被拒但是成为 Sora 带头人？2024年最期待发生什么？

重点词汇

Latent Diffusion Transformer
Stable Diffusion
Autoregression model
Latent space
Context window
Consistency model
Sparse attention
In-context learning
Model serving

我们提到的论文

VideoPoet): A large language model for zero-shot video generation), by Lijun Yu
Scalable Diffusion Models with Transformer), by William Peebles, Saining Xie)
WALT: Photorealistic Video Generation with Diffusion Models), by Lijun Yu
World Model on Million-Length Video And Language With RingAttention)
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution)
ViViT: A Video Vision Transformer)

欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

**M小姐研习录 (ID: MissMStudy) - **Monica：美元VC投资人，前 AWS 硅谷团队+AI创业公司打工人 | 即刻：莫妮卡同学

点赞、评论、转发，是对我们最好的鼓励！如果你用 Apple Podcasts 收听，也请给我们一个五星好评，这对我们非常重要。

***最后！快来加入Onboard！听友群，****结识到高质量的听友们，我们还会组织线下主题聚会，开放实时旁听播客录制，嘉宾互动等新的尝试。****添加小助手微信，Nine_tunes, 发送你的姓名、公司和职位，就可以获得进群链接。***期待你来！

EP 45. 深度解读 OpenAI Sora（上）：硅谷AI研究员眼里的技术创新、局限，多模态融合与世界模型

OnBoard!

Chapters

嘉宾自我介绍，如何进入视频生成领域？

VideoPoet 作者解读 Sora: 核心组成部分和重要创新是什么？

为什么视频长度和高分辨率让人意料之外？

模型中的压缩算法为什么这么重要？

视频生成模型中的 transformer 架构有何特点？

Sora 展现出的涌现能力如何理解？

将 Sora 与 GPT 结合会是大趋势吗？

Sora 真的具备了理解世界的能力吗？

如何估算 Sora 的大小和计算量？

现有视频生成公司改成 Sora 架构的难点是什么？

VideoPoet 的训练数据经验分享

快问快答：Sora 改变了你什么观点？

Shownotes Transcript

PodQuest PodQuest Podcast Discovery Engine

EP 45. 深度解读 OpenAI Sora（上）：硅谷AI研究员眼里的技术创新、局限，多模态融合与世界模型 01:52:28 Share

OnBoard!

Chapters

嘉宾自我介绍，如何进入视频生成领域？

VideoPoet 作者解读 Sora: 核心组成部分和重要创新是什么？

为什么视频长度和高分辨率让人意料之外？

模型中的压缩算法为什么这么重要？

视频生成模型中的 transformer 架构有何特点？

Sora 展现出的涌现能力如何理解？

将 Sora 与 GPT 结合会是大趋势吗？

Sora 真的具备了理解世界的能力吗？

如何估算 Sora 的大小和计算量？

现有视频生成公司改成 Sora 架构的难点是什么？

VideoPoet 的训练数据经验分享

快问快答：Sora 改变了你什么观点？

Shownotes Transcript

PodQuest PodQuest Podcast Discovery Engine

EP 45. 深度解读 OpenAI Sora（上）：硅谷AI研究员眼里的技术创新、局限，多模态融合与世界模型