cover of episode EP 45. 深度解读 OpenAI Sora(上):硅谷AI研究员眼里的技术创新、局限,多模态融合与世界模型

EP 45. 深度解读 OpenAI Sora(上):硅谷AI研究员眼里的技术创新、局限,多模态融合与世界模型

2024/2/21
logo of podcast OnBoard!

OnBoard!

Frequently requested episodes will be transcribed first

Chapters

Shownotes Transcript

OnBoard! 终于成立听友群啦!新年新气象,加入Onboard听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!


这是Onboard 2024年姗姗来迟的第一期更新,给大家拜个晚年!这次我们讨论的话题,就是这周AI领域最让人激动的一个重磅炸弹:**OpenAI 发布了文生视频模型 Sora!**仅仅根据提示词,就可以生成60秒的视频,连贯、高清,有丰富运镜,甚至符合大部分物理规律。

未来真是比我们想象的还要更快到来。Sora是不是文生视频领域的GPT时刻?Sora 的真正创新是什么?scaling law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora 对于产生我们期望的世界模型意味着什么?

Hello World, who is OnBoard!?

如此重要的话题,我们当然要邀请来真正训练过视频大模型的专家和一线从业者,才能探究到本质。这次的深度解读,两个视角,长达三个小时,我们分成两个部分放送。

今天的第一部分,专注技术解读。重磅嘉宾 Lijun Yu 是 VideoPoet 第一作者。VideoPoet 是另一个革命性的视频生成大模型, 由 Google Deepmind 2023年12月发布,8B参数量的模型产生的视频效果也震惊了世界。Lijun 绝对是transformer 和 diffusion 模型应用于视频生成领域最有发言权的研究员之一了。 另一位嘉宾是爱丁堡大学phd的 Yao Fu,他在LLM,尤其是 scaling law 领域的深度研究,跟专注做视频生成的 Lijun 的视角,形成非常有意思的补充和碰撞。

即将放送的第二部分,我们邀请到真格基金管理合伙人,也是AI领域研究非常深度的投资人戴雨森,还有真格基金EIR,曾经的AI创业者,Peak。从投资人和创业者的视角,聊聊他们眼里Sora 对于创业公司意味着什么。

本期嘉宾们都是在美国工作生活,难免夹杂很多英文技术术语。show notes 中会有注释,虽然烧脑但是绝对值得,不接受抱怨。

嗯别忘了,添加小助手,Nine_tunes, 加入我们的听众群哈,等你来!满满的干货来袭,Enjoy!

嘉宾介绍

Lijun Yu)(推特 @@LijunYu0), 卡内基梅隆大学人工智能领域的博士生。北京大学本科。CMU 导师是 Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google Deepmind 工作。

Yao Fu)(推特 @@Francis_YAO_), 爱丁堡大学博士生,北京大学本科哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。

OnBoard! 主持:Monica, 美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

03:21 嘉宾自我介绍,如何进入视频生成领域,快评:Sora 的 demo 中,哪一个让你印象最深刻?为什么?

10:52 VideoPoet 作者解读 Sora: 核心组成部分,重要创新,与以往 trasnformer + diffusion 工作的异同

14:52 为什么最让人意料之外的视频长度和高分辨率?与LLM中处理 long context 的方式有什么相通之处?

18:35 为什么模型中的 compression(压缩算法) 这么重要?Sora 在压缩上的创新是什么?

24:05 视频生成模型中的 transformer 架构,与多模态LLM中的架构有什么异同?

27:10 如何理解Sora 展现出的涌现能力?为什么说 Sora 在理解能力上会有局限性?

29:39 为什么说将 Sora 与  GPT 这样的LLM结合起来会是大趋势?难点和可能诞生的机会是什么?

35:01 Sora 真的具备了理解世界的能力吗?从视频生成和 LLM 角度,如何理解世界模型?

49:19 如何估算 Sora 的大小和可能需要的计算量?这种模型形态未来还有什么增长空间?有什么局限?

71:53 现有 Diffusion 架构为主的视频生成公司改成 Sora 架构会有什么难点?

74:16 训练数据:VideoPoet 有哪些经验?Sora 可能有哪些创新?合成数据的价值和局限?

88:55 快问快答(虽然也没有很快!)Sora 改变了你什么观点?大家对 Sora 有什么常见的误解、高估和低估?如何看待 Bill Peebles 论文被拒但是成为 Sora 带头人?2024年最期待发生什么?

重点词汇

  • Latent Diffusion Transformer
  • Stable Diffusion
  • Autoregression model
  • Latent space
  • Context window
  • Consistency model
  • Sparse attention
  • In-context learning
  • Model serving

我们提到的论文

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

**M小姐研习录 (ID: MissMStudy) - **Monica:美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人 | 即刻:莫妮卡同学

点赞、评论、转发,是对我们最好的鼓励!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

***最后!快来加入Onboard!听友群,****结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。****添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。***期待你来!