cover of episode EP 45. 硅谷一线AI研究员深度解读 OpenAI Sora(上):技术创新与局限,多模态融合与世界模型

EP 45. 硅谷一线AI研究员深度解读 OpenAI Sora(上):技术创新与局限,多模态融合与世界模型

2024/2/21
logo of podcast OnBoard!

OnBoard!

AI Deep Dive AI Chapters Transcript
People
M
Monica
于立军
傅瑶
季逸超
Topics
Monica: 本期节目讨论OpenAI发布的文生视频模型Sora,它能够根据文本提示生成60秒高清、连贯的视频,引发了广泛关注。 于立军: Sora的核心组成部分是latent diffusion transformer模型,其主要创新在于模型架构和高质量数据集。它使用了pure transformer模型,并能够同时训练不同分辨率、长宽比和时长的视频。与VideoPoet等之前的模型相比,Sora在高分辨率和长视频生成方面取得了显著突破,但其在视频理解任务上的应用仍需探索。 傅瑶: Sora的出现如同当年ChatGPT的出现一样具有里程碑意义,它展现了视频生成领域的快速发展。从Scaling Law的角度来看,Sora的成功证明了Diffusion Transformer模型的可扩展性。Sora在理解世界和遵循物理规律方面展现出涌现能力,但这并不代表其内部的物理规律与人类总结的物理规律完全一致。 季逸超: Sora在细节处理上令人印象深刻,例如在Minecraft场景中对光标的细节处理,体现了其对物理规律的理解和涌现能力。

Deep Dive

Chapters
OnBoard! Podcast 宣布成立听友群,并计划组织线下活动、实时旁听和嘉宾互动等。
  • OnBoard!成立听友群
  • 组织线下主题聚会
  • 实时旁听播客录制
  • 嘉宾互动

Shownotes Transcript

OnBoard! 终于成立听友群啦!新年新气象,加入Onboard听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!

这是Onboard 2024年姗姗来迟的第一期更新,给大家拜个晚年!这次我们讨论的话题,就是这周AI领域最让人激动的一个重磅炸弹:**OpenAI 发布了文生视频模型 Sora!**仅仅根据提示词,就可以生成60秒的视频,连贯、高清,有丰富运镜,甚至符合大部分物理规律。未来真是比我们想象的还要更快到来。Sora是不是文生视频领域的GPT时刻?Sora 的真正创新是什么?scaling law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora 对于产生我们期望的世界模型意味着什么?

Hello World, who is OnBoard!?

如此重要的话题,我们当然要邀请来真正训练过视频大模型的专家和一线从业者,才能探究到本质。这次的深度解读,两个视角,长达三个小时,我们分成两个部分放送。今天的第一部分,专注技术解读。重磅嘉宾 Lijun Yu 是 VideoPoet 第一作者。VideoPoet 是另一个革命性的视频生成大模型, 由 Google Deepmind 2023年12月发布,8B参数量的模型产生的视频效果也震惊了世界。Lijun 绝对是transformer 和 diffusion 模型应用于视频生成领域最有发言权的研究员之一了。 另一位嘉宾是爱丁堡大学phd的 Yao Fu,他在LLM,尤其是 scaling law 领域的深度研究,跟专注做视频生成的 Lijun 的视角,形成非常有意思的补充和碰撞。

即将放送的第二部分,我们邀请到真格基金管理合伙人,也是AI领域研究非常深度的投资人戴雨森,还有真格基金EIR,曾经的AI创业者,Peak。从投资人和创业者的视角,聊聊他们眼里Sora 对于创业公司意味着什么。

本期嘉宾们都是在美国工作生活,难免夹杂很多英文技术术语。show notes 中会有注释,虽然烧脑但是绝对值得,不接受抱怨。

嗯别忘了,添加小助手,Nine_tunes, 加入我们的听众群哈,等你来!

嘉宾介绍

****Lijun Yu)(推特 @@LijunYu0), 卡内基梅隆大学人工智能领域的博士生。北京大学本科。CMU 导师是 Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google Deepmind 工作。

Yao Fu)(推特 @@Francis_YAO_), 爱丁堡大学博士生,北京大学本科哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。

OnBoard! 主持:Monica, 美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

[03:21] 嘉宾自我介绍,如何进入视频生成领域,快评:Sora 的 demo 中,哪一个让你印象最深刻?为什么?

[10:52] VideoPoet 作者解读 Sora: 核心组成部分,重要创新,与以往 trasnformer + diffusion 工作的异同

[14:52] 为什么最让人意料之外的视频长度和高分辨率?与LLM中处理 long context 的方式有什么相通之处?

[18:35] 为什么模型中的 compression(压缩算法) 这么重要?Sora 在压缩上的创新是什么?

[24:05] 视频生成模型中的 transformer 架构,与多模态LLM中的架构有什么异同?

[27:10] 如何理解Sora 展现出的涌现能力?为什么说 Sora 在理解能力上会有局限性?

[29:39] 为什么说将 Sora 与 GPT 这样的LLM结合起来会是大趋势?难点和可能诞生的机会是什么?

[35:01] Sora 真的具备了理解世界的能力吗?从视频生成和 LLM 角度,如何理解世界模型?

[49:19] 如何估算 Sora 的大小和可能需要的计算量?这种模型形态未来还有什么增长空间?有什么局限?

[71:53] 现有 Diffusion 架构为主的视频生成公司改成 Sora 架构会有什么难点?

[74:16] 训练数据:VideoPoet 有哪些经验?Sora 可能有哪些创新?合成数据的价值和局限?

[88:55] 快问快答(虽然也没有很快!)Sora 改变了你什么观点?大家对 Sora 有什么常见的误解、高估和低估?如何看待 Bill Peebles 论文被拒但是成为 Sora 带头人?2024年最期待发生什么?

我们提到的论文

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励!

如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。感恩!