cover of episode Beyond Uncanny Valley: Breaking Down Sora

Beyond Uncanny Valley: Breaking Down Sora

2024/2/24
logo of podcast a16z Podcast

a16z Podcast

AI Deep Dive AI Chapters Transcript
#generative ai#biotechnology and neuroscience People
A
Anjney Midha
S
Stefano Ermon
旁白
知名游戏《文明VII》的开场动画预告片旁白。
Topics
@Anjney Midha :Sora模型的出现速度之快和视频质量之高令人震惊,远超预期。这标志着AI视频生成技术取得了重大突破,但仍处于早期阶段,未来有很大的提升空间。 Anjney Midha还探讨了Sora模型的训练成本以及未来AI生成视频的普及程度。他认为,虽然目前训练成本很高,主要由大型企业承担,但随着技术的进步,成本可能会降低,推理成本也会随着模型压缩技术的进步而降低。 Anjney Midha还关注了高质量视频数据获取和标注的挑战,并探讨了初创公司和大型公司在获取和使用视频数据方面可能采取的不同策略。他认为,可以使用人工参与的流程来标注视频数据,并结合人工标注和自动标注方法来提高效率。 Anjney Midha还探讨了更大的上下文窗口对视频模型灵活性的影响,以及各种技术(如基于注意力的方法、嵌入式方法、环形注意力、快速注意力和状态空间模型)如何用于扩展视频模型的上下文窗口大小。 @Stefano Ermon :Sora模型的成功是扩散模型和Transformer架构结合的成果。扩散模型比GANs更稳定,更容易训练,并且可以在推理时利用更深层次的计算图,而无需在训练时付出高昂的代价。 Stefano Ermon详细解释了视频生成比文本或图像生成更复杂的原因,包括计算成本更高、高质量的公开可用视频数据集有限以及视频内容比图像更复杂等。 Stefano Ermon还探讨了Sora模型可能使用的技术,包括基于Transformer的架构、潜在编码来压缩数据并提高效率以及使用合成数据来提高训练数据的质量。 Stefano Ermon还探讨了模型能够生成长而连贯的视频的原因,他认为这可能是由于训练数据的高质量以及模型能够学习物理、对象持久性等概念。他指出,模型能够学习这些概念,可能是因为这些知识有助于模型更好地压缩和预测视频数据。 Stefano Ermon还对AI生成视频的未来发展趋势进行了展望,他认为,随着技术的进步,其他公司可能会开发出性能相近的模型,但OpenAI可能会保持领先地位。他还认为,更大的上下文窗口对于视频理解和生成非常有用,并且各种技术可以用于扩展视频模型的上下文窗口大小。 最后,Stefano Ermon还谈到了AI视频生成技术在通往通用人工智能的道路上的意义,他认为,高质量的AI视频生成模型可以作为一种世界模拟器,并为构建能够与现实世界交互的智能体提供有价值的知识。

Deep Dive

Shownotes Transcript

是的,说实话,我非常非常惊讶。我知道我们俩经常谈论这个领域发展得有多快,很难追踪所有发生的事情,我没想到这么好的模型会这么快出现。

我们通常谈论过,它将会出现,不是吗?

我原以为可能要六个月或一年后。所以当我看到那些视频时,我感到震惊,视频的质量、长度以及生成 60 秒视频的能力,真的让我惊叹不已。

这显然是这项技术有史以来最糟糕的状态。所有这些工作,都是这项技术进步的最早期阶段。

我一直认为这是扩散模型的秘密武器之一,也是它们在实践中如此有效的原因。

如果你在 2024 年初问很多人,我们什么时候才能得到高保真、可信的 AI 生成视频,大多数人都会说我们还有数年时间。但在 2 月 15 日,OpenAI 以其新模型的示例震惊了世界。将这些预测从数年缩短到几周,当然,这个模型的出现及其令人印象深刻的物理建模和长达 60 秒的视频,引发了大量的猜测。不仅是如何实现的,而且是如此之快。

尽管 OpenAI 表示该模型使用了基于 Transformer 的扩散模型,但结果如此之好,以至于一些人甚至质疑是否使用了显式的 3D 建模或游戏引擎。因此,我们自然决定邀请一位专家,让他与 a16z 普通合伙人 Anjney Midha 坐下来,Anjney Midha 是一位斯坦福大学计算机科学教授,也是该实验室的关键人物,该实验室开发了现在用于 Sora、ChatGPT 和 Midjourney 的扩散模型。当然,这些方法为 Sora 中部署的扩散模型奠定了基础,更不用说 ChatGPT 和 Midjourney 等家喻户晓的名字了。

也许最重要的是,Stefano Ermon 在生成式 AI 领域工作了十多年,远在我们许多人甚至还没有意识到未来会发生什么之前。所以在这次谈话中,Stefano Ermon 阐述了视频生成比文本和图像生成难得多,像 Sora 这样的模型是如何工作的,以及所有这一切对未来意味着什么。

当然,如果您想了解 AI 的所有信息,请务必查看 a16z.com。享受吧!

提醒一下,此处的內容仅供參考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对 a16z 基金中的任何投资者或潜在投资者。请注意,a16z 及其关联公司可能会继续投资于本播客中讨论的公司。有关更多详细信息,包括我们投资的链接,请访问 a16z.com/disclosures。

这正是我想和你进行的一场对话。我们很长时间以来一直在讨论这场对话的各种方面,但我认为,鉴于这个领域发展得如此之快,现在是时候让我们检查一下我们一直在讨论的关于扩散模型和视频模型未来的许多假设是否符合实际情况了,你是这个研究领域的全球专家。所以我认为,最好从你的实验室在起源方面所扮演的角色开始。

我很高兴来到这里。大家好,我叫 Stefano Ermon,我是斯坦福大学的计算机科学教授,在 AI 领域工作。

实际上,我在生成式 AI 领域工作了十多年,远在这些东西流行之前。我在斯坦福大学开设了一门关于深度生成模型的课程,这是我在 2018 年开始的。我认为这是世界上第一门关于这个主题的课程。

是的,我鼓励你去看看。网站叫做 deepgenerativemodels.github.io,有很多资料,如果你想更深入地了解这些方法是如何工作的。我长期从事生成模型的研究。正如你提到的,我的学生杨松在 OpenAI 工作。

我们在扩散模型(我们当时称之为基于分数的模型)方面做了一些早期工作,在 2019 年,当时图像、视频、音频等这类连续数据的模型主要由 GAN(生成对抗网络)主导。我们是第一个证明实际上可以使用这种新型生成模型(即扩散模型)来击败 GAN 的团队,在这种模型中,我们从纯噪声开始生成内容,并逐步使用另一个网络对其进行去噪,直到我们得到一个漂亮的样本。我们开发了关于这些模型的大量理论,如何训练它们,如何进行分数匹配,以及许多最初的架构。

其中一些选择至今仍在使用。我认为这项工作真正启动了我们今天在扩散模型周围看到的大量令人兴奋的事情,例如 Stable Diffusion 和 Sora。

除了在扩散模型基础上的早期工作之外,我还研究了该领域的许多其他方面。例如,DDIM(去噪扩散隐式模型)被广泛使用,它是一种高效安全的程序,允许你非常快速地生成图像,而不会损失太多质量。我和我的学生Chitwan Saharia(他是Pika Labs的联合创始人)一起开发了Classifier-Free Guidance,这是最早实现可控生成的方法之一,用于生成图像、商业草图等。所以我很高兴今天来到这里,讨论接下来会发生什么。

鉴于你所有这些工作,以及你在扩散模型及其局限性方面的经验,你对上周出现的 Sora 模型有何反应?

是的,说实话,我有点惊讶。我知道我们俩经常谈论这个领域发展得有多快,很难追踪所有发生的事情。

我没想到这么好的模型会这么快出现。我的意思是,我认为没有什么根本不可能的事情。我知道它会到来。

这只是时间问题,需要更多的研究、更多的投资、更多的人参与这些工作。但我没想到这么好的事情会这么快发生。我原以为可能要六个月或一年后。所以当我看到那些视频时,我感到震惊,视频的质量、长度以及生成 60 秒视频的能力,真的让我惊叹不已。

是的。我认为我们过去每次谈话时,通常都会认为它将会出现,如果我们看到视频生成变得如此之好。

所以听到你和我一样对它的出现感到惊讶,这让我感到欣慰。在我们深入探讨这次时间框架中的一些突破之前,也许我们可以花几分钟时间谈谈视频扩散,以便那些不太熟悉这些模型的人能够了解一下。为什么视频扩散比文本或图像生成复杂得多?历史上主要的障碍是什么,是什么阻止了它的工作?是的,这是一个很好的问题。

在非常高的层面上,你可以将视频视为图像的集合。因此,你首先要处理的挑战是同时生成多张图像。因此,处理 n 张图像所需的计算成本至少是逐个处理它们所需成本的 n 倍。

基本上,这意味着更多的计算、更多的内存,并且训练大型视频数据模型的成本要高得多。另一个挑战是数据挑战。

我认为我们在图像扩散模型中取得的成功部分是由于公共数据的可用性。例如,像 ImageNet 这样的大规模图像和视频数据集直接来自互联网,它们是可用的,人们可以使用它们来训练大型模型。我认为我们对视频还没有做到这一点,虽然有很多视频数据,但质量参差不齐,我们没有一个好的方法。

你可以过滤它们,或者没有一个大家都在使用的通用数据集来训练模型。所以我猜想,Sora 模型的一些创新实际上是在选择高质量数据来训练模型。字幕也很难获得。我的意思是,有很多视频数据,但是获得对视频中发生的事情的良好标签和描述是很困难的。

如果你想很好地控制要使用这些模型生成的內容类型,你需要这些标签。然后还有视频内容更复杂、发生的事情更多的问题。如果你考虑一下图像序列,它们之间存在复杂的物理关系、对象持久性原理等。

我认为一个高容量的模型,有足够的计算能力、足够的数据,可能会学习这些东西,但这始终是一个计算问题,你需要多少数据?你需要多少计算能力?什么时候会发生?模型是否真的能够发现所有这些高级概念和数据的统计数据?看到它做得这么好,真是令人惊讶。

你刚才非常清楚地解释了障碍,包括架构、数据集以及将世界表示为视频格式。自从上周发布以来,关于这个模型如何取得如此令人印象深刻的结果,有很多猜测。

一些人甚至推测,可能使用了游戏引擎或 3D 模型,即在扩散管道中使用了显式的 3D 建模或渲染。但在描述该方法的文章中,OpenAI 表示他们在一个视频、音频和图像数据集上联合训练了一个条件扩散模型,这些数据具有不同的持续时间和分辨率,然后在视频和图像潜在代码的时空块上应用了 Transformer 架构。你能用简单的术语解释一下吗?对于那些不太熟悉缩放定律和这里发生的事情的人来说。

当然,我可以尝试一下。我知道这里肯定有一些秘密武器。我可以尝试解读他们所说的内容。在视频和图像上进行训练的想法并不新鲜,似乎他们暗示的一个技术差异是使用了 Transformer 架构作为骨干,用于去噪,用于分数模型。

人们经常使用卷积架构,从杨松最初开始使用 U-Net 作为分数模型的时代开始,这实际上是一个关键的创新,它真正促进了图像方面的许多成功。人们也倾向于将这些架构移植到视频数据中,因为它们是有意义的。我们期望存在大量的局部结构,卷积架构可能是一个好主意。

看起来他们转向了纯 Transformer 架构,可能是遵循了缩放定律。然后,鉴于你在这个领域做了一些早期工作,开发了用于扩散模型的好的 Transformer 架构,这可能是因为这在计算和数据方面提供了更好的缩放,并且碰巧效果更好。但他们也对潜在代码进行了重新参数化。

所以看起来他们直接在潜在空间中工作,在潜在表示上工作是 Stable Diffusion 的关键创新之一。潜在扩散的想法是首先将数据压缩到一个较小的、更紧凑的潜在表示中。如果可以做到这一点,那么你就可以在这个较低维度的表示上进行训练,并且可以在计算成本和处理数据所需的内存方面获得更好的权衡。

所以他们可能找到了一种更好的方法来编码视频,以构建有意义的低维潜在空间。我想说的是,这并不排除使用游戏引擎或 3D 模型来生成训练数据的可能性。我的意思是,我们之前讨论过,我认为训练数据的质量非常关键。你可能使用了游戏引擎或 3D 模型生成的合成数据,并生成你想要看到的那种数据,其中有很多运动,他们可能使用引擎的内部来获得关于视频中发生的事情的非常好的信息,以便他们可以很好地匹配文本和他们试图生成的內容。所以这看起来像是一种纯数据驱动的方法,但他们也可能使用其他管道来生成。

合成数据。当你将他们采用的扩散 Transformer 方法与之前几代生成模型(循环网络、GAN、普通的或回归 Transformer)进行对比时,为什么扩散模型在这里似乎再次成为最适合这项工作的模型?

我认为,在扩散模型之前,人们使用 GAN(生成对抗网络)。它们非常好,非常灵活,但一个挑战是它们训练起来非常不稳定。这实际上是我们最初开发扩散模型的主要原因之一。

我们想要的是基本模型的灵活性,而不是试图通过神经网络来解决这个问题,因为神经网络是骨干,而是一种更符合原则的统计方法来训练模型,这种方法可以让你得到稳定的训练规律,这样你就可以不断地训练模型,模型会越来越好。虽然大型语言模型也有试图压缩数据的特性。并且有足够的容量,足够的计算机,原则上,它们可以很好地完成任何事情,包括视频。

它们只是往往非常非常慢,因为你必须一次生成一个标记。如果你考虑视频,有很多标记,而且由于这个原因,它们不是首选模型。另一方面,扩散模型基本上可以并行生成标记。因此,它们可以快得多,我认为这就是它们在这些模态中更受欢迎的原因之一。另一个更哲学的原因是,如果你考虑我们的扩散模型,从某种意义上说,在推理时,你可以访问一个非常深的计算图,在那里你可以基本上应用和重复应用该图一千次。或者,如果你采用连续时间视角,比如一个微分方程的视角,你甚至可以拥有一个无限深的计算图来生成内容,同时你不需要在训练时展开整个计算图,因为模型是通过分数匹配进行训练的,这种方法就像试图使模型越来越好,而无需在训练时付出巨大的代价。所以我一直认为这是扩散模型的秘密武器之一,也是它们在实践中如此有效的原因,因为它们允许你在推理时使用大量资源,而无需在训练时付出高昂的代价。

在训练期间。回到我们之前关于为什么Sora的运行速度比许多人预期的要快得多的观点,这听起来像是扩散Transformer模型的稳定性,以及能够将训练时间换成推理时间(这更便宜、更可实现、更高效),是压缩训练时间的一个重要因素。

是的,这是一个关于骨干网络的问题,对吧?它可以是卷积神经网络,可以是小样本模型,可以是Transformer。

我认为,就什么有效以及所有可能的组合而言,我们仍然只是触及了表面,对吧?你可以构建基于卷积的生成对抗网络,你可以构建基于Transformer的生成对抗网络,你可以构建基于状态空间架构的生成对抗网络。同样,你可以构建基于卷积架构的大型语言模型。

人们倾向于这样做。现在这似乎打开了闸门。现在,这只是一个在Sora模型中作为后端的Transformer。

我开始看到人们尝试状态空间模型,例如,这对于非常长的上下文可能很有用。所以我认为,我们可以尝试的不同类型的组合存在一个令人兴奋的空间,这可能会给我们带来更好的扩展性、更好的特性,并真正获得我们希望看到的这些模型的质量。

Transformer后端架构最优雅的部分之一是它与标记化的概念非常契合,对吧?在语言模型中,许多允许像GPT-3和GPT-4这样的模型如此快速地开发并推广到各种任务的缩放规律是,语言的标记化过程几乎就像一种翻译,将其转换为模型可以理解的格式,适用于许多不同类型的语言,无论是传统的英语、代码、健康记录,还是在某些情况下,多语言世界数据集。

因此,标记化的妙处在于,它是一种一刀切的过程,可以将语言数据转换为Transformer后端真正理解并能够学习的格式。似乎在如何将视觉数据分解成小批次方面也存在类似的关键点,对吧?它基本上将图像和视频数据标记化为补丁的中间表示。这种方法比我们过去看到的其他模型产生了有意义的更好的输出。

是的,这是一个很好的问题。老实说,我不知道答案。标记化对于离散数据(如文本)很有意义,而我对图像、视频和音频的标记化不太感兴趣。

实际上,如果你想使用Transformer架构,你必须这样做,但这对我来说意义不大,呃,仅仅是因为数据是连续的,补丁是任意的,你通过标记化会丢失一些结构,你必须这样做如果你想使用Transformer。Transformer很棒,因为它们扩展性好,我们有很好的实现,而且它们非常用户友好。因此,当你问哪种方法更好时,这再次是一个痛苦的教训,但这感觉像是他们拥有某种后期表示。

也许一旦你进入后期空间,那么标记化可能更有意义,因为你已经丢失了很多结构。所以这可能是两者的结合。我的意思是,看起来他们可能拥有一个非常好的后期空间,在那里他们摆脱了很多自然数据中存在的冗余和噪声。

相邻的视频帧非常相似,对吧?有很多冗余的视频帧。如果他们通过巧妙的编码方案去除了其中的一些冗余,然后应用了标记化,我认为这开始更有意义,并使事情更具可扩展性、更少的计算、更少的内存,只是更好。

我们已经看到了很多文本到视频模型,但很少有模型能够实际生成较长形式的视频,对吧?超过几秒钟。而且即使在那些短形式的生成(3到5秒)中,也经常存在时间连贯性和一致性问题。而在这里,我们有一个能够生成一分钟长视频的模型,也就是60秒的生成,而且可以说,一些长形式的生成实际上比短形式的生成要好得多。

从Sora开始,你开始看到这些时间连贯性的新兴特性只出现在60秒的剪辑中,对吧?那里发生了什么?他们做了什么不同的事情,使得这些视频在很长的长度上具有如此惊人的连续性和时间连贯性,以及跨越这些长度的主体的连贯性?

我认为这是Sora最令人惊讶的方面,仅仅是能够生成如此长、如此一致且美丽的视频。我认为这是让我真正感到惊讶的部分,因为我知道这很难做到,因为就像你说的那样,你必须跟踪很多事情才能保持一致性。而模型不知道哪些重要的事情需要跟踪,哪些不重要。

不知何故,训练好的模型似乎能够做到这一点,这并不完全令人惊讶,因为最终,模型被训练来压缩训练数据,对吧?因此,如果你有高质量的训练数据,这些数据是连贯的,并且当然与物理学一致,并且具有我们期望高质量真实自然视频所具有的正确属性,那么为了尽可能有效地压缩数据,模型应该学习物理学,应该学习物体持久性。

学习关于三维几何的所有这些。令人惊讶的是,还有许多其他类型的低级相关性,模型可以捕捉到。让我感到惊讶的是,它似乎真的能够学习到其中的一些。

我们不知道为什么。我认为这是深度学习的谜团之一。这可能是训练数据、正确的架构和规模的结合。但这太令人惊奇了。

而这三个特性(物理、时间连贯性和三维结构)在他们的视频中出现,没有任何针对三维物体的明确诱导偏差,对吧?它们纯粹是涌现现象。这意味着什么?物理学是一个涌现特性吗?

嗯,最终,物理学是一个可以帮助你理解世界、帮助你做出更好预测的框架,这并非不可想象。例如,如果我理解牛顿定律,我可以预测如果我扔下一个物体将会发生什么。这是一个非常简单的公式,它允许我做出许多不同的预测。

因此,如果我被要求压缩大量视频,如果我知道牛顿定律,我知道一些物理学,我可能能够更好地预测下一帧会是什么样子,对吧?最终,这些模型是通过分数匹配进行训练的,这在非常正式的意义上是可能的。我们用来训练扩散模型的训练目标与基于压缩的目标相关,从字面上看,只是试图尽可能多地压缩视频。

因此,了解一些物理学知识,了解一些摄像机视角和物体的三维结构以及物体持久性,这些特性可能有助于压缩数据,因为它们揭示了有助于进行预测的结构,这意味着你可以更好地压缩数据。令人兴奋的是,它仅仅通过训练模型就出现了,对吧?你可以想象训练数据中存在的其他类型的低级相关性。

但它们不如牛顿定律或对场景和正在发生的事情的真实物理理解那样有用或具有预测性。很难说到底发生了什么。可能根本没有对物理学的理解,但最终它非常有效,也许这就足够了。

你似乎指出的这一点是,如果这些模型训练的数据就像它们的饮食,那么你就是你所吃的东西,从某种意义上说,如果你吃大量的物理学,那么你就会成为一个更好的物理模型。我们应该如何开始解释其他涌现特性?

他们分享的一个剪辑叫做“Bling Zoo”,这是一个由单个提示生成的视频,其中有多个过渡、多个镜头,等等,没有任何编辑。它几乎看起来像是有人手动将不同类型的镜头拼接在一起,对吧?我们应该如何解释这一点?这仅仅是承认它已经更好地看到了训练数据吗?或者深度学习中还有其他事情正在发生?

我想是的,如果你用高质量的视频数据对其进行训练,你可以在其中看到不同类型的镜头之间的这些过渡,那么这些模型在试图理解所有训练视频的共同点时会这样做,这些视频的高级结构是什么,并试图复制它。我认为一个足够好的模型可能会理解这一点。

训练视频往往具有这样的结构:我们会在不同的视角和镜头之间进行过渡,然后我们将它们组合起来,它们以有趣的方式组合起来,并且能够进行插值。再次,这里的魔力在于,这通常是一项不可能完成的任务,对吧?有很多其他方法可以在训练集中你看到的事物之间进行插值,而大多数方法都是错误的。

对,它们是你不希望看到的泛化。不知何故,这些神经网络能够找到我们想要的插值或泛化,那些有意义的泛化。

它们发现了一种我们希望模型重新应用的结构,而不是那些偶然出现的结构。而这正是令人惊奇且目前尚无法解释的部分。我们不明白为什么会发生这种情况。

对吧?所以我们现在正处于2024年初。而关于视频模型何时会变得足够好以跨越恐怖谷的问题刚刚被打破,对吧?我们刚刚到达了那个点。因此,如果我们现在展望未来,Sora仍然处于测试阶段,但还有其他一些人工智能生成的视频项目,对吧?实际上,你认为在任何类型的消费者规模或容易获得的规模上生成人工智能视频的成本会有多高?

我相信OpenAI的发布引发了许多公司试图追赶的比较和竞赛。我相信我们会看到来自这个领域所有主要竞争对手的进展。我认为训练成本是巨大的。

我相信他们使用了数千个GPU来训练Sora。规模是成功的一个重要组成部分。因此,这肯定超出了学术界的承受能力。

但将会有工业参与者拥有资源来尝试与他们竞争,并尝试以不同的方式重新应用他们所做的事情或取得类似的结果。好消息是,我们现在有一个可行的例子。我们有一个能够做到这一点的系统。所以我认为追赶起来容易得多,而不是以前的不确定性,即这是否是不可能的。我们有一个例子。

这是可行的,很多人会做出正确的投资来做到这一点。我不知道这需要多长时间,是六个月,还是两到五个月,但我认为最终会有人达到类似的性能,就像我们在其他领域和空间中看到的那样,人们最终能够赶上。问题是,到那时,OpenAI会领先多少,六个月或十二个月后系统会好多少?这很难说。

另一个我认为你暗示的问题是推理,例如,按需向用户提供这些模型并提供视频生成,或者个性化视频,所有这些都可能从一个真正好的视频生成模型中出现。再次,我对这一点相当乐观,特别是由于底层架构是一个扩散模型。一旦你拥有一个潜在的大型、昂贵、笨重的模型,它可以生成高质量的结果。

在将这些模型缩小成更小、几乎同样强大但速度快得多的模型方面,已经取得了很多成功。所以我相当乐观,一旦我们达到足够高的质量,就能获得能够提供类似质量结果的系统。以一种非常昂贵的方式。所以我很兴奋地看到,一旦这项技术可用,人们会想出什么样的疯狂用例。

当我们谈论计算机训练时,推理是这里计算中很大的一部分,但还有另一类成本来自实际训练这些模型并使规模法则发挥作用所需的数据集。就语言模型的训练数据而言,这些法则已经能够在网络上获得数十亿个数据点。

但对于视频来说,正如你之前所说,很多数据,即使存在,也没有特别好的标签或字幕。那么,你认为视频模型团队将如何克服这一挑战?我们最近看到Reddit同意与谷歌达成协议,以6000万美元的价格许可其数据。你认为我们会看到视频制作工作室开始许可他们的内容吗?

这是一个好问题。首先,我可能会稍微依赖一下你是在考虑初创公司还是成熟的行业参与者。我认为初创公司可能愿意快速行动并打破常规,也许不太担心版权问题,只是从互联网上创作,然后训练模型,然后再担心以后的许可数据。

大型公司,他们的法律团队非常非常担心大型诉讼。因此,他们希望拥有获得适当许可的东西。看看正如你所说,工作室,目前拥有内容的人是否愿意许可它,这将很有趣,因为这可能是对其整个商业模式的生存威胁,就像我看到Reddit许可一样,因为这可能不是一个生存威胁。

你提到的另一件事是标注。这是一个很好的观点,这将是一个巨大的挑战,但我相当乐观,人们将能够建立人机协同的流程。我们在视觉语言模型,甚至视频语言模型中都取得了巨大的成功。它们可能不足以开箱即用地提供高质量的选项,但我可以想象它们可以加快速度,例如一个由人参与的流程,其中它们提供建议,这些建议可以由人工标注员进行修复或改进。所以我对字幕方面相当乐观,我们将能够找到相当可扩展的解决方案。

从人机协同的实现开始,建立一个工作的标注模型,然后最终转向合成字幕,这是合乎逻辑的步骤。

似乎人们正在探索和使用另一种方法,并且在使用算法以合成方式进行标注方面取得了很多成功。是的,那将是我的猜测。我的意思是,老实说,我不知道在字幕方面底线是什么,因为首先要获得高质量的视频,甚至只是获得原始高质量的视频数据,这并非易事。据我了解,实际上,你需要首先解决的是……

解决第一个难题。我们不妨稍微改变一下话题,谈谈这些模型的用途,对吧?消费者和创作者在语言模型、生成模型中发现真正有用的东西之一是上下文窗口,对吧?上下文窗口越大,输入的灵活性就越大。

你可以提供更多细节、上下文。在语言方面,在很短的时间内取得了指数级的进展。我们已经从很小的上下文窗口发展到数百万个单词的上下文窗口。在视频中,你是否期待类似的方法?是否存在一些根本性的限制?

我一直在读一篇关于这个非常长的上下文的论文,数百万个标记,数千万个标记。实际上,他们提到的一个应用实际上是视频记忆、视频理解,比如试图处理一个……

很长的视频。看起来,这种非常长的上下文将非常有助于解决各种视频处理和视频理解任务。因此,如果它们最终也对视频生成非常有用,我会感到非常惊讶。事实上,这完全有可能已经是OpenAI系统中发挥作用的一个组成部分。然后,他们能够生成长视频的部分原因是他们能够处理长上下文,并且能够将转换器扩展到非常长的序列。这完全有可能就是秘密所在。再说一次,我对基于注意力的扩展上下文方法(无论是嵌入还是环形注意力),或者巧妙且难以优化的实现(如FlashAttention),能够在更大的上下文中进行扩展,或者对状态空间模型等进行更多研究,人们也开始在未来模型的背景下使用这些模型,这些模型可能允许你更好地处理上下文,感到兴奋。所以我认为这将是一个有趣的领域……

值得关注。展望更长远的时间线和突破,这显然是这项技术有史以来最糟糕的状态,几乎肯定如此,对吧?我们正处于进展的早期阶段。为什么人们低估了目前为止的时间线?这对于接下来会发生什么以及速度有多快意味着什么?

是的,这是一个非常难回答的问题。我认为我对Sora达到我们现在所处的水平所需时间的预测是错误的。当我们呈指数级发展时,很难做出预测,而且错误可能非常大,但这将是令人兴奋的……

当然。当你将视频生成视为朝着可泛化人工智能(或者你称之为ASI或AGI)的更广泛旅程中规模法则的突破时,你如何量化这一进展?

我对此感到非常兴奋,因为我倾向于认为这是一个更好的通用模型,是一个相当自然的、类似于世界的模型。我的意思是,正如我们之前讨论的那样,为了能够生成高质量的视频,必须对物理学、物体持久性、三维结构有一定的理解,必须有很多知识以某种方式嵌入到这些模型中。

我对我们能够提取这些知识并将其用于不同应用的方式感到兴奋。当我们考虑,特别是像自主代理那样真正与现实世界互动的代理时,我认为这种嵌入到视频中的知识,通过观看大量的视频而提取出来的知识,将非常非常有用。

还有什么?我认为这将与例如嵌入到语言模型中的知识非常互补。你可以通过阅读书籍来了解很多关于世界的信息,但这只是你通过……

获得的许多经验。这更类似于你小时候获得的经验。你四处走动,看到东西,并了解世界是如何运作的。只是通过你的眼睛和视频,本质上就是这样,对吧?所以我们通过视频向未来模型输入的这种经验,以及我们可能能够从中提取的知识,我认为将非常有用。

我认为他们发布的博客文章的标题是“视频生成模型作为世界模拟器”。我认为……

那里有很多希望。我认为,如果你能在像素级别做到这一点,那就意味着你已经解决了更难的问题,对吧?你可以做很多事情。

自主车辆。你正在构建机器人,或者你正在构建一个理解世界如何运作的代理,并将通过爬取互联网获得的知识与你在现实世界中看到的东西结合起来。我认为这一切都将非常令人兴奋。

好吧,可以说,如果不是因为你的实验室,我们这个行业就不会存在。所以看到你……的世界观是如何加速发展的,真是令人兴奋。

我知道我们可以花几个小时来讨论从研究的角度来看,为了达到现在这个水平以及我们将要去的地方所需要的所有技巧,但我们今天就到这里。非常感谢你抽出时间。我相信你还有……

更多要谈论的。谢谢。

如果你喜欢这一集,如果你听完了这一集,请帮助我们宣传这个节目,与朋友分享,或者如果你感觉很有雄心,你可以在greatpodcasts.com/ssc上给我们留下评论。你坦率地说,制作播客有时感觉就像在对着虚空说话。所以,如果你喜欢这一集,如果你喜欢我们的任何一集,请让我们知道。下次再见。