Google DeepMind unveils a new video model to rival Sora

2024/12/18

TechCrunch Industry News

DeepMind

DeepMind: Veo 2 是一个新一代的视频生成 AI 模型，在分辨率和时长上超越了 OpenAI 的 Sora。它能够生成 4K 分辨率、时长超过 2 分钟的视频。Veo 2 在物理模拟、相机控制和图像清晰度方面都有所改进，能够更逼真地模拟运动、流体动力学和光线特性，生成更清晰、更锐利的图像和视频。虽然 Veo 2 在某些方面取得了显著进展，但仍然存在一些挑战，例如在长视频中保持一致性和连贯性，以及生成复杂的细节和快速运动等。DeepMind 正在与艺术家和制作人合作，改进其视频生成模型和工具，并致力于解决模型中存在的伦理问题，例如深度伪造和版权问题。 DeepMind 承认 Veo 2 的训练数据来自公开视频，并认为使用公共数据进行训练是合理使用。DeepMind 正在努力与创作者和合作伙伴合作，以实现共同的目标，并积极收集反馈意见，以改进模型和工具。 Eli Collins: Veo 2 将在未来通过 Google 的 Vertex AI 开发者平台提供，并会整合到 Google 生态系统中。Google 将继续根据用户的反馈迭代改进 Veo 2，并将其更新的功能整合到 Google 生态系统中的引人注目的用例中。在 Veo 2 普遍可用之前，Google 的赔偿政策不适用。为了减轻深度伪造的风险，DeepMind 使用其专有的水印技术 SynthID 来嵌入不可见的标记到 Veo 2 生成的帧中。Veo 2 的训练数据包括高质量的视频和描述配对。

Deep Dive

Key Insights

What is Veo 2 and how does it compare to OpenAI's Sora?

Veo 2 is Google DeepMind's next-generation video-generating AI, capable of creating 2-minute-plus clips in resolutions up to 4K (4096x2160 pixels). This is 4x the resolution and over 6x the duration of OpenAI's Sora, which can produce up to 1080p, 20-second clips. However, in Google's experimental tool VideoFX, Veo 2 videos are currently capped at 720p and 8 seconds.

What are the key improvements in Veo 2 compared to its predecessor?

Veo 2 features an improved understanding of physics and camera controls, producing clearer footage with sharper textures, especially in scenes with movement. It can more realistically model motion, fluid dynamics, and properties of light like shadows and reflections. Additionally, it offers enhanced camera positioning and movement for capturing objects and people from different angles.

What are the limitations of Veo 2 in video generation?

Veo 2 struggles with coherence and consistency over long durations, particularly with complex prompts. Character consistency, intricate details, and fast, complex motions remain challenging. The model also exhibits issues like lifeless eyes in animations, physically impossible facades, and blending of pedestrians and backgrounds.

How is DeepMind addressing ethical concerns around Veo 2's training data?

DeepMind uses prompt-level filters to mitigate risks like regurgitation of training data and employs its proprietary watermarking technology, SynthID, to embed invisible markers in Veo 2-generated frames. However, the lab does not offer a mechanism for creators to remove their works from existing training sets, maintaining that training on public data is fair use.

What role do creators play in the development of Veo 2?

DeepMind collaborates with creators like Donald Glover and The Weeknd to understand their creative processes and refine its video generation models. Feedback from these collaborations informed the development of Veo 2, and DeepMind continues to work with trusted testers and creators to improve the model.

What other AI model upgrades did Google DeepMind announce alongside Veo 2?

Google DeepMind announced upgrades to Imagine 3, its commercial image generation model. The new version creates brighter, better-composed images in styles like photorealism, impressionism, and anime. It also follows prompts more faithfully and renders richer details and textures. UI updates to ImageFX include chiplets for key terms in prompts, allowing users to iterate or select auto-generated descriptors.

Chapters

Google DeepMind's Veo 2 boasts higher resolution and longer video generation capabilities compared to OpenAI's Sora, although current implementations have limitations. Future plans include wider availability via Vertex AI and integration into the Google ecosystem.

Veo 2 generates longer videos (2+ minutes) at higher resolution (4K) than Sora.
Currently available in Google's VideoFX tool with limitations on resolution and duration.
Future release on Vertex AI and integration into Google products planned.

Shownotes Transcript

这是TechCrunch。本期节目由Factor赞助播出。

注意到白天变短了，但你的待办事项清单没有变短吗？这里有一个技巧：Factor。从早餐到晚餐，以及两者之间的任何食物，Factor都提供简单、营养的选择，让你保持活力，感觉最佳。我的Factor盒子正在路上，它来得太及时了。我非常兴奋，因为你可以从六种菜单偏好中选择，以帮助你控制卡路里，最大限度地摄入蛋白质，或避免肉类，或者只是吃均衡的饮食。

无论你喜欢常规还是喜欢变化，Factor都能满足你，每周提供35种不同的美味佳肴，以及超过60种额外的便利选择，你可以添加到你的盒子里，例如酮类饼干、鲜榨果汁和冰沙。

不要让白天变短减缓你的速度。使用美国排名第一的即食送餐服务保持活力。前往factormeals.com/50TCIndustry，使用代码50TCIndustry即可享受首个盒子50%的折扣以及免费送货。代码是50TCIndustry，网址是factormeals.com/50TCIndustry，在你的订阅有效期内，即可享受首个盒子50%的折扣以及免费送货。

谷歌DeepMind，谷歌旗舰人工智能研究实验室，想要在视频生成领域击败OpenAI，至少在短期内它可能做到。周一，DeepMind发布了Veo 2，一款下一代视频生成AI，也是Veo的继任者，Veo为谷歌产品组合中越来越多的产品提供支持。Veo 2可以创建超过2分钟的剪辑，分辨率高达4K，4096x2160像素。

值得注意的是，这比OpenAI的Sora能够达到的分辨率高4倍，时长超过6倍。当然，这目前只是一个理论上的优势。在谷歌的实验性视频创作工具VideoFX中，Veo 2目前仅在此处可用，视频长度限制在720p和8秒。Sora可以制作长达1080p、20秒的剪辑。

VideoFX需要等待名单，但谷歌表示本周将扩大可以访问它的用户数量。DeepMind产品副总裁Eli Collins还告诉TechCrunch，随着模型准备好大规模使用，谷歌将通过其Vertex AI开发者平台提供Veo 2。

Collins说：“在接下来的几个月里，我们将根据用户的反馈继续迭代，并将努力将Veo 2更新后的功能整合到谷歌生态系统中引人注目的用例中。我们预计明年将分享更多更新。”

与Veo一样，Veo 2可以根据文本提示生成视频，例如，一辆汽车在高速公路上飞驰，或者文本和参考图像。那么Veo 2有什么新功能呢？DeepMind表示，该模型可以生成各种风格的剪辑，它对物理和摄像机控制的理解有所改进，并能产生更清晰的画面。

更清晰是指纹理、图像和剪辑更清晰，尤其是在运动量很大的场景中。至于改进的摄像机控制，它们使Veo 2能够更精确地定位其生成的视频中的虚拟摄像机，并移动摄像机以从不同角度捕捉物体和人物。

DeepMind还声称，Veo 2可以更逼真地模拟运动、流体动力学和光的特性，例如阴影和反射。DeepMind表示，这包括不同的镜头和电影效果。

以及细微的人类表情。DeepMind上周与TechCrunch分享了Veo 2的一些精心挑选的样本。对于AI生成的视频来说，它们看起来相当不错，甚至可以说是非常好。Veo 2似乎对折射和棘手的液体（如枫糖浆）有很强的把握，并且擅长模拟皮克斯风格的动画。但尽管DeepMind坚持认为该模型不太可能出现幻觉元素，例如

多余的手指或意想不到的物体，Veo 2还无法完全摆脱恐怖谷效应。请注意本文文本版本中嵌入的卡通狗状生物视频中毫无生气的眼睛。以及本文文本版本中嵌入的汽车驾驶片段中奇怪的滑溜溜的道路，加上行人和背景相互融合以及具有物理上不可能的立面的建筑物。

Collins承认，这项工作还有待改进。他说：“连贯性和一致性是需要改进的领域。Veo 2可以持续遵循几分钟的提示，但它无法在较长的时间范围内遵循复杂的提示。”

同样，角色一致性也可能是一个挑战。在生成复杂的细节、快速和复杂的动作以及继续突破现实主义的界限方面，还有改进的空间。Collins补充说，DeepMind正在继续与艺术家和制作人合作，以改进其视频生成模型和工具。

Colin说：“从我们Veo开发的开始，我们就与唐纳德·格洛弗、威肯德、大卫等创意人士合作，真正了解他们的创作过程以及技术如何帮助他们实现愿景。我们与创作者在Veo 1上的合作为Veo 2的开发提供了信息，我们期待与值得信赖的测试人员和创作者合作，以获得对这个新模型的反馈。”

Veo 2是在大量视频上进行训练的，这些视频提供了某种形式的数据的示例。模型会学习数据中的模式，从而生成新的数据。DeepMind不会确切地说它从哪里抓取视频来训练Veo 2，但YouTube是一个可能的来源。

谷歌拥有YouTube，DeepMind之前曾告诉TechCrunch，Veo之类的谷歌模型可能会在一些YouTube内容上进行训练。Collins说：“Veo是在高质量的视频描述配对上进行训练的。视频描述配对是一个视频及其对视频中发生事件的相关描述。”

虽然DeepMind通过谷歌托管工具，允许网站管理员阻止实验室的机器人从其网站提取训练数据，但DeepMind没有提供机制让创作者从其现有的训练集中删除作品。该实验室及其母公司坚持认为，使用公共数据训练模型是合理使用，这意味着DeepMind认为它没有义务征求数据所有者的许可。

并非所有创意人士都同意这一点，尤其是在考虑到估计未来几年人工智能可能会扰乱数万个电影和电视工作的研究之后。包括广受欢迎的AI艺术应用程序Midjourney背后的同名初创公司在内的几家AI公司，正成为指控其未经同意就使用内容进行训练而侵犯艺术家权利的诉讼的焦点。

Collins说：“我们致力于与创作者和合作伙伴合作，实现共同目标。我们继续与创意社区和整个行业的人们合作，收集见解并倾听反馈，包括使用VideoFX的人。”

由于当今的生成模型在训练时表现出的方式，它们会带来某些风险，例如反刍，指的是模型生成训练数据的镜像副本。DeepMind的解决方案是提示级别过滤器，包括针对暴力、图形和露骨内容的过滤器。

Collins说，谷歌的赔偿政策（为某些客户提供针对其产品使用引发的版权侵权指控的辩护）在Veo 2普遍可用之前不适用。为了减轻深度伪造的风险，DeepMind表示它正在使用其专有的水印技术SynthID，将不可见的标记嵌入Veo 2生成的帧中。然而，与所有水印技术一样，SynthID并非万无一失。

除了Veo 2之外，谷歌DeepMind今天上午还宣布了其商业图像生成模型Imagine 3的升级。从周一开始，Imagine 3的新版本将面向谷歌图像生成工具ImageFX的用户推出。根据DeepMind的说法，它可以创建更明亮、构图更好的图像和照片，其风格包括照片写实、印象派

和动漫。DeepMind在提供给TechCrunch的一篇博客文章中写道，Imagine 3的这次升级也更忠实地遵循提示，并呈现更丰富的细节和纹理。随着模型的推出，ImageFX的UI也进行了更新，

现在，当用户键入提示时，这些提示中的关键词将成为带有下拉菜单的芯片，其中包含建议的相关词语。用户可以使用这些芯片来迭代他们写的内容，或者从提示下方一行自动生成的描述符中进行选择。

Google DeepMind unveils a new video model to rival Sora 08:09 Share