Home
cover of episode E2. 开启未来:探索OpenAI的全新服务Sora

E2. 开启未来:探索OpenAI的全新服务Sora

2024/2/16
logo of podcast 揭秘科技

揭秘科技

Frequently requested episodes will be transcribed first

Shownotes Transcript

今天是2024年2月16号,农历大年初七。在全国人民还在放假中,或者在返城的路上时,OpenAI发布了全新的文本转视频服务,Sora,并且提供了完全由Sora生成的48部视频。第一部视频是一位时尚女性走在东京街头,街景的立体和景深、画面的细腻程度、人物的真实感让我完全无法想象这是人工生成的,完全就是一部大片的感觉。当镜头拉近人物面部特写的时候,墨镜的立体感和人物脸上皮肤的真实感再次让我震惊。后面几幅,雪山里奔跑的猛犸象,无人机拍摄视角的海浪冲击加州Big Sur悬崖,还有充满想象力的两艘海盗船在一杯热黑咖啡的汹涌澎湃中上下起伏,则完完全全是好莱坞大片的感觉。因为是在春节这个时间点发布,其中一副视频还是国内街头舞狮庆祝春节的场景,可谓用心;在这幅视频中,人头攒动,带有牌楼的老街远处就是高楼大厦,附近是低矮的老楼,跟我刚刚去过的某沿海城市非常的像。

OpenAI对Sora的官方定义是,an AI model that can create realstic and imaginative scenes from text instructions,翻译过来是“Sora是一个能够根据文本指示生成真实的和想象的场景的人工智能工具“。

OpenAI对Sora的介绍,也主动提到了Sora的weakness,也就是暂时的弱点。这是我第一次在一个公司对自己的产品介绍中主动提到weakness。OpenAI说,Sora可能还没有办法完全明白特定场景中的因果关系,并且举了一个例子,说“可能一个人在视频中吃了一口饼干,但视频中的饼干被咬了一口之后,并没有出现咬痕,还是一块完整的饼干”。关于weakness,OpenAI还提到了Sora可能会对输入文本,也就是Prompts中的空间细节描述,无法完全理解,比如“把左和右混淆”,Sora可能也无法完全理解输入文本prompts中提到的一系列先后发生的事件顺序,比如“无法准确跟从一部移动的摄像机的镜头“。我非常喜欢这样的介绍方式,举出具体的例子,让读者或用户能够理解到底在说什么。除了weakness,OpenAI对Sora的安全性也主动描述了顾虑,并且强调在请第三方专业公司Red Teamers帮忙做内容审查。我个人非常欣赏这种产品发布时的坦诚,跟国外以及我们国内很多公司的产品发布会的风格形成鲜明对比。

跟GPT或者OpenAI的ChatGPT一样,Sora用的仍然是Transformer架构,这种架构使得大规模推广Sora服务成为可能。Sora是基于OpenAI的多模大模型Dall-E开发的,Sora也可以把图片转换为视频,还可以把视频输入再扩展内容,或者把已有视频里缺失的内容补齐。

在所有Sora生成的视频里,我没有听到任何声音。在OpenAI的宣传里也没有专门提到Sora目前是否同时有声音输出能力。另外官方现在说Sora能生成“up to one minute”视频,展示的所有视频都还没有这么长。现在还无法知道生成更长视频的效果和速度如何,对于创作者,成本当然是另外一个重要考虑因素。