爱诗科技创始人王长虎认为,视频生成虽然当时是非共识的领域,但他们坚信这是正确的事情。他们基于对视觉内容和语言内容本质差异的理解,预见到视频生成将成为一个重要的赛道。视觉内容是原生的、未经压缩的,而语言是高度抽象的,视频生成需要对世界进行建模,难度更大,但也更贴近用户,商业化潜力更大。
视频生成与语言模型有本质区别。语言是人类对世界的高度抽象化表达,而视觉内容是原生的、未经压缩的。视频生成需要对三维空间进行建模,还原物理规律,难度更大。此外,视频更贴近用户,商业化潜力更大,尤其是在移动互联网时代,视频内容的需求和消费是不可逆的趋势。
视频数据量巨大,每天都有数以亿计的视频被创造出来,但关键在于如何从海量数据中找到高质量、能解决用户痛点的数据。爱诗科技利用AI能力,结合多模态语言模型对视频进行标注,帮助筛选出高质量数据。同时,视频模型需要进行极致的压缩建模,并在生成时进行无损还原,这对技术提出了更高的要求。
PixVerse于2024年1月上线,支持文生视频、图生视频等功能,用户量已突破百万。爱诗科技通过社区产品(如Discord)吸引早期用户,积累口碑,随后推出Web UI,逐步扩大用户群体。他们还通过用户反馈不断优化产品,如引入图生视频功能,提升生成效率,最终目标是让普通用户也能轻松使用视频生成技术。
王长虎认为,视频生成的终局可能是平台性机会。AIGC时代,内容生产从UGC向AIGC升级,视频生成效率大幅提升,未来需要大平台来承接这些内容和流量。此外,人与内容的交互方式也将发生巨大变化,实时视频生成将打破生产和消费的界限,带来全新的交互体验。平台性机会不是设计出来的,而是通过迭代发展逐渐形成的。
视频生成赛道上已经挤满了新玩意儿,如今国内的可灵、即梦、清影、Vidu、Haiper等纷纷上场。
这个赛道的头部之一爱诗科技比Sora出生还早一年,当时还没什么人看好视频生成。
只花一年时间,它已经做出了产品。国际版产品PixVerse今年1月上线,据说用户量已经破百万。
为什么能提前预判视频生成有机会?
怎么理解视频生成赛道?
如何做一款好的视频生成产品?
在刚过去的AGI Playground大会上,爱诗科技创始人兼 CEO 王长虎与极客公园张鹏聊了聊这些问题。
王长虎说,AIGC 时代有同样的大的平台性机会。那么,机会在哪?
以下是这次访谈的录音版,听听王长虎到底怎么说。
00:01:47 17年去字节从0到1搞AI,成为抖音背后的男人
00:06:00 张一鸣告诉我,创业要做非共识但正确的事
00:09:48 跳下去,众神愉悦!all in 到这个时代浪潮里
00:11:59 视觉内容和语言完全两码事,而且视频更难
00:15:19 视频数据不担心Scaling law,但怎么找到好数据?怎么训练模型?
00:19:20 一开始就决定让产品第一时间面向普通用户
00:24:05 从文生视频到「垫图」,抽卡效率嘎嘎涨
00:31:01 AI产品经理三道必答题:懂优化吗?能折腾吗?上手做过吗?
00:37:50 视频生成的GPT时刻之前,技术一定比产品重要
00:39:44 谁不想做成平台啊?成为剪映还是抖音,你选谁?
00:40:59 抖、快早期全靠猥琐发育才躲过巨头狙击
00:41:23 AIGC 时代也有大的平台性机会,但具体在哪?
关于我们
这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。
「AI局内人」,国绕 AGI 相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。
Founder Park 正在搭建 Al Native 的产品交流群,群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。
对更多内容感兴趣,欢迎关注公众号「Founder Park」。