爱诗科技创始人王长虎认为,视频生成虽然当时是非共识的领域,但他们坚信这是正确的事情。他们基于对视觉内容和语言内容本质差异的理解,预见到视频生成将成为一个重要的赛道。视觉内容是原生的、未经压缩的,而语言是高度抽象的,视频生成需要对世界进行建模,难度更大,但也更贴近用户,商业化潜力更大。
视频生成与语言模型有本质区别。语言是人类对世界的高度抽象化表达,而视觉内容是原生的、未经压缩的。视频生成需要对三维空间进行建模,还原物理规律,难度更大。此外,视频更贴近用户,商业化潜力更大,尤其是在移动互联网时代,视频内容的需求和消费是不可逆的趋势。
视频数据量巨大,每天都有数以亿计的视频被创造出来,但关键在于如何从海量数据中找到高质量、能解决用户痛点的数据。爱诗科技利用AI能力,结合多模态语言模型对视频进行标注,帮助筛选出高质量数据。同时,视频模型需要进行极致的压缩建模,并在生成时进行无损还原,这对技术提出了更高的要求。
PixVerse于2024年1月上线,支持文生视频、图生视频等功能,用户量已突破百万。爱诗科技通过社区产品(如Discord)吸引早期用户,积累口碑,随后推出Web UI,逐步扩大用户群体。他们还通过用户反馈不断优化产品,如引入图生视频功能,提升生成效率,最终目标是让普通用户也能轻松使用视频生成技术。
王长虎认为,视频生成的终局可能是平台性机会。AIGC时代,内容生产从UGC向AIGC升级,视频生成效率大幅提升,未来需要大平台来承接这些内容和流量。此外,人与内容的交互方式也将发生巨大变化,实时视频生成将打破生产和消费的界限,带来全新的交互体验。平台性机会不是设计出来的,而是通过迭代发展逐渐形成的。
欢迎收听 AI 局内人 AGI Insider 是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目今年 2 月 SORA 吸引了无数人对于文生视频赛道的关注而这一赛道的头部创业公司爱诗科技也开始进入人们的视野爱诗科技成立于 2023 年 4 月比 SORA 诞生还要早一年当时视频生成还是强烈的非共识
虽然只有一年的时间但它已经做出了产品并有不错的数据 Pixverse 于今年 1 月上线支持纹身视频、图声视频等多项功能据第三方数据统计网站 Pixverse 的用户量已经突破百万为什么能提前预判纹身视频的机会怎样理解纹身视频的赛道如何做好一款视频生成的产品在 AGI Playground 的大会上针对这些问题张鹏与爱时科技创始人兼 CEO 王昌虎进行了一次对谈
本期节目是 AGI Playground 的 2024 系列采访节目之一这一期的嘉宾是王长虎长虎 欢迎来到我们 AGI Playground 因为我先从历史开始聊吧因为我在之前咱们曾经聊的时候我印象比较深刻的是你是自己
体系里出来的真的是老人应该是 17 年加入的对 17 年加入的我们先聊点八卦我们刚才聊了好多字节大家对字节也都充满着好奇其实你是一个深入到字节的体系里并且在它就是第二曲线这个阶段里边 17 年加入的这样的一个人那是一个什么样的经历体验在字节里做了些什么样的东西见证了什么东西
在字节这些年其实是蛮幸福的一段经历我是 17 年初加入字节跳动的那个时候还不叫字节那个时候还叫今日头条对那个时候还叫今日头条一几年对当时最好的产品就是今日头条有大几千万的 DAU
像抖音啊 Jtalk 啊还有很多其他的短视频产品有的还没有做起来有的刚刚上线还没有什么用户我是在那个时刻加入自己的跳动的那积累了很多这种 NLP 的人才
推荐算法的人才但是视觉相关的人才还是比较缺少的一边空白那么过去之后就从零到一搭建了一个最后有几百人的这样的视频 AI 团队也是伴随着抖音 TikTok 这些产品从零到一的发展这个团队因为我们知道抖音 TikTok 这些产品本质上其实是智能的产品
我们耳熟能详的是什么是它的非常强大的推荐方法对不对但是因为它们是视频的产品它们在发展过程中背后有非常多的这种视频 AI 的能力大家可能会看到也可能看不到就像水面下冰山的那一部分更大的一部分一样大家可能看不到其实那里面可能有大半部分都是我带着团队重新到一起做起来的
我们支撑了市场很多的产品不仅有抖音 TikTok 包括只要字节系下面跟视频图片相关的产品背后的视频 AI 能力很多都是我们做的
也覆盖了从生产视频生产到消费的全生命周期因为大家也知道每天用户在有海量的用户数以亿计十几亿的用户在用抖音 TikTok 那每天上传的视频量也是海量的那如何帮助用户更方便的便捷去创作好玩好用能够传播的视频就是内容生产车
里面有丰富的这种视频的理解生成的技术当用户把视频上传到平台之后是不是就可以分发给其他用户了用我们非常厉害的推荐方法分发给其他用户了还不行其实我们知道海量内容背后是什么背后可能会有一些战乱差对不对违法违纪而违规的内容违反公讯良俗内容不管是抖音还是 TikTok 每个国家的一些要求可能也不同
世界上最影响安全内容最严峻最复杂的两个产品抖音 Detok 背后的这些问题也都是我们用 AI 解决掉的所以
本质上我们看到这个字节产品的第二曲线可能是看到了抖音 TikTok 但其实本质上那里边驱动它能成为第二曲线的很重要的因素是那个时候他们已经开始有智能的东西在里边要起作用是的所以像这些短视频产品背后的智能元素是极其重要
根基能力也支撑了这些产品的快速的发展因为当你的用户数非常非常大十亿甚至几十亿的时候当每天上传内容也无限大的时候里边的要解决任何一个问题可能都不是人工能解决掉的都需要 AI 能力而且我们平常看到的想象到的可能很简单的 AI 能力为了面向海量的用户的时候它一定也变成了世界级的难题
其实挺羡慕你这段经历的我觉得今天在座的很多人可能也会很羡慕这段经历你经历了一个公司在关键阶段的整个成长过程并且你可能还参与其中就你会总结这段历程里你的收获主要是什么收获很多让我们理解一下这个大厂体验出来之后那个收获到底是什么收获非常多其实我一直在说其实我在自己的工作期间也做了很多事情但是收获是远远远远远
高于我的贡献的一个最大的收获是什么其实就是这段创业的经历在这些时候就经常听到一名他的一个观点创业要做非共识但正确的事儿
其实我们大家在座的各位在意识到市民生成是件大事的时候我觉得大概率是在骚扰出来之后但是我们创业的时候是在一年前那个时候没有骚扰所以整个虽然大圆圆模型很火但是市民生成这个赛道还是应者了了
所以能够支撑我们一直走下去的一个信念就是我们非常坚信我们做的事情虽然是非共识的但是是正确的事情所以这是第一个一个很重要的一个收获第二个收获是什么第二个收获是在就是其实是技术层面的因为过去我们伴随着这种国民产品从零到一的发展我们很多视频 AI 能力都是我们做的
因为是国民产品所以几乎方方面面所有的能显示到的这种视频 AI 的能力我们都做过而这些能力又是我们现在创业做视频生成的一个核心的基础这是第二个第三个的话是在价值观层面
我们知道字节是有字节范儿当然了一个公司在快速发展的过程中不同阶段可能都有不同的底层的价值观理念但是在我当时在字节期间我们的价值观包括始终创业包括追求集市等等有六个这样的价值观从一名
本人开始真的是内心比例五并且即时进行的而从我个人加入之后我的团队的每一个人和我们打架的每一个人都是在践行这些价值观 字节范儿是非常有效的也是字节之所以能够发展这么快的一个很重要的基石
同时我现在创业的过程中也会把这些理念带到我们新的团队希望能够复刻这个非常伟大的公司快速发展的时候的效率这是
收获的一部分听你说的看来你对字节还是非常深度的认同的这个总结起来可能一部分就是就打过大仗这件事肯定是很大的收获但是确实在字节里边对创业的理解可能从一鸣身上还是学到了很多那我只会问一个问题这么好的字节为什么要出来创业嘛对吧就是这个是个核心的问题你创业当时这个角色是怎么做的创业啊我觉得有几方面的原因啊
一方面大厂包括字节这样的大厂其实确实是非常非常非常棒它能够承载非常多人的梦想但是因为在这样的大厂特别是你是一个比较重要的角色的人其实一定承载着背负着非常重要的职责和业务预期那个时候你就很难抽出大部分精力或者 all in 去做一件非共识的
不管是公司外还是公司内那个时刻没有达成共识的这样一件事情这是第一个第二的话我们说我们耳熟能详的那些最伟大的产品 Windows Office 微软做出来的时候微软其实是一个小公司包括 Google
包括社交产品 Facebook 也是在校园里面做出来的甚至抖音是吧其实也是在巨头围堵过程中成长起来的其实我们认为很多大的机会创业公司有能力做出来这是第二个第三个其实最重要的一件事情是
我个人是经历了一个我是一个老兵所以在 AI 领域做了很多年经历了好几个时代包括搜索时代包括深度学习时代还有短视频 移动互联网时代所以我是深刻的能感受到一个新的时代浪潮的到来 AGI 时代 AIGC 的时代当这样浪潮到来的时候那就一定会有一些人
勇于去逐浪我想我是其中一个所以那个时候我好像听到了一个命运的召唤说跳下去跳下去众生愉悦凹映到这个时代的浪潮里边这是最重要的原因
我觉得这个我特别赞同其实大厂是一个特别好的创业者的 staging area 你发现你说你到这个在这个领域里面去完成了一个历练有了丰富的经历体验世界观然后到最终也一定会看到要做一件事可能真正的创新在大厂里是不那么容易
这个时候我觉得成为一个创业者就变得是一个必然的选择使命召唤对吧尤其是在赶上个技术时代所以未来如果咱们有大厂的创业者朋友们就是今天你们觉得你们已经到了这个阶段记得过来找 Founder Park 这个我觉得当时就遗憾在你做那个决定的时候我还没认识你那我们聊聊
视频生成这件事啊,今年 Sora 火了之后呢,大家都开始关注这一点。所以我们到底怎么定义视频生成这个赛道?因为看起来它又跟大云模型的这一波啊,包括所谓的 scaling law 都有关系,但好像它又不一样。所以你会怎么定义这视频生成这个赛道,它的本质到底是个什么东西?它跟语言模型是什么关系?嗯。
是这样的,因为我们知道 Chad G.P. 出来之后很多业界投资界的目光包括大众的目光都会聚焦在大语言模型上但是在骚扰出来之前很长一段时间内其实业界其实不认为市民生成能够短时间内能够做出来因此说它当时是一个非共识的事情在我看来视觉内容和语言其实是完全两类不同的内容
因为我们看语言是人类诞生之后才出现的是高度抽象化的信息但是你看视觉我们说在人类出现之前山在那儿水在那儿它是原生的所以我们当猜测 GP 出来之后我们对大语言模型的预期是什么是人脑是做归基生命对不对是人体内的东西但是
Zorla 出来之后我们对视频模型的预期是什么是希望是在人体之外的是希望对世界进行建模去模拟世界所以这是两类不同的东西这是第一点第二点是说视频更难难在什么地方你看语言已经在人类创造语言的过程中已经对语言进行高度的压缩同时压缩之后它是一个一维的信号
所以我们对语言进行压缩还原的过程相对容易但是视频呢我们看到图片可以看成是二维的信息量视频是三维的三维空间里面有非常多的冗余那我们如何用大模型做信息的压缩在生成的时候要做信息的极度的完美的还原过程中还要把物理规律把整个世界
建模和还原难度更大第三个不同我认为视频其实是更贴近用户的内容我们看过去移动互联网时代其实大家能想到的国民级产品一定包括抖音 tutorial 快手对不对而且我们看到很多其他的产品内容的视频化也是不可逆的所以视频跟语言相比它更贴近用户
未来产品化商业化的这种可能性会更大这是我看到的语言和视频的区别
你刚才提的这个观点很有意思,语言其实本质上已经是人类对于世界进行过一次压缩了,压缩成一种语言的表达。所以在这个基础上,语言模型它的诞生和今天我们要去看视频生成这件事要面对的未经压缩的东西是不太一样的。这也让我引发,我觉得我们值得探讨的说,
今天我们谈 scaling law 我们谈 transformer 这样的一个大的这种形态本质上带来的就是说数据需要更丰富看起来视频它面对的数据数据量是更丰富的
但这里边也会涉及一个问题你怎么去拿到真正优质的数据甚至是被有效标注过的数据那这一些东西可能都决定了这个技术到底怎么成长它的路线是什么样甚至这里边比如说语言模型在这个成长路径里有没有作用这点我觉得蛮好奇的你会怎么拆解这件事是这样的就是您说的特别对啊
数据至关重要我们之前在大元模型发展过程中其实会有一个观点说很快全世界的这种 knowledge 知识语言的数据库可能就会被用完了用光了但是视频不存在这个问题你要知道每天会有数以亿计的视频会被创造出来
天天都有新的数据包括用户在创作或者专业的这种影视公司在创作数据是重出不穷的但是呢数据量是无限大额但是最重要的是什么最重要的是如何从海量的视频里边找到最能帮助你模型训练能够解决用户痛点的核心的高质量的数据
这是至关重要这里边一定是需要用到 AI 能力了我们过去的经验可以帮助我们更快地做这件事情同时语言模型其实也起到了非常重要的作用现在我们在做训练数据库的时候我们就会用到
多姆塔语言模型来帮助我们去标注视频对视频的标注然后用来用于训练因为我们提到视频啊说它可能不是单一的视觉内容它里面
其实会有很多的予以信心所以在训练过程中其实我们的视觉视频和它相同描述都会拿来用于训练第二步的话我们还需要对视频模型进行极致的压缩建模并且尽可能无损的进行压缩因为未来我们要还原这也是非常重要的一块我们需要设计非常优质的 encoder 包括一些核心的顺法
来帮助我们对数据进行建模那接下来的话我们特别重要的是什么技术最终要面向用户呀我们要做好就要 TPF 技术产品的匹配然后能够引入用户的这种 feedback 来帮助我们去进化我们的技术和产品最终呢我们也当然我们也希望能够用户有能够有实时的体验所以这种加速推理模型小型化也是需要建设的能力啊
看起来这还是个挺复杂的系统是的而且都是跟之前上一代 AI 可能不太一样的可能还真的跟你在字节做的事不太一样那你感觉这件事字节原有的那些经验落到这儿会有啥具象的时候就是如果我们类比一下哪些是能继承过来有帮助的哪些可能是全新的挑战其实是我们说我们技术是有很多的技术体成技术都是可以继承的
视频 AI 能力因为我们看到虽然我们现在做生成的目标是在那儿是一个优化目标但是把这目标和方法拆解之后几乎每一个模块我们全都有丰富的经验和能力这是技术测产品测其实过去一个时代的那些最优秀的产品经理依然能够有机会在新的时代去大放异彩因为很多的底层的素质是相通的但是产品测我们会看到确实存在一些不同
一个是说工作方式不同因为在过去过去一些时代其实产品往往是先根据用户的需求去
定义场景然后画产品流程图然后和我们前端后端包括我们算法一起去解决这个问题这过程中我们用到技术往往是相对来说是确定的然后里面的需要的创新度还是很有限或者是说一些成熟的技术的组合那
这个过程中更像是什么更像是就是这个产品经理带着这个团队无断的去实现那个设定目标的这样一个过程但是在 AIGC 时代我们做的是 AI Native 的产品但同时技术发展又很快所以我们的产品经理一定要更敏锐的去了解
技术的发展现状并且以此来挖掘出新的需求然后做好 TPF 这个是特别重要的这是一个很大的区别这一点已经是在今天如果去开启一个
新的 AI Native 的创业的时候必备的就像刚才我其实在台上也讲了半天就是这个所谓的光有人性也不行光有魔性也不行人性魔性要结合我们其实聊了半天了但大家可能有些人还没有见过你们的产品我知道你们其实自己发的产品的这个 Bixverse 已经在海外有很好的口碑最近也刚更新了那我们是不是导播可以放一段视频让大家感受一下他们这个产品的实际的效果
来 我们先来看一小段他们产品实际什么样子
大家还是从掌声里能看得出来大家觉得这个产品蛮让人幸福和惊艳的这个我其实比较关心的一个细节就是因为这里面怎么技术实现反正问你讲了我也未必能听得懂对吧这里边可能有比较复杂的组合但我关注到一点的就是你们的产品里其实有一个比较有意思的东西就是你有个笔刷的功能对吧就是用户可以拿这个就有点像我们原来做图的时候有那个笔刷功能我很好奇就是说
虽然都是一个视频生成但看起来就是如何生成这个视频用户的交互的过程或者生产的过程看起来也在变化能不能分享一些这方面的思考技术是技术到产品然后和跟用户要去协作交付结果这个事里边有什么不一样的思考或者非共识的东西你们走了一段时间了应该会有所收获的是的刚才展示的这个
这个 feature 是我们最新的 5 月底 release 的一个 feature 它只是我们产品的一部分它是关于可控生成的叫 magic brush 那我们做这些产品这些 feature 其实我们很就是要很注意的一点是我们做的其实是 AI native 的产品它有它的特点特点就是技术发展飞快因此
我们的产品可能会有一些不确定性对 它要匹配技术的发展正因为如此所以我们更应该更早的去确定我们的信仰我们的使命所以我们在创业第一天的时候其实就坚定的要做什么我们要做技术普惠希望能够让每天玩抖音 TikTok 的这些普通的创作者普通的消费者都能
用到这样的技术能力所以不是给只给专业人用的一个高效率工具是的这是我们的 mission 对但是我们也要看到技术在快速发展在这个过程中它能够在不同的阶段它能够 deliver 的这种能力其实是有它的限制的那我们要做的好是什么做好两点第一点是做好 TPF
在已有涌现出来最新的能力的基础上如何去找到最好的需求用户的真需求做出当线能力能够支撑的最好的产品让一部分用户先用起来这是最重要的第一个
那第二个是我们希望第一时间面向用户然后让用户把用户做好技术产品和用户的这样一个闭环做好数据飞轮让用户也参与到我们技术产品的发展我可以举几个例子比如说我们在最早去年这个时候
去年的这个时候我们在做视频生成的时候我们就要有一个选择我们是做社区产品呢现在 Discord 上面去做这个产品呢还是先搞一个 Web UI 不知道如果大家选择如何去选择
当时我们有一个判断社区产品就是说直接类似于只在少数人群里大家在玩而不是变成一个开放的 web UI 的一个东西是的当然每个人都可以去注册我不知道大家知道我猜大家应该了解 MidsunnyMidsunny 是一个维生图的这样全球范围最好的产品它其实就是在一个叫 Discord 社区里面
赢得广泛用户的对所以在这个社区产品的好处是什么好处是相关的用户他只要有一个账号他也有在这个社区里面用这些产品的一个习惯我们不需要设计什么 UI
特殊的设计什么油案所以可以把更多精力放在我们的模型本身上就是只把自己最合理的东西做了就完了不用为这个外边还要装修好多东西是的为什么有这个判断是因为当时判断视频生成还在很初期普通用户他用不起来玩不起来能用起来玩起来就像那些有意愿跟 AI 一起进化的这些偏专业的创作者
所以我们第一个决定就是现在社区里面做这个产品别一上来就搞精装修对吧反正是个过渡阶段对吧理解所以过了一段时间我们的技术赢得了很多的用户的很好的口碑和用户真的用脚投票使用我们技术之后我们的技术在慢慢进化在一个时刻今年 1 月份的时候我们真正上线了我们 webui 这个界面
符合预期的我们会有更多的这种对生成质量要求更高然后呃呃画线更带弱死的用户群就可以用起来了啊当然我们很多的普通可能还很难用起来但是未来一定会有更多的这种呃做用户泛化的这样的呃产品和机会啊这是这是这个产品其实呃另外一个例子是呃我们
我们最终目标就是让普通用户用起来但是大家都知道普通用户用起来最好的方式是什么其实文声视频是不是用语音去生成视频所以我们第一个产品的 feature 就是用文声视频但是后来发现跟用户互动之后发现
抽卡概率太低什么叫抽卡我们生成了几次之后才能有一个用户可用最终哪个能用对是的所以就出现另外一个选择什么选择就是图生饰品所谓的电图的方法为什么要电图大家可以去算一下如果假设我们用文生饰品要是要尝试 25 次才能生成一次的话那抽卡概率是 1/25 对不对
但是我们就可以把它分成两段第一段是用纹生图大家知道纹生图相对来说是比较成熟的假设纹生图的话我每生成五次能有一次可用的这是五分之一的概率再用这张图用我们的技术把它动起来图生视频概率也是五分之一的话事实上经过这个电图我们抽法概率从二十五分之一就提升到了十分之一
因为这个原因我们也上线了图生视频的功能这是我们的第二个重要的技巧后来我们发现用户用我们产品做视频的时候他可能几秒钟的一个镜头他没法去真正商业化要商业化的时候他可能需要做几十秒一分钟的广告短片或者是说做一分钟的短剧或者宣传片
那一定是多镜头组成的这里面就涉及到一个问题就是多镜头之间的主体人物是不是能够保持一致
如果前几个镜头是刘道华后几个镜头变成梁朝伟了那个一定是不符合预期的所以我们也是在今年的时候全球首发了叫做 character to video 的战略功能这也是跟用户互动过程中我们看到并且实现出具有的技术实现出来的包括后边的刚才展示的这个 magic brush 这个技术也是这样
这个技术其实是在 EoA 上面是有一些创新的,我们知道 Ranway 其实是最早的做了一个叫做 Motion Brush 的功能。我们是在 Ranway 之后第二个,国内也是第一个 release 这种功能的这样一个公司。但是我们的功能实际上有更大的进化。我们的产品经理在设计这个功能的时候,其实没有
最开始没有人是想到能设计的这么好因为他不知道技术能够如何发展是我们的技术能力
能够做出来了我们可以让局部的物体能够随意的根据我们的轨迹运动的时候我们的产品就已经从固定的只有东南西北或者固定的直线的单一的运动变成了可以随便的去画轨迹了就像里面有马斯克可以点头其实我们画轨迹就是一个这样一个波浪线你看这就是一个典型的这种 TPF 的过程我们的产品一定
一定是要跟我们的技术要紧密相关同时呢我们要精准地能够找到我们当前的用户的真需求
这点让我印象还是挺深的其实刚才你在前面也讲到了比如说像你做个这个 brush 哪有真有 magic 其实还要技术到位否则就是个 brush 对吧它做不到那个 magic 所以其实本质上这是一个相互影响的过程就像前面你在讲就是说上一个时代做产品的东西切换到这个时代做产品的思路很重要的就是在于你要融合到模型的能力和用户的需求之间要匹配
所以我们既然都聊到这一点了我相信你们肯定现在也在招人对吧也在去寻找最优秀的把技术变成产品的这样的产品人技术人大家是要融合在一起我提一个提一个比较具象的问题假定我是一个你在面试的
因为我知道你们最近融资也很顺利发展也很好是一个冉冉心心肯定也在招人假定我是一个你在面试的人你想去评判我是不是一个符合这个时代的产品经理未来能不能成为这个时代产品经理你只能问我三个问题的话你想想你会问我哪三个问题能帮你形成最快速的判断
这得好好想一想这个公开说出了之后以后面试产品经理就不能用了直接给你破了是吧没关系你可以进阶你会问哪三个问题首先我可能会问彭总你最近一定用了很多的 AI 产品对不对这产品里边能不能找一个产品对它的模型测提点优化的建议
就是我用过的产品我能够不是在说功能而是能看穿到它模型该怎么用对 是的这个要求我还真做不到对为什么会这样呢其实我们特别在意产品经理的一个能力一个什么样的能力呢是从底层的技术能够抽象去思考用户需要场景的这样一个能力因为技术发展非常快
我们往往需要在最新的技术能力上面去挖掘用户的真需求这个需求很可能是什么是这个技术出来之前不存在的一些需求那就特别考验我们的产品经理这方面的产品的抽象能力
抽象能力,过去的产品抽象能力是不是就是画产品图的能力?现在的抽象能力是指什么?就是要给模型定数据集吗?我不知道我们怎么把这个抽象具象一点。是这样,就是说现在的时候我们需要潜在的去思考很多问题。我可以举个例子,也是 Magic Brush 这个例子。其实我们本身这种交互,大家觉得它是一个必须的交互吗?
其实未必对不对当我们技术做到无限好的时候可能用户更严粗法水的生存你想生存什么就生存什么对吧这四个球四个台球用语言描述它怎么动就可以了但是技术发展它是有它的科幻规律的所以我们虽然有个 mission 在那但是我们也要同时能够看到技术的局限性和当前的能力在此基础上我们能够想象出来抽象出来用当前的用户
围绕这个能力以及最终用户我们最大的那个 mission 二者结合就像我们的一个中间态的一个产品形态就是这种可控的生成 Math Blush 我觉得这可能是一种基于已有技术能力或者快速变化技术能力去做产品抽象的这样一个具象的这样一个描述
对你刚才问了我第一个问题我觉得这个问题还真的是有挑战的让我去答的话那你刚才说你有三个问题的机会第二个问什么您最近也关注了很多这种 AI 重要级 AI 产品的发布对吧可以介绍一下其中你认为最有力量最影响力最大的一个产品发布的一个过程吗
就是哪个产品就是你其实想问我有没有在观察最近业界最新的动态是的对吧然后我是否理解了那个进展它里边最关键的那个创新和进步是什么是的因为我们也希望我们的产品经理其实是学习能力更强真的是要能折腾然后
传统的一些产品你可能通过清准的 AB 测试的数据就可以去做一些判断但只这样肯定是不行的在现在 AI 机器时代一定要对技术的快速进化有更高的明锐度这是我们特别希望能够看到的所以这个问题本身我就希望一个是希望你真的是关注到很多的产品的发布甚至是知道里面的细节甚至对这些产品发布最新的功能有自己的独到的见解这是我希望看到的
这个我觉得还更容易实现一点大家多看 Founder Park 多参与 Founder Park 看着我们的直播交流应该能实现那第三个问题呢第三个问题我可能会问您也看到了这么多技术你有没有自己尝试亲自去用哪几个 AI 技术去解决你的一个什么样的实际问题给我介绍一下这个过程就是不管大小有没有自己手搓过有没有自己亲手实验过
这个非常重要因为现在大家都知道信息量太大了随便一个技术出来就成天的报道出来大家可以从这些报道里面学到很多信息但是我可以告诉你很多信息没那么靠谱所以我们经常会听到说有个公司是
发布了一个什么市民生生产品我们的投资人也会跟我说他发布了这些产品有什么评价我首先问的第一句话是说你有没有试过他说我没试过他没有开放呀
我会问第二句是什么,说你看看这个公司过去半年之内有没有其他的发布,那些产品,半年之前的产品你有没有试过,可能也没试过,到现在还没有开放,所以我说那这个产品我们可能等它开放之后我们再讨论。所以我的一个建议是我们的产品经理不仅要去看去听,真的是要动手尝试。
你要有一种同理心你要把自己看成是这个技术的一个核心的用户你在用这些产品的时候你的第一手的体验是什么你对它的看法是什么它有哪些不足你的认知是不是真正是非常关键的一些非公式但正确的认知这是我也特别关注的事情
我觉得这三个问题大概我盖得到你的观察视角当然我相信你未来问肯定不会只是复制这三个问题但这个意图我理解了所以我们理解了这一点反过来我就再把你作为 CEO 作为创始人我们再去问一问就是你会从你的视角
你认为这条赛道在最后如果要能够做出有意义的一个公司它的重点是在技术还是在产品当然
大家都会说技术也重要产品也重要这个我觉得是可能大家都标准说法但反过来我觉得在他的今天特定阶段他可能意味着这个公司的不同走向比如如果产品很重要今天比如 Renway 他今天有特定的人群他去优化那个产品他迅速形成闭环如果技术很重要就是说我的核心是要通向 AGI 我做的所有的产品应该都是顺着通向 AGI 的方式去做的它意味着一些更深的选择我把这个题材解的清晰一点其实它背后是你的选择问题你认为是什么
我认为分阶段,在视频生成的 CHATGDP 时刻到来之前,技术一定是非常重要的,至关重要的。因为我们要不断推动技术进步,从而带动产品形态的丰富,到那个临界点。长远去看,未来技术多多少少会趋同,最终决胜之处在于产品,这是我的观点。
技术不会永远是独有的是吧但是产品可能最终产品是最终的结果一定要技术通过产品来面向广大运输但是要一定不要在还没到位的技术上去做产品
或者说你做产品也知道背后的核心是技术要到那个 moment 对 是的我们的做法是什么呢我们的做法是我们目标一定有一个很大的远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近远近�
我们把用户引贸进来和我们共同推进技术进步以及探寻未来的可能的产品化的空间
那再追问一个更可能投资人形态的问题我相信你可能因为跟投资人聊过很多了应该不止一个投资人问过你问题说这件事的终局到底它是个工具还是个平台我相信投资人一定会问这些问题你是不是怎么回答这个问题你也问这个问题确实是这样我写的好庸俗是吧有点庸俗因为聊过很多投资人我觉得这个问题我回答了上百遍了
跟投资人聊的时候一定是很正经的回答那么大的吗今天可能实话实说可能这个问题有点扯淡这个问题本身有点扯淡是吧有谁不想做成平台如果前面有两条路两个机会解应工具对不对抖音大家想要哪个我想很多人都想要抖音
但是话说回来其实我们要做成这样的平台性产品成功的平台性产品其实也是要有条件的抖音快手之所以能够做起来实际上是应运而生我们可以看到过去他们同时面临着两个泛式的革命泛式的升级
一个是移动互联网自动手机的出现推动了内容从 PGC 到 UGC 的快速的升级特别是短视频创造门槛极大降低这是第一个范式的升级第二个范式升级是什么是人与信息的交互方式从过去的这种人主动去搜索信息
到推荐顺法带来了什么人被动的去接受信息这种推荐的过程人和信息的这种关系的变化每一次变化都会带来巨大的机会但即使这样我们可以看到抖音快手最早期的时候他在讲这个平台的故事吗快手早期的时候是什么是寄付工具对不对抖音很早期的时候里面内容都是对口型唱歌的小女生
也正因为如此才真正躲过了很多巨头的狙击才为所罚也快速成长起来我觉得 AI 继续时代有没有机会有同样的大的平台性机会为什么刚才提到两种方式
都存在升级的可能一个是 UGC 往 AIGC 内容车的升级我们知道 AI 产生内容的效率要远高于用户亲自产生内容当我们的视频生成达到一个点达到 HTTP 时刻之后质量已经可以可用的时候
那个时候一定需要大的平台产品来承接这份内容这份流量这是第一个第二的话在人与内容的交互层面上也会有巨大的饭食的升级我们在看视频今天我们在看视频看电影的时候其实都是玩抖音的时候其实都是内容的单向的交互我们只在被动接受内容对不对
未来视频生成如果能做到实时的视频生成大家可以想象一下将会有什么样的翻天覆地的变化完全打破了人生产和消费之间的界限我们可以在消费视频的过程中就可以实时改变它这种交互方式是一个巨大的突破二者叠加一定是有平台性的机会但是平台具体是什么具体是什么大家需要去摸索出来
就像之前说的打败微信的一定不会是另外一个微信对不对也可能会从另外一个赛道过来所以腾讯很在意抖音对不对最终的 AIGC 时代的这样的 AI Native 的平台是
我觉得不大可能是抖音里面内容换一遍把人拍摄的内容变成 AI 原生的就是一个新的平台性机会我觉得一定不会是那样具体是什么需要我们一步一步走过去我们需要像这种平台性机会不是设计好的是逐渐的迭代发展起来的这是我的观点
理解了我觉得其实在今天一个比较正确的问题不应该是去问说你是平台还是啥而是说你如何找到就像我们前面聊到的就是往前去探索的那个阶梯因为你非常确定那是一个新大陆那个新大陆一定蕴含着巨大的机会它真正的问题是你如何去探索而不是你现在怎么假设
它是一个什么样的东西是的我觉得今天非常感谢长虎来到我们的现场应该也算是第一次是第一次出来了第一次第一次出来了谢谢你又把第一次送到了我们 Founder Park 的 PlaygroundAGI Playground 因为我觉得也特别期待你在 AGI Playground 里能玩得开心也有所成就最终我觉得不负这个时代特别感谢你来到现场加油