曾明教授的形容我们的状态,我觉得形容得特别好。
他说你今天就是在一个局势特别不明朗的大海中,你呢是在一块浮冰上,但是呢你这个东西随时可能这个冰就会化掉或者会翻,对吧?
所以你要有的姿态就是低功耗的运转,同时呢非常敏锐的杂汗,周边有没有尖兵,一旦有尖兵,你要准备好,你还有能力跳上去。
今天这个结果对得起我过去的努力吗?
对的,我过去受的这个 12 年受的磨难吗?
哈哈,我觉得是对不起的。
所以你是其实是有点不甘心的。
那当然不甘心呐,中国移动互联网的黄金十年,我居然搞成这样。
哈喽,大家好,欢迎收听张晓俊商业访谈录,我是腾讯新闻的晓俊,这是一档描摹我们时代的商业文化和新知的访谈节目。
今天的嘉宾呢,是李志飞。
前不久,他的公司出门问问,刚刚作为 AI GC 第一股在港交所完成上市。
他在节目里很坦诚地聊了聊作为一家 AI 公司,一家前沿科技公司,在熬过 12 个年头,终于站在交易所敲钟的那一刻,他到底想了些什么?
还有那些你不知道的前沿科技创业中的狂妄与痛苦。
他称自己是一个看见过创业死亡的人,他的故事或许能给今天在大模型浪潮中冲浪的选手一点启发。
此外,我们也点评了最近的 GBD、 富欧、 Google AI 助手和字节模型大降价等一系列的 AI 最新进展。
4 月 你们公司刚刚上市?
呃,最近工作和生活有没有什么一些新的变化?
也没什么太多新的变化吧,最大的变化就是上市前我们要做很多这种 routing 的活吧,或者就是为了合规啊,为了达到审批的结果呀,要做很多不太具备什么挑战或者创新的这些活,上市以后这些活可以少很多,这可能是最大的变化。
我觉得还是一个很复杂的一个过程,因为以前我们去看别人 IPO 都觉得好像很简单,你看 3 个月、6 个月,反正都能搞得定。
但你自己经历的话,你就发现,就是说其实每一天都会有很多这种标问题,去解决这些问题啊,也不是一个什么创新性的问题,你就是要不厌其烦地去解释,不厌其烦地做很多工作。
所以这个是上市前,那上市后这些事情可能会好很多,所以其实上市后肯定是状态要好很多的。
前段时间其实跟你也有聊过,我都没有感觉你在准备上市,你是准备多久啊?
作为房源你都觉得别人这个很轻松对吧?
我们从去年 3 月 份启动的, 6 月 份交表的啊,所以你看差不多接近一年的时间。
挑战在哪?
这个太多细节,比如说因为你,因为你上市是一个面向公众发布的一个招股嘛,对吧?
嗯,那你这些公众的仍然很多时候不是专业人士,不像思默,你很多都是专业的 VC, 那很多东西你不用跟他解释,或者你也不用去各种什么免责声明,但是你面向公众的话,因为从这个审批机构或者监管机构,他最关心的就是说你的信息是不是准确,有没有误导这个大众,有没有如果比如说你误导大众了,然后人家买了你股票,结果发现你不是这么一回事,那不就监管就没有尽责嘛,所以这里边全部都是一些很多都是监管的事情,就是你怎么去配合监管,让他觉得诶你的这个招股书的描述跟你的实际的情况是一致的,你的公司的所有的运营是合法的对吧?
你你对未来的预测也是比较纵横的,所以这里边就涉及到很多细节。
给你举个例子,我们的中介可能有四五十个中介,这个你比如说以前私募融资作业的融资可能中介就三四个中介就够了,就一个律师可能是最重要的,但是你上市就是几十个中介,每一个中介他既然第一是你要花钱啊,第二是他既然参与了这个过程,那他一定是有很多事情要跟你公司进行交互的。
贼琐事很多。
非常琐碎,而且每天你都会觉得哎呀,这个是不是搞不定,其实最后都能搞定。
AI 公司上市的挑战是什么?
现在整个港股最大的挑战还是港股的流通性跟募资嘛,就是因为过去这两年流通性比较差,真正的市场化的这个投资也比较少,所以对很多公司来说,第一个就是要解决能摸到这个市场化的钱的问题。
而它的好处就是 AI 公司是大家会关注,如果你非 AI 公司的话,那些投资者可能看都不看。
AI 公司大家会关注,但我觉得很大的挑战就是因为 AI 公司在过去中国呃 10 年的发展过程中,确实有一定的泡沫,就很多是估值很高,商业模式呢,又没有一个所持续的商业模式,亏钱也亏得很厉害。
很多公司呢,就是因为 AI 公司都是技术公司嘛,它其实都不是在做产品,在做项目制,项目制的话规模不经济嘛。
现在大家,比如说 10 年 前,可能大家还觉得对 AI 有各种各样的想象,觉得这个商业怎么怎么样,那现在大家看到的市场上的这些过去 10 年的头部的公司,都是比较偏项目制的。
所以这些东西导致就是说募资的时候可能就会很大的挑战,估值又高,然后你还亏损,又没有看到一个说什么以后能躺着赚钱的商业模式,再加上还有一点,巨头全部都进来搞 AI 对吧?
这个竞争很激烈,基本上所有最差的这个竞争全部进来了对吧?
怎么解决呢?
说句实在话,这个不是凡尔赛,我们稍微好一点,我们估值不高,然后呢,我们过去呢比较偏产品化,我们不亏损,长期的可持续性呢,我们至少短期是已经在 AI、 GC 的应用上是有比较大规模营收的,当然就说它的增长和或者是可持续性,未来会怎么样,跟未来的竞争性很大关系,就是前面那个估值,项目跟跟产品的关系那些问题。
对我们还好,大家可能最关心的就是说你的现在这些产品,你现在能收到钱,你现在能够有很多用户,那长期来说,当巨头都免费进入,你怎么办?
最近在使战略啊,对吧,就是有没有你的生态位,当这个 AI GC 发展到 3 年、5 年后,在这个整个充分竞争之后,你在这生态里面有没有你的位置?
这可能是大家比较关心的。
为什么前沿科技总是和项目制挂钩?
这是一个就是现象吗?
我觉得是有一定规律的。
所谓前沿,你这个东西就是个新技术嘛,新技术的特点就是说第一个是用户的需求是不清晰的,因为用户对新技术他不理解,所以他的需求他可能以为你这个技术能干事,干这个干那个,但其实自己去用呢,是干不了这个东西的,所以他的需求跟你这个技术之间是有一个巨大的同高,所以我觉得是第一点。
第二个就是技术本身,因为你是新技术,你是不成熟的,那这些这种东西又需求又不清晰又不成熟,那最后当你有一个需求方过来的时候,那你必然就要为他这个场景去做很多定制,因为只有这样他才能理解说诶他的需求跟你的技术之间能够怎么匹配,然后呢,但是刚才说的技术又不成熟,你可能为他这个呢你得做好多定制才能够满足他需求,关键是他那个需求也不一定是真实的,都是想象的。
我昨天晚上跟别人聊天说 ToB 就是甲方跟乙方坐在一起自嗨,前沿科技的 ToB 啊,就因为双方都对技术很有追求,然后呢,都对未来呢很兴奋。
但其实呢,这些需求是不是最终的客户的需求,其实不知道,所以这导致就是必然,这种前沿科技最好你看商业模式,第一大部分 ToB 因为 ToC 的话更做不好,第二呢就是必然, ToB 的时候也会导致很多的定制。
所以导致 AI 到今天大头还是落在 ToB 上。
朱笑虎说第一波大模型的爆发肯定在 ToB 领域。
看规律肯定是这样子,当你技术不成熟,然后需求也不清晰的时候,肯定是只有找一些大的企业,其实对他们来说也是一种所谓的创新,所以只有他们愿意为这个创新去买单嘛,对吧?
所以肯定就是说这种新的技术可能就是在一些比较大的企业的 ToB 就面向大的企业的 ToB 先跑,然后当你这个技术变成从一个前沿技术变成了一个非前沿或者普通技术,技术成熟度能做什么,技术边界也很清楚,大姐摸到了用户到底能用这个技术能干啥,那这个时候可能是 ToC 可能会更有机会。
那你经历了这 12 年的创业敲钟的那一刻,嗯,你当时在想什么?
就你要我讲真话吗?
讲真话啊,就那一个,因为我上台之前。
我一个朋友,他参加过很多次这个敲钟,他说你待会上去的时候,你要摆好一个这个姿势,这样拍照片好看。
第二呢,就中药敲得响一点。
所以在那一刻我想的就是说。
第一,我这个姿势要摆好,这样大家能拍照,别否则就是随便敲一下,那可能演员就没拍就结束了对吧?
第二呢?
就是因为当时他说要声音要响一点的时候,我第一反应就是我要敲重。
后来我就特别担心他这个锤子会被我就前面他不是有一个布的那个东西吗,会被我敲飞,所以我就提醒自己不要太重。
我当时想的就这个事情下面在想什么?
没有,就是我觉得确实收获了人生。
照片就是我觉得对我来说就那一天,我觉得我是在做一个非常机械的角色,因为很多人给我拍照,我还要做一个所谓的一分钟呃 30 秒还是一分钟的演讲,还要穿的西装,这个其实是我特别不喜欢的哦,哈哈哈,对我特别特别特别不喜欢,所以那一天对我来说就是度日如年,哈哈哈。
那那一天完成以后,晚上要回家了,或者回酒店了,你当时进入一个人的状态,你在想什么呢?
其实其实其实真的没有什么太多感觉,就其实你看那一天是交中那一天是比较确定的,反而交中前一天就是我说这个整个上市过程有各种各样的,这个东西有可能过不去,或者说唉,有有可能会延迟,对吧,就前基本上到前一天晚上敲钟前一天晚上第二天的事情,就是就是一个形式就确定的,所以我觉得没什么太多想法。
对。
真的。
不过我觉得你这个过程还是能看得出,一个前沿科技要进入真正的被大众所用到,还是一个非常漫长的过程。
对啊,那当然远远比你想象的漫长。
而且有一个所谓的漏斗模型嘛,嗯,就是大部分所谓的前沿科技最后都会消失掉的。
比如说你有 100 个前沿科技,可能就是说能经过这个漏斗模型的这个检验,就是能够从一个技术包装成一个产品,呃能能形成一个商业模式,而且技术的投入跟最后你商业产生的价值能产生一个匹配,使得你这个可持续。
就是大部分技术都经历,不过在当时那个时间点经历不了这个漏斗的检验。
当然并不说这个技术没用啊,比如说他这个东西可能 11 年以后又回来了,就是因为环境变了,技术成熟了,然后需求成熟了,或者有新的需求出现,那你这个技术呢,又重新拿出来,可以去经历这么一个 NODE 模型的检验,这个是很正常的。
过去 12 年你看到过的没有漏下来的技术,就已经消失在创业者的视野里的有哪些?
很简单。
比如说当时你看 2013 年 的 Google 眼镜,就是典型的那个很酷很炫。
我记得当时大家包括我们自己都说啊,我们看到了未来,就感觉未来的世界就是应该这样子的,就戴了眼,真是 little 的,就是看到了未来,因为戴了眼镜嘛,对吧?
就是你感觉所有的世界都被 AI 给数字化了,但是很快这个产品就包括 AR、 VR 这整个行业,确实经历了这么多年都没有发展起来。
但是比如说我们现在看这个最新的 GPD4O, 或者是 Google 的,对吧?
它也延伸了一个眼睛嘛,但你觉得你又看到了未来。
其实你确实回来了。
嗯。
对对,这就是我觉得就是前沿科技的特征。
前沿科技创业充满了不确定性。
那当然了,就是你看比如说很多如果是非科技的创业,如果你是商业模式的创新对吧,那你可能是在一个成熟的市场去可能用一种新的模式去颠覆别人,但是从技术角度来说,你技术只是这个起点,技术产品商业化至少有这 3 个环节,那这每一个环节,刚才说了这个漏斗可能都会帮你漏掉,因为呃,不成熟,或者说最后就是不匹配。
今天大规模投入大模型投早了没?
我们讲一个宽泛的未来是很简单的,比如说未来一定是 AI 的时代,甚至我可能在 2014 年 我就说每一个公司都会有一个人工智能部门,这个其实都某种程度上都是很简单的一种判断,这这就所谓的一个微视嘛,对未来。
但是我觉得真正重要的是说你需要有一个路径跟这个节奏的判断,就因为你刚才问的是一个节奏或者是路径的问题对吧?
今天的大模型它是不是应该这么投入,对吧?
然后第一步该干什么,第二步该干什么,我觉得这可能是更加重要的问题,创业者要花更多时间去思考这个。
呃,有一句话,没有路径和节奏规划的微省都是耍流氓,真的是这样,包括我们自己都很容易说啊,你看我几年前我就判断了这个怎么怎么样对吧?
就感觉就是运气不好,然后没有成功对吧?
那其实不是的,你只是一个很粗糙的想法而已,机制有这个粗糙的想法,正常的人都会有,基本上不太会差的很离谱的。
但核心真正几种不行,能不能成功,对吧?
我觉得可能是这个路径跟节奏的规划,比如说做大模型啊,就是有几种情况。
第一种情况是说,如果是巨头跟这个创业公司同时达成了一个共识,但这个共识都是错的,那在这种情况下谁会死?
那肯定是创业公司,因为它熬不下去嘛,对吧?
这是一种情况。
另外一种情况是说,创业公司先于巨头半年一年形成了某种对未来的这个认知,而且有一端说有一个比较精准的规划,对吧?
然后呢,巨头呢,可能在一年以后,那这个时候创业公司有一定的概率成功,就是你可以利用这一年的时间差,你能不能建立某一种壁垒,对吧?
就是如果你建立不了壁垒,我觉得创建公司也会死。
所以就说你做前科技,就如果非常抽象的说啊,真正的做前科技公司,就你能不能够在第一有个先发优势,第二呢,你能够利用这个先发优势建立一个还不错的壁垒,或者找到某一种模式,是巨头看不到的,这是可能你唯一能够如果在一个比较竞争比较激烈的赛道里边唯一能够生存下去的一个可能性。
但我这说的是一个非常理性的一个东西,因为其实还有很多别的因素,我刚才是讲本质就是这样子,但是比如说你还有资本的这种不确定性,就算你这个东西一看就是没希望,但有就是有一个投资者,他就是要给你 10 亿美金或者是多少亿美金让你去搞这个事情,那可能你这个就刚才那个紧迫感,就是我说你一定要在一年就找到这个先发优势带来的壁垒的,可能又给你续了一条命嘛,说白了就是你可以可能再等个两年,对吧?
这个我觉得绝大部分最好绝大部分创这个前沿科技公司能活下来,可能也要有这种比较好的怨气的因素在这里面,对吧?
否则就是确实这个很残酷。
由于在今天中国这种前沿科技的竞争是非常充分的,甚至你在 2012 年 的时候,我刚回来创业的时候,我觉得那个时候中国的科技公司没那么强,资本没那么发达,所以这个时候我可以利用一个因为我是宫格的科学家的身份,我可能获得一个不应该存在的优势,就在今天,可能这个优势都不存在了。
今天太多了是吧?
对啊,就是大家都见多了是的。
那我们然后回来聊一聊最近的这几场大模型公司的发布会,因为这一周真的是太密集了。
他们为什么都选择这个时间啊?
先是零一万物在 open i 前一天,然后 open AI, Google 字节,今天又有腾讯云的发布会诶。
5 月 份嘛,这年终总结嘛,所以这个这个能理解,而且本来 Google IO 就每年都差不多都是这个时候对吧?
open API 也许就是看了 Google IO 的事情前一天随便搞了一个事情,我不知道啊。
这个怎么看这次 open i 的发布有就是让你觉得亮眼。
我觉得他们两个 Google IO 跟那个 GBD4O, 从他们这个两两个表现出来的东西,就是说也是共识非常强烈的一个事情,第一个就是你看两个公司都在把这个多模态作为一个最主要的啊事情,第二呢,都做这个助手,所以我觉得就是说从这个角度来说,可能也是因为其实你看多模态,可能去年 rt two 出来的时候,其实它就是基于语言模型,然后再加上这个视觉,再加上动作,就是 VL, 呃, VLA 嘛对吧,那个在我看来就是说它是一个 PORTAL type, 他至少证明了这种语言模型为基础,然后把别的模态加进去,然后混合成一个单一的模型是可行的。
后来那个我忘了 jemeline 是什么时候发布的,就是他也是同样的路线,但是那个时候我觉得就是你看 Amlin 的肯定没有这么大的影响力。
我觉得这次 open AI 他把这个多模态模型能够做出来的应用的想象空间给打开了,这个我觉得是虽然我们回过来看,我们都觉得这不是很直白的嘛,但是没有一个人能够做一个实时的演示给你看的时候,其实我们都还是我们的信念是不牢固的,所以就是看到他们这两家就是说就很显然这个第一次多模态可能就是非常重要的,可能最重要的可能全文本的语言模型,它作为一个应用形态其实是没有什么,我自己觉得它不会成为一个主流的东西,就是纯语言、纯文本的,它作为一个应用形态。
chase BD。
现在这种东西对我觉得一定是中国态的。
这个我确实去年 12 月 份在那个阿里云,那个当时不是阿里云组织的一个活动嘛,对,就 CC 在杭州,对,我就说这个多模态是 c 位,不是花瓶。
因为那个时候可能就觉得大家觉得多模态就是做玩玩嘛,第一次,但可能大家也没有意识到这个东西有多重要。
第二,觉得技术还不一定搞得定。
所以我觉得这次给我一个特别强烈的感感知就是第一就是说这个技术发展是非常非常快的,你看那个时候就是我觉得隐隐约约觉得这个阿迪兔觉得多模态的流程能跑通,然后 Jamie 呢,就是演示了一些东西,但是就说我觉得立马到现在只有半年的时间,它这还是个 demo 啊,实际我们还不知道啊,能够看到一个可以实时的交互的一个助手,而且是在这个交互的过程中,真的是 AI 就像一个圆一样,他可以参与多元的讨论,可以跟你开一起开会。
我觉得这个东西,任何激进的人在去年那个时候,从如果你从技术原理角度去思考啊,我觉得都应该都不会觉得有那么快的,这是从那个技术层面。
第二个,从这个应用层面,就是说助手对吧?
其实就是以前,比如说你看我们做语音助手,就是语音交互,做实时这个事情是不新鲜的,但是就是说不是基于大语言模型的对吧?
而且以前是所谓的 PIPELINE, 就有降噪唤醒对吧?
有这个语音识别,然后自然语言理解,搜索,然后对话,然后 TTS, 大概有七八个步骤,就做一个语音交互。
如果说你用以前的小的 NLP 的模型,那你是可以做到实时,但是以前的语音助手大家都知道就很智障他,他不能够跟你进行一个自由的对话,就他经常答非所问。
那后来有了大模型以后,去年对吧,那大家开始把这个串起来,那他确实好处就是比以前更加聪明了,但是很大的问题就是延时很大嘛,那现在就说,诶,又没有智障,然后还又是实时,这个是一个新的东西,多模态的这种交互,我认为是就是说就如果你只是一个文字对不对?
那你可能就说你要做一个,就你想想如果一个人他只会说话,他没有眼睛,他不能够做多模态的感知或者是动作的时候,那他你任何事情都得用文字的方式去给他描述,这个效率得多低。
而且就是说你看现在他这个就是说唉,真正的人是说我就是一个多模态的动物,我的交互就是多模态的,就是我说的话的时候,我可能要做一些动作,我也给你看一个什么东西,包括微信聊天,我也给你发个视频,他是这么一个一个动物态的交互过程。
这一次这两个助手的发布,我觉得就基本上你可以看到它就是跟像人一样的交流,所以我觉得这个是可能是确实是很新的一个事情。
它这一次核心突破的技术难题是什么?
第一,我们也不知道,呃,因为它没有写论文案对吧?
我们都是猜测啊。
这个先先要免责,这里边有几个点啊,第一个点就是说它是一个大一统的模型,对单一的模型,这个特别重要。
年初还在说这个非常难。
对,肯定是难的这个事情啊,这第一是它的大意图模型,就是各个模态在同一个模型里边。
第二呢,就说我觉得它应该大概率是基于 GBD 这个架构。
这个是我一直想强调的一个事情,就是说我认为就说语言模型最大的作用就是建立了这个认知的基础,因为有了认知,你做很多事情就会好很多。
我一直举一个例子,比如说你要教一只猴子炒菜,跟你教一个小朋友,哪怕 6 岁的小朋友炒菜,就是难度是不一样的,因为这个小朋友建立了对这个世界的认知,他有个认知模型,炒菜的时候你用可以用语言跟他描述怎么炒对吧?
然后很多常识他都有一只猴子他可能就是没有认知的基础,炒菜这个本身是一个多模态或者是一个聚成智能的任务对吧?
嗯,所以就是说有了认知模型的基础,我觉得就是说你后面的多模态,什么聚生智能,什么 agent 才有可能,这第一它是大一统的模型,第二呢就是刚才讲的,就是它是以这个语言模型作为一个认知的基础,在这个模型里边去加入别的很多感知的模态。
我认为呃要做到它这个效果还是有一定难度的,就是为什么呢?
比如说我们模型工坊那个模型对吧?
它的原理也是这样的。
首先我把这个声音,我也把它变成 TOKEN。
这里边说你要把它变成大一统的模型,可能很重要的一个基础就是要能被所有的模态都能变成 TOKEN, 跟文本一样。
像我们的那个模型工坊的配音的模型,我们确实就是去年 4 月 份就开始说,而我在语言模型的基础之上,我加入声音的训练,然后呢,声音呢,全部都是跟文本一样变成 TOKEN, 无论是输入输出都是 TOKEN。
它这个模型,比如说我们的语言模型可能是非常小的,也就是说他就只能做配音这个事情,即使你要,如果你要去问,他说很复杂的这种各种问题啊,知识类的呀,百科类的呀,或者甚至推理类的东西,他可能都不行,因为他的语言模型太弱了。
那你可能会问,就是说那你为啥不用一个大的语言模型,然后在大的语言模型呃基础之上去加声音呢,对吧?
一个就是你要有一个很强的语言模型,而且因为你的声音的数据是非常少的,那你语言模型的数据是非常多的对不对?
那这个时候你的声音加进去,可能你这个模型出来连发音都发不出来。
而你看到现在他这个东西,一方面他又能够做语音的生成跟理解,另外一方面他的语言能力本身就文本的语言,那个认知能力没有下降,甚至你看到那个博客上的那些指标啊,什么在那个 MMLU 上面,这个 4O 的模型的文本的认知能力是强于 GBD4 的,这个我认为是还是很难的。
就你怎么能够做一个超大规模的模型,有认知的能力,在这个基础上呢,又又能够加入多模态的能力,而且之间呢,完全都是用 Prom 的,能自由切换。
通过 Prom 的方式,比如说你去比如说 Zara, 那可能就很难做到这种。
对,你可能用 prompt 的方式,可以自由地去给他 instruction, 去做各种各样的事情。
所以这个事就是以 GBT 为基础,就是一个统一的架构,所有的 TOKEN 进去,然后呢,又有认知,又有很大的认知的能力,加入别的模态,能够自由的切换,我认为这个还是很大的一个突破。
复刻它有多难,它是需要的是更多的算力,算法还是数据?
我觉得就是看见以后大家产生信仰就没那么难了,但是过去这一切都证明了这个东西,比如 sorry 啊,这个东西你想象不出来吗?
也想象得出来, GPT2 之后就没有什么新东西了。
所以原理上我觉得所有的一切都能够想得出来,都能预知到。
但是就是说第一是你有没有这个钱,第二呢,你就算有这个钱,你是不是能有这个信仰,说我就是把这个钱全部砸进去,就干这么一个事情,就是用这条技术路线。
这个是更难的地方,就是包括哪怕是今天,比如说我不知道你们有没有注意到,比如说它这个模型,它的助手的模型是没有视频生成的,它的视频生成,无论是 Google 还是 Openai, 又是另外单独的一个模型,它现在是有声音的生成,就在那个大一统的模型里边,它应该是没有视频生成的。
那这是为什么?
对啊。
这就是因为 Zara 它就不是用这个所谓的自回归,不是用 GBT 的架构,大家都说它是用 did 嘛,就是 Difusion 的架构嘛,嗯,所以就说我就一直觉得很好奇,对吧,就是说 OPAI 它作为 GPT 的始祖,那他们为什么没有?
呃,但我相信他一定在做啊,对吧,他一定就是说,但是他第一个版本或者他发出来这个 sorry, 他就不是用自回归的呀,也就是说这个东西没有被人做出来。
第二呢,就是说,就算做出来,没有人对这东西有信仰,说我就是应该用一个自回归的模型,就是无论是理解跟生成,多模态的理解跟生成在一个模型里边,全部都是自回归。
这个当然我相信 OPAI 一定有人在做,但是他是不是把这个东西当做一个 all in 的方向,这个不清楚。
TBT for o 和 Sara 相对来说哪个更重要啊?
对于今年的大模型市场来说。
我偏向于认为我自己的信仰啊,就是但,但有没有钱是另外一回事,我的信仰是我认为就应该这个大一统的模型应该基于这个自回归,理解跟生成放在一起。
骚扰其实是另外一个分支去了。
呃,它是只是生成,它是基于这个 difusion, 不是基于这个自回归的。
它可能是 open i, 可能上面还有很多团队,它自己长出来的一个团队,是的,他的那个也很年轻,他的一个对。
因为对啊,工程师,他也有自己的信仰嘛,他觉得自回归不靠谱,他觉得低学生更靠谱,然后可能他就相信那个东西。
为什么我觉得从这个整个长期来说,我认为自回归就应该统一这个东西,就是因为自回归他可以提供一个,第一是已经证明了,你看声音是放在自回归模型里边,确实非常好,而且就是 GBD 是典型的智慧归模型嘛,对吧?
它是很好的好处就是你可以通过 prompt 的方式非常自由的跟它进行交互,然后你可以做所谓的 feature, 就是它可以做 in context learning, 这样的话你就可以很快的适应这种新的任务。
也就是说从最终的用户的角度来说,这种是会能提供一个非常自由的接口,这可能是过去这两年大模型如果从除了原理以外,这是最大的突破,就是因为你可以通过语言,通过这种 prompt 的方式,或者你给他举例子,他就能够给你立马学会这种新任务的这种能力,这可能是最大的进步。
所以我觉得我们应该在这个 GBT 最大的优势继续往下去发展。
而且事实上现在就至少目前看,你从那么演示来看,除了视频的生成不在这里边以外,因为图片的理解也在里边了,因为理解跟深圳就是具体的技技术细节有一些不一样,但不管怎么样,就说他只差了一个视频的生成。
就是在那个视频是更难一些嘛,所以最晚才进来。
因为视频就是说肯定就是比如说你呃就从一个很细的细节啊,比如说你一秒钟可能就说几个字,或者你能打几个字,然后声音,如果我们要把它 tokenize 成 token 的话,一般现在的这个 tokenize 或者说 codec 可能就是说几十个 token 一秒钟对吧,这样才能做到无审的那个表示嘛。
然后如果是你一个视频的话,可能要是可能就要几百个 TOKEN 一秒钟,它是一个文字到声音到视频,每一个都是至少是一个数量级的 TOKEN 长度的要求的提升,因为这个 TOKEN 长度就决定了 LGBT 的 inference 成本速度能不能够实时都完全取决于这个 TOKEN 的长度,就是在模型规模是一样的情况下,就是你的上下文到底有多长。
就是我不知道大家有没有注到一个细节, Google 不是说他发布了这个模型是 200 万的 TOKEN, 就是你看他说这个可以是什么 10 万行代码还是什么来的,就是差不多是可以放进 10 万行代码,两个小时的视频。
这个东西其实我觉得是非常有意思的一个东西,就是说如果你有 200 万的 TOKEN, 未来也就是说你把一个小时视频放在这个 GBD 里面去,你是可以对他进行非常深度的理解。
但这次他们没怎么去讲这方面的应用啊,但我觉得是非常革命性的,比如说我们看 Google 好像有个例子,就是说比如说 index 你所有照片,然后呢,那个照片你可以问一个问题,说诶,我的小孩子什么时候学会游泳的?
他是怎么一步一步进步的对吧?
你想想一个人你要把所有的照片翻出来,你要总结出来都比较难,但是一旦你发,那 index 就是把所有的图片跟视频放在一个 context 里边,然后又有语言模型的这种认知能力抽象能力,那他就能回答这种以前完全不可能的问题啊,包括就是比如说你现在给他一个先空录像,你知道当时最发生的一个事件可能是有两个,呃,你知道是在几点到几点之间,比如说 8 点 到 10 点 之间,那你只用把这个两个小时的视频塞给未来多模态的模型对吧?
然后你问,你用自然语言问他一个问题,你说这个里边的当时这个人是假设啊,就是他是怎么摔倒的,就是假设是最后的结果,就有人摔倒了,伤得很厉害,然后他跟别人说我是被那个人推倒的,其实记不记得他是有能力,是把整个来龙去脉全部给你,总结得很清楚,就如果他也声音也落地了对吧?
当时他们是怎么炒的,因为什么原因炒,炒了谁先动手,动手以后又是到底是黑的还是他自己假装倒下去了?
那你想你一个一个原因要去分析,整个过程你可能要看好久对吧?
但是未来有这个多模态的模型就很简单。
我注意到他们对于这个模型有一个描述是他更具有人性,更具有人性背后是什么作为支撑的?
就他其实想说的,就是说因为是一个端到端的系统,比如说这个声音的对话过程中,因为以前的 pipeline 的系统,你的很多信息,因为是个 pipeline 嘛,你说一句话,我先做语音识别,然后呢转成文字,然后文字再去理解理解呢,我再去找一个答案,找了一个答案呢,我再又把它转成这个声音,是这么每一个步骤,比如说你说的那句话做语音识别过来的时候,你的情感的那些标签都没了,就是以前就是没有说你当时说那句话的情感是什么,那我回来的时候也不可能有对应的正确的情感嘛。
但是如果一到端到端就没有刚才那几个步骤,所有的信息全部都在一个模型里面,没有被丢掉,所以这个时候才能像人一样说,唉,你当你跟我分享今天一个很开心的这个消息的时候,那我可能是哇,什么什么对吧,就会做出这样的反应。
对,更多是一切的一切都是因为端到端,端到端的背后是说你在一个大一统的模型里边糅合了所有这个东西。
你没有做 PIPELINE 的决定,因为你做 PIPELINE 就是我前面丢掉了信息,后面就看不见了。
嘿!
它为什么叫 GBT 做 o 啊?
o 不就全能嘛。
为什么 open i 这几次发布它都没有延展它的主线,就我们以为的可能会把 GBT4.5 或者 GBT5, 但是还先发了一个 story, 又发了一个 GBT4O。
是不是也说明技术迭代曲线方法就是我觉得看你期望的技术迭代是哪个方向,如果你期待的迭代方向是说,呃,它的推理能力,规划能力变得更更强,那肯定现在是没有,对吧?
如果你的期望是说他能够更加有用,真正应用呢?
基于 GBD 的模型能做出很好的应用,那我认为这个多模态是更重要的,因为你的推理跟规划考的是你的智商,但是呢,就说你这个模型能不能够能说话,能看图,能生成视频,能有这个动作,这作为一个人对吧?
就是你要在社会上去进行交互,并不见得每个人都需要 180 的智商,但是你总的能说话,你能走路,你能告,对吧?
我认为这些技术点是更重要的,而且我觉得这个东西也同样的难,就是刚才说到,就是说你在语言模型加入别的模态,你既能保持语言模型的能力,又能别的能力也能够进去。
这个事情呢,不是一个呃那么容易的事情,你可能要做好多实验。
这也是从这点角度说,我们必须给 open AI、 Google 这种 credit 的。
大家都说啊,没什么新的技术,那你做一个给我看看嘛,对不对?
就是为啥人家就是第一个做出来嘛。
那就只能说明了两点,第一,人家珍惜,有钱,因为他可能做了各种各样的实验,因为他有钱,可以同时做很多实验,对吧?
第二呢,人家的人才密度还是强。
就这些人,一方面有理论的,对未来有自己的判断,对吧,对算法的原理非常清楚,有很强的工程能力,他们就是代表了这个全世界最前沿的这个团队,而且他们在推动的这个技术方向的进步,就是比如说学术界对吧,那学术界讲这个多模态的理论肯定是一大堆的,各种各样的理论,但是你想想如果不是这两个公司面对这个全球所有的眼光,在他们所所有的眼光的关注下高度竞争,怎么可能半年的时间能够从去年的 RT, two 什么 Gemini 到今天这个地步呢?
如果是靠学术或者靠咱们别的这些没钱的公司,或者人才密度不靠强的公司,可能 10 年都不会有这种进展。
在所有人的目光瞩目下做实验。
对。
我觉得这个我们还是得给他们这个足够尊重。
你怎么看后来 Google 在第二天的反击呢?
对他们两个的表现谁更优?
这两个就是真的是两个演员的感,演员就是两个不同时代的企业,或者甚至两个不同属性的企业。
高佳总结的很好,就是说 Google 的发布会就是有特别像一个看国企各个部门的汇报的会议,哈哈哈,他不是发了 100 多个产品对吧,然后每个部门上来讲 5 分钟,讲 10 分钟,然后呢,又搞了一堆新的产品的名字,比如说你看视频,视频生成又搞了一个 view, 以前他名字就已经多到我都记不住了,什么 video port world, 什么 Lumia 什么什么一大堆对吧,最近又搞了一个新的名字,我不明白他到底想干啥对吧?
所以从这个角度来说啊,整个发布会的效果,当然你不知道 OKR 是不是提前知道了,就是提前就临时搞了一个发布会啊。
为什么你们是这么猜的?
网上不有很多照片,他们那个版你看三个奥特曼也没上去嘛,就是一个二三十个人的,就做了一个演示。
对,我觉得这就是两种不同的风格,我觉得呢,都应该给他们足够的尊重。
还是比如说 Google, 我觉得他的不同的认知就是说你看 OK, 我的搜索引擎可以这么搞,我的照片应用可以这么搞,我的 Gmail 可以这么搞,我的 YouTube 可以这么搞。
就除了基础模型本身的提升以外啊,他给大家看到的是很多这种多模态的 AI 能够成熟的时候,能够跟他以前的这种海量用户的应用结合起来,会有什么样的想象空间?
我觉得这个效果还是达到了,只不过就是对绝大部分普通吃瓜群众来说呢,他这个效果就很差,搞了两个多小时,针对人家 20 分钟,而且人家比你早一天,因为所有的观众都是你前一天做到了,你第二天还一样的话,就觉得你就超,虽然那不可能超,怎么超嘛,对吧,怎么可能超得这么快。
对 Google, 除了他们的汇报形式,对他们技术呢?
实际技术你觉得和 open and 不一样是吗?
我看不出来,我觉得就是高度的同质化吧。
就是搜索能力呢?
就是我觉得一方面是模型的能力嘛,一方面是这个模型跟应用结合的能力嘛,我觉得从模型的能力角度来说,我看不出有什么本质性的差别,但是从展现出来的应用形态,我觉得那 Google 还是更加强大的,肯定是更加丰富的一个生态嘛,嗯,因为它从 TPU 到操作系里面怎么操作,系统,什么边缘计算,对吧?
再到上面的这个各种应用的结合,全部都有吧。
比如说它跟搜索结合,会蚕食它原有的搜索时长。
用户的习惯的迁移,这肯定发生,那这对他来说不是一个问题,就是一个升级换代码。
你可能问的就是更多,就是对他已有的商业模式会不会是有一个挑战?
对。
比如说广告。
对,比如广告这种商业模式会怎么样,对吧?
这个我没有很强的判断,但我的直觉就是说,多模态的这种模型,这种交互,一定会让你广告的形式会变得更加丰富,更加精准。
所以从这个角度来说,我认为是不会的。
在 open i 开发布会的与此同时,伊利也离职了,你怎么看待他的离职让你觉得对于后续 open i 有什么影响?
我其实发了一个朋友圈嘛,就是以今天我大概重复一下那个观点对吧,就是我觉得今天 open AI 肯定从技术能力角度来说,肯定不缺一个一点,但我觉得就是说很多时候一个技术 leader 的作用就是你怎么能呃做一个技术战略的取舍这个东西,第一这个人需要有很强的技术的 vision, 对未来有个很强烈的判断,第二呢,它是有这种真正做大的决策的自信心跟能力,还有呢,大家要信任他啊,我觉得至少如果去看以前的 GBT 的这些, GBD1、 GBD3 这些,我认为都是要有信仰的,这个决策应该是起到了这个作用。
现在比如说我们刚才前面聊到的,说你的 GBT 的模型能不能够把视频生成也做到这里边来,而且全部就是大一统的这种自回归的这种方式。
这个可能就是一个好赌,如果你没赌对,可能真的你就是花了很多钱,然后你可能比 Google 比另外一个赌的就晚了 3 个月,现在的竞争是晚三个月,那是很致命的对吧?
但是如果你读对了,那你可能就领胜 3 个月。
所以这个就是我觉得 open AI 这样的公司肯定是需要这样的技术 leader, 他们的 CEO 是绝对不可能有这种能力的,那他新的这些什么首席科学家有没有这个能力?
这个我们不知道,因为没有有太多他的信息。
我觉得这可能是我那个朋友圈是写的很叫什么大使大得,大赌大赢对吧?
其实这个听起来很玄乎,但事实上就是这样的。
你想想当年那个 GPT1 的时候对吧,他能够就说因为 bird 很快出来,大家的所有的学术界全部都认为 bird 是对的,他们就搞 de code only, 而这个东西还是带来很多好处的对吧,就是简单嘛,能通用嘛,包括就是你在做 GBD3 的时候,你能够第一个做 1751 的参数,把公司所有的计算资源全部往这里面怼,我认为这是一个是需要,比如说我去做这个事情,我可能就做不了这个决定,你下面的人都是聪明人,都会告诉你这个不靠谱,那个不靠谱,每个人都都对吧,包括就说唉,都会跟你抢,说算力,你不应该这样,对吧?
但我们不知道一点具体的角色是啥,但不管怎么样,他当时手机科学家,没有他的许可,他哪怕不阻拦,就是很大的一个决策,他不一定要自己提出这个选择,他甚至都不需要去做这个,选哪一个,他只要做出一个决策,说 OK, 我 OK, 因为他是负责一个责任的嘛,对吧?
嗯,比如说你一个没有这个微信的人,他肯定说那我们再讨论一下,或者我们再想想,或者是你们两个都做错,时间给我看一看,大部分这个这种角色的他会这样子对吧?
所以我觉得一两更多是这样的角色。
就是因为我觉得在未来这个技术本身肯定是没有说啊一定就一定是这样 open 呀,要要要能他还得往前走。
要一直。
而且他大概对他的期望不是一个普通的公司嘛,他是要真的要有很强的反共识能力的,不要有很强的这种赌博的这个能力的。
那这些东西新的 CEO, 别的那些人我觉得肯定是没这种能力的。
因为他不懂你怎么看项目这个人啊。
我觉得他现在也比以前更有争议了。
我非常不喜欢这个人。
为什么非常不喜欢?
我看过他只是采访,但我这个观念是在去年就形成了。
我后来我也懒得关注他。
我从来都不关注他这个采访是在他们那个宫斗事件发生之前诶。
我去年三四月份的时候,我看过一年的几次采访,我看过这个 Sam 的几次采访,至少我作为一个观众啊,我从来没有从他的采访里面获得任何认知,听到的全部都是废话,政治正确的话。
然后一年呢,你能他能够跟你他是一个工程师,同时又是带有一点哲学家的这种味道,也是一个科学家,他能够把哲学的思考跟科学的信仰到工程的最终大概我们应该怎么做取舍,就是你能看到他的感受到他很背后的很多这种思考跟他的这个思想,而且我认为他还是一个至少从这个采访啊是一个比较真诚的人,你问他问题的时候,他会尽量的去正面的回答你,就从这两种风格,我天然就不会喜欢 Sam 的这种风格。
你觉 Sam 不真诚?
一点都不真诚, bluff 很多在自己不懂的地方呢,装饰,哈哈哈。
糊弄一下。
对啊,然后呢,就是非常浮夸,比如说动不得就是言必称 API, 什么芯片要用 7 万亿,是 7 万亿对吧,就是我觉得,因为可能就我的世界是这样,如果我觉得你这个人说的话都不靠谱,你说的任何东西我都不想听的。
诶,那马斯克是这样的吗?
所以我觉得他们的特点我其实有一次我是总结过的,我觉得他们就是宏大叙事,有限交付,这是他们的特点,很看他们的,他们特征就是我先跟你搞一个宏大叙事的一个事情对吧,让大姐说哇,你就是来自未来的人对吧?
但是他们跟那些骗子不太一样,因为绝大部骗子是不做交付的,他们做有限的交付,他的交付跟他那个前面说的一定是差距很大的。
我我本来有一次我想发个朋友圈,我觉得这对科技来说挺可悲的,某种程度上是很可悲,但是呢,后来我也理我没发誓。
我觉得可能对普通大众来说呢,只有他们这种才能够大众才能认同他们,才能理解这个科技,才愿意给他们更多关注,有了关注他才能拿到更多资源。
对吧?
你的 Sam 跟马斯克是一类人?
我觉得是,哈哈。
我觉得一楼 mask 可能如果在这两个之间呢?
我可能会更加偏向于一种 mask, 虽然他也是就是大嘴巴对吧,或者说宏大叙事,无限吹牛,但是呢,最后做有限的交付,往下一个方向跑对吧?
但是我觉得 inner Max 给人的感觉呢,比如说你不管怎么样,他做的这个电动车这个事情是非常非常难的,他能够就是这么坚持的做下去。
而且确实他虽然是宏大叙事,但我也觉得他应该还是在一线,要干很多事情,从这个角度来说。
思杰下午不在一线?
我不知道,我没看到,至少就是我,我就跟他说,我觉得我也不认识他对吧,就是从我的角度,我只是从一个很抽象的角度去看这个人。
对啊,这个很有意思。
这个难道不是共识吗?
会,大家会说厦门是一个很政治化的人,但是我没有听过别人说我特别不喜欢他。
就我觉得,某种程度上我觉得他会把 open 亚带向一个很平庸的境地。
同一个大公司。
能不能成为一个大公司还是一个问题,但是他会把 open 亚带向一个平庸的公司。
你觉得 GPT5 比你想象的来得晚吗?
我一点不关心这种东西哦?
为什么呀?
就模型能力的提升这条线。
你会怎么不是 GBD5 只是个数字,你都不知道 GBD5 有什么,你为什么关心这个?
而且我自己觉得吧,我还是觉得就是如果你要我选择,我认为就是说在今天 GP 的基础之上,把多模态真真把它做好,因为就现在这次的,无论是 Google 的还是 Openai 的,对吧?
它只是一个演示,而且这个演示是这些工程师产品经理自己在演示,不是普通用户的使用,我能想象在接下来的,比如说,哪怕是你我这样的科技用户,运用一定是跟他的演示东西是天差地别的,更别说那些硅谷以外的世界。
因为我们以前做语音助手,我,我演示给你看的时候,你都觉得我哇,就是以前我演示给所有人都讲,哇这个好好棒好棒好棒。
然后一旦买了我们的手表,用了我们的云助手,我就变成终身客服,哈哈哈。
你知道吧,因为你的科技嘛,刚才前面讲到,前沿科技很大的问题是不成熟,对吧?
嗯,所以我觉得就是说我更期待的是说他们真的能够把这个多模态的模型做到极致,这个东西决定了能不能够有好的应用。
你推理能力,第一是技术突破会比较难,第二呢,就是说我觉得今天大模型没有出现 Keyler APP, 并不是因为 GPD 的智商还不够好,而是因为刚才说的这些,比如多模态就是一个非常重要的一个 peace, 没有这个东西我觉得就很难,这个应用的空间很难很难打开。
所以就是我更希望就是多模态做得足够好。
然后呢,第二呢,能够把生成跟理解都统一到多模态的这个大模型里边,而且是最好就是用我说的自回归这种方式。
然后在这个之后呢,能够把这个多模态的下一步,就是我能够把预申智能的东西结合进去。
因为还有动作嘛,也是在这个架构里面。
对。
然后在后面才是说,唉,我的推理能力是不是有更强的提高,然后这个以后才会有所谓的 agent, 如果说我们一定要有一条路径啊,我认为这条路径比比如说现在转 agent 的,我认为就是没有意义的,因为你的基础根本就不踏实,就空中劳格,我去年就说过,去年就是没有好的多模态,没有好的这个推理能力,你在 agent 就是空中劳格,那如果这样的话,你今天做的所有东西都是在我看来都是浪费时间。
聚生智能现在的瓶颈是什么?
那个又是完全的,第一是我们如果纯粹从算法原理角度来说对吧?
我刚才说你这种智能肯定需要有多模态,因为一旦涉及到一个物理世界,就是一个多模态的世界,那你还有后面就是你得有这个环境的这个适配的能力,比如说今天的 PPT 的模型,它是不会动态适配的,它现在的环境就是一个语言的虚拟,虚语言构造的虚拟的环境。
说的很抽象,它就是这么一回事,因为它就是个虚拟世界嘛,对吧?
但是一到物理世界,为啥一定要有多么太难?
因为物理世界,比如说你进来这我这个房间对吧?
机器人,我首先得有摄像头吧?
嗯,我得有各种传感器、碰撞传感器,我才能感知我周边这个环境,但是光感知还不够,我还得适,我还得 Adaptive, 就适应它,因为否则的话,我这个模型就不通用嘛,我换一个房间,你这个机器人就不行了。
所以这些东西我觉得都是很难,但是我觉得多模态这种聚神智能环境的适应,我觉得这些问题至少从原理上是和解的,但是你说推理能力能够变得多强,已有的这种套路可能真的是不无解的,因为你现在大学套路无非就是说我用更大的规模嘛,在已有的这个架构里面你可能也加入不了,虽然什么 q star 对吧,但那些东西我们都没看到嘛。
所以就是总结来说,与其去追问说 GPD5 什么时候出来,推理能力能什么时候变强,我更多追问的是说你这个多模态的模型,现在已经 demo 的能不能够做得非常的稳定,真的是可用,这个是我觉得需要很多技术上的呃打磨的。
第二呢,你的视频的这个生成什么,能不能那都集合到这里面,第三就是什么聚成智能东西能不能加进去?
第四才是说这个推理啊这种东西,然后再什么 agent。
你觉得中国公司追这个,他们刚发布的这些形态需要多长时间?
好追吗?
就是我觉得如果只是加上声音的模态,这应该不是那么难的。
这个不好说,你看因为他这次是图片视频声音文本,以文本为基础,后面三个东西都在里边。
那如果只是加声音,比如说我们自己就做出来,只是我们那个声音模型只能做配音,不能做问答,原因是因为我们那个语言模型不够大。
那我们只要突破的就是语言模型足够大了以后,我还是这个声音还能够用,但是这个呢,我就只能做一个语音助手,我觉得做一个端到端的语音助手这个事情我感觉是应该不是那么难的,但是就是说你加入了图片跟视频的模态行不行,这个不好说,而且包括你能不能做到实时,就是刚才讲到,就是说你看为什么语音这个实时他立马就做到了,因为这个只需要以今天 GBT 这个 TOKEN 的 inference 的能力,比如说一秒钟你能够出几十个 TOKEN 就够了,因为声音就是一秒钟,压缩下来就是几十个 TOKEN, 所以基本上你只要把刚才那个东西跑通了,你可能某种人上,你什么都不用干,它自然就能做到实时。
嗯,但视频我们刚才说了,它是又是可能 20,跟声,跟声音比是你需要压缩的东西,它那个一秒钟表示的东西可能需要 20 倍,也就说你今天的这个 GBT, 如果你这个大的模型,你要在视频上做到实时,就是精细的实时啊,就是你可能需要 20 倍的速度的提升,这个推理,那这个东西我认为本身是肯定是有挑战的,对吧?
当然就是这里边我也挺困惑的,就是说比如你看 Google 那个戴的那个眼镜对吧,戴的眼镜不是看起来也有一个实时的东西嘛,对吧,就是实时的视频的,这个可以实时的拍的视频,然后就可以做分析嘛,对吧?
那他是怎么做到的对吧?
我的解释就是说,因为他可能就是做了高度的压缩,就是比如说如果你真的拿了一个摄像头,你从这里拍过去,他可能会 miss 掉很多信息,就是有些问题他就是回答不出来的,嗯,所以他不是一个精细,就是能够每一帧你都能够很精细地进行分析,然后后面要问问题的时候,每一帧他都能回答的对吧?
因为反正我就总共就我 1 秒钟,我就只能处理几十个 TOKEN, 那你现在的视频呢,我要做进一步,正常情况下比正常情况下还要做 10 倍的压缩,那那必然就丢失了很多信息,所以我就说你刚才说问题,就是说我要做到这个实时的系统图片视频,我认为这个还是有一定难度的。
而且中国的绝大部分模型公司据我所知都还在转语言模型,根本就没有多模态的能力,就是多模态模型都还没没没跑通呢。
对,那你用豆包没?
你怎么看自己的那个发布会啊,这两家开完了以后,字节在国内又开始卷。
我从去年 4 月 份我就觉得就是这样子的,必然就这样子嘛。
这有什么,字节大降价?
必然这样子,而且会趋向于 0,无限接近于 0,因为就是说真的,这个不是我瞎说啊,比如说我去年 9 月 份 10 月 份,我跟一个大模型创业者聊天,我问他诶,现在有什么商业模式,然后他说他在,我现在在国内有什么收入,他说除了他们的 APP 里面的收入以外,他以 API 调用的收入,当时我就说了出来,我觉得这个东西我建议你现在就直接把它关掉。
大模型创业公司吗?
就这几家呀?
对,就是 API 的调用,我说这个东西,因为他当时跟我说一年能收,反正也收不少钱啊,具体数字我就不说,反正是比较大的一个数字。
我觉得这个东西肯定是不可持续的,就是没有道理说你能够到明年还能收到这个钱,所以我的意思说这是闭源的 OK, API 的调用的成本会接近于零,这是必然的。
第二呢,说到字节,这样的形式在我们 AI1.0 时代就出现过,比如说语音识别, TTS 的调用对吧,包括做项目对吧,巨头,当时他们要搞 ToB 嘛,一进来就是免费,或者说真的是,就是什么 1 元中标不都有吗,你记得吧,哈哈哈,哦,对不对,只不过他们过去这几年因为经经济不好消停了,那字节他不是 ToB 很弱嘛,对吧,他进来他能有什么招呢?
那不就是又重来一遍呗。
我觉得这个就是说句不好听的,这种大公司其实所有公司都一样,就是穷的只剩下钱。
那怎么办?
那就只能这么搞,没有什么想象力。
字节的人说,他们预计 24 年 年底到 25 年 初,企业的大模型盗用量将出现一个陡峭上升,流量激增的拐点,你认同吗?
有可能啊,但是 what?
呃就用起来了?
大模型对整个生态是好事啊。
嗯,对创业者不是好事,以 API 为商业模式的公司不是好事,对整个生态对用户来说都是好事。
就是说白了就是巨头们免费请大家用大模型挺好的。
但是你对,比如说我对一个模型公司,或者说我以前以 API 调用为主要商业模式的,那这个时候可能真的就是你得重新想想你的商业模式是啥?
包括 open 一下自己带模型公司未来会怎么样呢?
唉,我不知道,我没法回答他们会怎么样,就是我觉得吧,但是我可以讲一些抽象的东西,我觉得今天所有的大模型公司,或者在大模型赛道创业的公司,包括我们这样的公司,我觉得都思考的几个最核心的问题就是说,第一,还是我刚才说的,我们想象一下 3 年、5 年以后,这个充分竞争之后,你的位置在哪里?
这个我就是这是最核心的一个问题。
基于这个再往下想的,就是说你到底能有一个什么可持续的商业模式?
有上一代的那种做项目制的,我觉得这种商业模式至少是太苦了,对科技公司来说啊,就苦的就是说都没意思了,我就做的对吧,就是你有是不是有一个和持续的这个商业模式,然后呢,就是那你要想的就是说好当那个第一是你能不能找到那个生态的自己的一个定位嘛,生态的定位对吧?
呃,这个东西是很难的,就算你能找到,那个时候你还活不活的,或者说是为了到那个时候出现了这么一个位置的时候,你的能力是不是就是叫什么呃,不要出现隔不配位对吧,你有没有这个能力?
比如说你今天如果说你现在认为未来我是要大模型公司,我需要有一个自己的超级 APP, 有比较大的用户流量,然后我的商业模式呢,是广告变现。
假如说啊,那这个事你今天就得琢磨的是说我真的能 hold 住那个位置吗?
对,什么意思呢?
就是说比如说我公司是不是有很强的这个产品的能力?
我真的是不是能够了解用户的需求,很敏锐的抓到他们的某一个就很小的点,然后做起来对吧?
我有没有很强的这个做产品的能力?
我有没有这种呃商业化的能力?
包括如果说你,如果国内你觉得不行,我要做,海外我有没有国际化的能力?
然后才是之前模型的能力,我的意思说,作为大模型公司也好,做应用,或者说我们说揣摩一体的公司也好,可能都得思考这个问题,因为未来非常不确定。
我们能做的一切能做的事情就是我今天让我自己尽量准备好。
产模一体指的是产品跟模型一起做。
呃,如果说你不想做上一代的那种 ToB 项目制的公司,那可能这是唯一的一条路,因为只做产品呢,我认为至少在未来三五年,因为这个模型本身还在,一直都在变化,不可能有一个非常成熟,完全符合你产品需求的,然后你还能建立壁垒的一个产品,这个可能比较难。
所以最后的壁垒就是说你能不能靠产品跟模型一起做,在产品中收到一些独有的数据,而不是互联网上的那些公开的数据,某种程度上呢,形成一个所谓的数据赋能,那你就可能能够做出一些不一样的模型,你的产品呢,有一些不一样的竞争力。
你最近跟他们交流觉得怎么样啊?
AI 创业者、大模型创业者今年的状态大家是什么样的?
我不太跟大家交流。
因为我记得去年下半年说我现在交流的反而就是非科技企业。
我看你写了个朋友圈。
对对,真心觉得,就说因为科技企业的,因为自己,我自己做了很多年嘛,我有很自己很强烈的一些观点,某种人上来我也是挺悲观的,这个应该能看得出来。
我觉得呢,呃,没有什么新鲜事,基本上还是熟悉的套路,对吧?
就是如果定制化小做项目,你说的熟悉的套路是这个吗?
嗯,就是 to VC 基本上都这样了嘛。
然后呢,很难找到自己的产品或者商业模式,这些问题都是这。
这个不是说现在的创业者不行啊,都很厉害,这个咱们必须承认,但是我的意思说,还是没有突破这个过去的这些惯性,当然你要突破惯性本来就是很难的,对吧?
所以我自己觉得对我呃更有启发或者更有意思的反而就是我。
因为我在武汉上学啊,最近有一些 CEO, 他们是卖大米的,卖饺子的,然后卖那个零食的,这些人我认为都是非常厉害的人,因为他们不是靠我们说我有一个高学历,我有个什么宫格科学家的光环,然后莫名其妙就有人给了我很多钱,然后就开始搞他们。
不是的对吧,人家都是从 0 到 1,一步一步一个脚印真正做出来,所以他们反而是对这个行业是有据深洞察的,就是哪怕你卖个大米,比如说我跟你去卖大米,我们亏得一塌糊涂,肯定的在人家就能卖出,一年卖几十个亿,然后赚几个亿。
有学到什么门门道道没?
我觉得是第一是学习他们思考的方式,其实这些人反而因为他所处的行业是一些传统行业,他是可以很多方法论是可以用,可以用得比较深的,因为科技行业最大的问题是不确定嘛,刚才前面讲到,反而你很多方法论都是不知道怎么应用,这也不定那也不定。
是锤子找钉子,对啊。
就会导致你就是说你的,甚至有时候我以前我就刻意我就是什么战略什么鬼,我就觉得这个东西都没什么用嘛,对吧。
但是就是我说那些传统行业,因为它更多是它已经发展了这么多年,它其实形成了很多底层的这个逻辑,经营逻辑,对吧?
所以他们也是非常强调说这个本质是什么,最底层的逻辑是啥?
我很喜欢这就是听他们说,唉,为啥?
我就比如说你看开个餐馆,这个没什么任何门槛,为什么,凭什么是你能做到这么大,那他就会跟你去讲,他们呃,是怎么思考这个行业,他找到了某一个什么点,然后又是怎么慢慢的把它放大,唉,我觉得了解这个过程,对我们去思考科技是有帮助的,为什么呢?
因为他那个东西是日常的东西,没有那么多不确定,技术没有不确定性,用户需求没有不确定性,他把这个问题呢,就变得很容易理解。
拿的那个问题再来思考科技呢,那你就是想哪些东西是你尽量把它那些不确定的,你把它扔出去对吧?
把确定的东西找出来,那你可能就能套用那些方法论,或者至少其实方法论并不代表你一定就能做好一个公司,很多时候但是至少能帮助你理解这个行业是怎么回事。
那你找到了什么样的方法论呢?
在科技的行业里面能找到确定性。
所以说你看就是,比如说我特别不喜欢讲战略。
最近我可能跟别人一聊天。
一聊就聊到战略,对吧?
比如说你看战略,其实我们每一个公司,只要你 CEO, 你一定做过战略,哪怕是就是你最好做一个很好的财务的预测,未来三年的这个预算的规划,这个东西本身就是一个战略的结果,就是如果你能把这个东西做到极致,其实你的战略是没问题的,但是你可能从来都没有思考过战略,你到底思考过什么东西,你的方法论是啥?
但是我觉得比如说包括在武汉学习,还有最近跟别人聊,就是跟传统的那个聊,我就觉得就说比如说你战略,你就是第一要找到几个要素,你对未来有个 vision, give 这个 vision, 那你找到自己的定位,主要两个东西,一个就是你的这个用户价值的定位,就是你为什么用户提供什么样的价值,这可能是最最根本的东西。
其次就是说我刚才说的,因为科技行业上所在的竞争是非常激烈的,你的所谓的生态位市场,你有了这个东西以后你再去想,唉,定位也很清晰,对未来想想,你对未来的看法也很清晰,你才说我短期定一个什么目标对吧?
有了目标呢,你接下来就找,那我到达这个目标的路径跟节奏是什么?
就你看,就这我自己说他叫什么?
战略 6 要素你说这个东西,以前可能我去做很多选择的时候,我的脑海中隐隐约约也想过这个东西,但是我从来没有这么清晰的去说,哦,只有 6 个要素,这六个要素里边我要问什么问题,甚至以前想的很多东西的时候,你可能就是 miss 掉其中一个很重要的因素的。
我们失败的例子,比如说我们 2015 年 去做这个智能手表,不能说失败,我说从战略角度来说也许就是不对的啊。
回过来去看,为什么呢?
就说比如说做智能手表这个事情,可能五年以后就是没有所谓的生态位的,就是在竞充分竞争的情况下,就是因为手机厂商都会做,他一定做,而且是关键是他顺带的做做就可以做得很好啊,因为他能力跟他的手机是完全通用的,是重合的,那这个时候确实就说那个时候,那可能如果我那个时候有这个方法,那我可能会更加努力的,会去思考, OK, 我选择做正能手表,那我在 5 年以后,当巨头都进入,都充分的投入的时候,我怎么去占住一个位置,嗯,对吧,那我可能会去想更多的差异化呀,或者我的执行度会有一些不一样啊,对吧?
这个我自己觉得是。
那你还会做智能手表?
我们现在在做,我们做海外嘛,但是比如说我们,可能我瞎说啊,这个东西都是不能假设的对吧,比如说当年第一天我就 all in 做海外,我不做国内,第二我不做那么多智能硬件,这就我们刚才说的,因为你利用有限的时间差,你能够建立一个壁垒,那可能就是如果从成功学的角度来说,他可能就会,那我们可能的状态可能会更加成功,而且关键核心是他逼着你思考。
这个可能说的有点玄乎啊,但是我觉得确实就是说今天的,由于现在这个创业,因为现在大家都知道融资不好融对吧,那你的呃经济环境也不确定,那是需要有很强的战略选择能力,因为你没有那么多子弹,你可能就一发子弹,打完了就没了,你就结束了。
过去十年是资本泡沫,科技泡沫,中国经济上行,你打完一发,这投资者又给你两发,对吧?
那你可以多做几次选择,你可以多尝试几次,但现在我觉得是没有那种奢侈的。
我觉得还挺有意思的,因为面对大模型,其实每个句子和他的做法都不一样。
你看阿里就激进的跟他的阿里云绑定,做法相对激进。
腾讯就很佛,字节搞大降价,你怎么看他们每一个公司的这种做法?
还包括百度,百度和字节都是一把手工程啊。
我觉得每一个公司,他又说了战略,每个公司都是基于自己的状态,对自己的认知做出了一个惯性的选择。
比如腾讯,他急啥呢?
不用急,有微信怕啥,对吧?
有数据有场景,晚 3 个月跟早 3 个月有什么区别?
我一直这样观点对吧?
而且我觉得他确实就更多考虑,就是说他应该花更多时间去思考这个大模型给用户带来的价值到底是啥,阿里不一直都是流量焦虑嘛,所以他在这个东西上他一定是要更加激进。
而且阿里云确实未来大模型的能力在一个公有云的平台上肯定是非常重要,可能是最重要的一种能力,如果你没有这个能力,你的原生意义都不一定能够持续。
但是我觉得它的好处就是它可以不靠大模型赚钱,就大模型对他来说就是一个引流的东西,他最后是卖服务器,卖算力,就是卖卖卖,卖那些云服务。
所以这个是我自己觉得他们是比较如果做得好,是比较稳的字节,他就应该干这个事情嘛,因为他有能力,他现在也很强大,而且确实呃呃这种因为大模型,很多东西生成社会的内容有很大的变化的对吧?
嗯,比如说你现在很多都是员工在生成内容,未来是不是真的 AI UGC, 先 AI 生成,然后 user 再去做一些微调,对吧?
就是 AI UGC 这种形态可能未来就会很厉害。
如果说你现在不去投入,那你可能你的最主要的业务也会也会出问题,百度也一样,因为很显然就说大模型跟搜索的结合,这个是一个未来的趋势,今天工作就已经演示给你看了,反正你不升级,那别人会升级,那你怎么办?
所以我的意思说,在我看来都是很自然的选择,现在很难受的或者很口碑的,就是说谁有没有什么独特的招式,就是因为这个东西看不清楚啊。
比如说我们在创业公司里边,我认为我我找了一个稍微不一样的招式,比如说我就是做这个 AI 机器的工具,商业模式就是这个会员,我呢也不提供,至少我的主要商业模式不是给你提供个 API, 或者给你 ToB 做项目的定制,我也不是这靠 ToC 的用户来做订阅。
世界上绝大部分大模型创业公司都是刚才那三种。
你看 Chat GBD 就是做 API 的调用收费,然后呢?
呃, Chat GBD 会员的收费,当然他不做项目的定制。
别的很多创业公司可能就是做项目的定制收费,我们不做那 3 种,我们找的是一个所谓的 professional consumer 啊,我提供的呢,也不是一个 ToC 的 APP, 但我也不是个 ToB 的定制,我是一个创作者的更加专业一点的工具,所以目前认为,我认为我们找到一个比较独特的定位,但是这个东西就是刚才说到,比如三年、五年以后,那你这个位置还存在吗?
比如说如果这个剪映它全部都免费,做得比你还好,那你怎么办?
那你就得每次逼着我去想的,就是说因为剪映是一个 ToC 的 APP, 在我看来啊,目前的现状就是,比如说它的配音,它也有配音,但都是免费的,它可能就没有这个非常专业的一些功能,比如说我们声音和有几千个声音的选择,它可能就没那么多我们的那个声音生成有很多编辑的功能,呃,中毒啊,连毒啊你都可以弄,它可能就不一定有这么丰富。
所以这个就是短期这种是比较独特的,但是长期你这种独特性还能不能够牵引住这个用户,而且是关键是能不能收到钱,这东西是一个巨大的亏损码。
那我们要做的就是说,我就上次那个曾明教授给我呃,形容我们的状态,我觉得形容得特别好啊,当时我们班上把我这个作为一个案例嘛,我提的问题就是说在未来的 AI GC 这个时代,三五年以后,我们这些 AI 工具还有没有生态位嘛?
他的答案就是一定没有。
但是他说我,我觉得你已经做得最好了,为啥?
他说你今天就是在一个局势特别不明朗的大海中,你呢是在一块浮冰上,就你现在做的事情,在一块浮冰上,但至少你不在水下,你在冰上,但是呢你这个东西随时可能这个冰就会化掉或者会翻,对吧?
所以你要有的姿态就是低功耗的运转,同时呢非常敏锐的砸汗,周边有没有尖兵,一旦有尖兵,你要准备好,你还有能力跳上去。
唉,我觉得这是讲得很好啊,我觉得今天所有的大模型公司可能都得以这种姿态去,你就算找到了商业模式,现在就算你用户量,你也是在一块浮冰上,你是不牢号的对不对?
所以呢,在这个浮冰上,你能做的就是你不要晃动得很厉害,因为你自己会摔下去嘛,对吧?
能量,所以你要低功耗的运作那,但你要同时呢,要练各种各样的功夫,然后同时保持这个对周围的警惕敏锐。
一旦有新的所谓的 AI native 的这个形式的出现,你能不能够快速地跃迁到那一块真正有用户需求,有长期的商业价值,有生态位的这个产品形态?
如果你看到了,你能不能告以最快的速度跳上去低功耗的运转。
是不是意味着不能去投入做 GPT4, 不能投入去赶 GPT5?
我本来就不做这个事情了。
其他人呢?
其实你看就说,我觉得世界上如果我们简单粗暴,我们所有的这一切都是为了简单化才能讨论嘛,跟模型或者应用有关系的,我们把它分成三类公司。
一类公司就是这些要带领人内往前找的 cut code。
大模模型公司一类是说利用大模型,比如利用开源,最好的开源自己去在那个基础上去开发,但是他还是要拥有自己的模型能力。
字节 host 自己的模型,不是调用第一类公司的 API, 这是第二类公司。
第三类公司就是说你就是调用第一类的 API, 或者说是第二类公司帮你做个定制。
首先就是我们看全世界范围内,第一类公司可能就是不超过 10 个或者是十几个,中国可能三四个,因为这个是你需要,比如说腾讯阿里或者字节你不能用 AMA 的开源了,那你必须自己从头开始搞,这个没办法,但是这种的是一个持久战,消耗是非常厉害的,我认为觉得大概率只有巨头能够坚持下去,因为他们不靠这个赚钱,他有别的现金流的业务,他可以一年亏十几亿美金,20 亿美金去搞这个事情,他的人才密度也足够好,只不过他稍微慢一点。
所以这第一类,那我觉得绝大部分跟 AI 创业的公司应该都归属于第二类公司。
第二类公司就是什么叫低功耗,就是说莱马这样的开源的模型,他把前面的基础训练的事情给做了,就花了几千万美金,或者是每次升级花呃几个亿美金,对吧?
那你在这个基础之上,你有去修改它的能力,其实没什么区别。
本质上啊,就是要建立这个能力也是挺不容易的,就是你基本上所有的那些什么 Pre training, find tuning, 什么 online 的 inference 的优化,你都要自己做一遍的。
但你肯定跟第一类比,就是说因为你的投资算力就不用那么大,就绝大部公司,应该是说在这个里边,我去拥有自己的模型的能力,去为我的应用去。
我刚才说的是什么采模结合,采模一体,这个可能中国有四五十个这样的公司,就包括二线的,就除了巨头以外的互联网公司,包括我们这样的创业公司,我觉得应该都属于这么一个嗯类别。
第三类就是应用方,应用方呢,他们刚开始一定也会挣扎的想做第二类公司,他们知道他肯定做不到第一类公司,他肯定想做第二类公司,因为他想自己控制嘛。
但是折腾了一阵子呢,他一定会发现这个东西不靠谱的,投入产出比不靠谱,自己搞不定,嗯,可能真的是。
比如说自己花 1000 万没搞定,你给什么 100 万?
给第二类公司给你搞得很好的。
但它有个过程,就是回答你刚刚那个问题啊,就是说所谓低功耗,我觉得第二类公司是可以说低功耗的,做模型,然后呢,同时去做自己的产品,呃,也是存在一种可能性,就是当 AI native 的机会出现的时候,或者说适合你的机会出现的时候,你是有能力纵身一跃跳到那个尖兵上,因为你在尖兵上,你可能就接下来可以 5 年可以躺着赚钱。
这个我觉得是所有的这个模型公司也好,做跟大模型相关的应用也好,可能都得思考。
哎呀, native 为什么还没有爆发?
因为本身大模型,也就是年度,我们就期望不能太高,对吧?
嗯,我觉得已经是非常快了。
第二是我还是觉得就是说没有多模态这种东西,就是做不好。
应用有多模态,然后成本足够便宜,这两个东西我觉得现在已经慢慢地浮现出来了。
所以我觉得就未来一年、两年,呃,应用肯定还是有很多形式的,它不一定是终局。
包括我一直觉得今天我们做的所有的东西,可能都是一个短暂的产品形态、短暂的商业模式,这是有可能的。
但是我刚才说德勤,就是说你能不能够在这个过程中建立一些比较核心的能力,当有新的商业模式、新的产品形态出现的时候,你有能力去过渡到那个新的范式下面去回望你这 12 年。
你觉得你心理上的高点和低点分别是在什么时候啊?
就是我们当年拿了 Google 的钱以后,我们一路狂奔的做各种算法,做语音助手,然后呢?
语音助手,你看我们的很狂妄啊。
为什么说首先要定义下一代的人机交互,结果用户不争气,人又回到了以前老的交互方式,那我们说好,那我们定义下一代的人机交互设备,就是所有的催手机以外的,我认为自然语言交互会比较好的场景我都做。
我觉得那就是非常膨胀啊,确实我们的理念都没问题,如果你是一个大公司,在一个无限资源的情况下走,比如说我们当时 2017 年, 我们的应该是 17 年 吧,因为我们当时已经有手表、耳机、音箱,车载的设备嘛,我们说我们要做一个跨场景的 VPA, VPA 就是虚拟个人助理,就现在的助理对吧,啊,因为我觉得助理的特色就第一,你要改变语音交互,你必须要有这个用户,就是说用这个助手是一个高频的应用,当时还有我说要 30% 以上的交互时间是在这种非手机设备以上,然后我们做的就是说这个 VPN 呢,必须无处不在,因为否则说你想不起来,因为他是你的一个助理,如果这个助理他是你的秘书,如果说你一个月才想起来一次,你可能你就觉得这个秘书对你没啥用,你得每天都想起他,那这个时候你就是各种场景都要包括掉,然后呢,他无所不能对吧,所以这个是我们当时的一个跨场景的全能虚拟个人助理嘛,确实我们就是一直顺着那个,我们当时做了很多场景联动的东西,比如说我有个视频,我对着耳机说我要买单,啪,手表弹出一个二维码,这是联动嘛,对吧?
这个其实做了很多事情能够联动的,但是就是说这个,我是现在回过头来看呢,就是说如果我作为一个大公司的高管,我去 drive 这个什么虚拟个人处理的项目,这个没问题啊,因为比如说 Google 这样的公司,每年不知道浪费多少钱,最好一个想都没有,我起码能搞出各种新概念,就比如说搞个发布会,一定不像他现在那样子,但是就是你作为一个创业公司,那个就是妄念嘛,就你怎么可能靠一个小创业公司推动用户习惯的改变,你还怪用户不争气?
他们很快地适应了上一代的人际交互方式。
然后呢,你还想一个设备没有成为主流的时候。
你就想所有的设备一起能够联动,但你想想那个交叉同时买你的手表、音响、耳机、车载的人有几个呢?
那是非常少的对不对?
所以这都是属于妄念。
我觉得就是脖子还是要以小博大啊,你不可能做一个生态,对,靠自己来做。
对,你不能以一己之力去说改变整个交互方式,你觉得现在这个不行,我就自己干,我觉得这就是非常的失败的案例,这就很狂妄啊,而且就是对商业竞争,对刚才说战略的选择,对所谓的生态位什么路径?
至少不思考。
我不记得你当时是拿了多少钱,这么狂妄?
大众那个时候拿了 1.8 亿美金嘛,前面 Google 拿了 4000 万美金嘛。
哦,拿这么多钱是什么感觉?
不然多了我其实没感,我觉得这个可能说起来可能投资觉得我不靠谱啊,我连账号在哪都没有搞明白。
我自己我从来不看的。
我到财务看,对。
就是我,很早就是我们公司,我就有个理念,专业化的人干专业的事情,这不属于我的。
哈哈哈。
哦,然后你没有看过你的账上自己?
我真的就是到了 201 19 年 的时候才意识到,哦,没钱了,花那么多很快的。
哦, 18 年 的时候,那个时候我们 1000 多人,公司的项目简直就是多如牛毛。
是,外界也是这么感觉的。
外界?
我也不知道外界怎么讲。
呃那你看,那个时候其实是我最勤奋的时候。
这就是典型的用战术的勤奋掩盖战略的难度。
我每天从早大晚去开会就就可能从早晨 10 点 一般啊,然后吃饭都是开会的,傍晚也是,晚饭也是开会的。
我应该跟你讲过这个故事啊,真的是有一次我一个朋友,其实他也是高管,京东的高管这个你都可以去跟他对我是不是说过这句话,我跟他吃完饭以后我突然看到那个太阳降落的时候,然后我跟他说这可能是我最近两个月以来第一次看到太阳降落的这个状态哦哈哈哈两个月以来因为以前我从来都是在办公室一直在开会因为办公室没窗户啊,不是你没时间就往窗外看了,因为那时候在骂人呢,就是各种烂事情嘛。
你想想,我一个算法工程师,我们要做硬件,而且是做那么多硬件,做海外,做国内,各种东西都做嘛。
但其实自己还是挺兴奋的,因为通过那两年,我是觉得我了解了很多以前我从来不了解的东西,学习了很多,从学习角度来说是非常快,虽然很累,但是很快乐。
什么供应链,什么硬件,对吧?
海外市场怎么搞,国内怎么搞对吧?
但是唯一少想的就是竞争是啥,定位是啥。
没有没有太多这种思考,更多是做事情。
你是先想了一个大的愿景,对。
然后你就拿我们就是典型的使命驱动,这个我们是少有的,可能就是说在 2012 年, PPT 写写就写下我们的使命是定义下一代的人机交互啊哈哈哈。
第一页使命定义下一代人机交互做到 14 年 的时候,觉得下一代的人机交互定义不了了,因为用户已经习惯了上一代的人机交互,然后说好改定义下一代的人机交互设备。
你就找那个入口,对。
因为你交互方式的改变是一定要除了软件本身以外,一定要硬件配合的嘛。
但是你这个想法就有点是你自己安插的。
就是我对未来有一对未来莫名其有一个莫名其妙的微省嘛,但是没有实际的,刚才说战略的六要素我只有第一个嘛,也没有想,我的用户价值定位是什么,我的生态位的定位是啥?
也没有想。
目标,短期的目标以及路径跟节奏都没有想啊。
你什么时候意识到公司没钱了?
19 年 了。
19 年 是不 19 年 也不是没钱,前几天那个复胜还是我凡尔赛嘛,说因为我们 19 年 是我们账上只剩下 4 个亿还是 3 个亿嘛?
人民币是吧?
对,这么多?
对啊。
这人这人家去应该 4 个亿。
是。
但是你要知道那个时候只有我自己很清楚,因为我们工资就花 3 个多亿一年。
对。
然后呢?
然后我们那个所有的卖硬件本身应该是不赚钱的,还有一堆库存,我们有 4 个亿的库存,那你想想吧,然后我有 1000 多个人,那你怎么能够转得过来呢?
你 1000 多个人发 3 对不是?
对啊,为什么这么贵啊?
这很正常啊,因为我们还有线下门店啊,当时我们还有线下门店呢,我有 20 个线线下门店。
我我的意思就是很多人觉得是凡尔赛,真不是凡尔赛,那个时候是我真真真正感受到这个公司会死掉的。
我这个确实是,比如说即使前面回忆起来真的是这样子的,顾客没给钱,我们也会死掉,可能我们账上也只剩下三四个月的钱,只是我没有去看而已,没有想过。
Google 可能我们 4000 万美金, 2014 年, 我们 17 年 那个时候应该就没钱了。
也是比如说因为我们是 2017 年 4 月 份,大众给了我们 1.8 亿美金,如果他晚给四个月可能也挂了,只是我不知道而已。
诶,那两笔融资是怎么拿到的?
我觉得那个时候真的就是中国一片欣欣向荣啊,你看包括 Google 对中国也是有想法的,想安卓进入中国啊什么的对吧?
那现在大家都没想法了对吧,大众是极度的焦虑的,因为他觉得他跟 AI 时代完全脱钩嘛,所以就是我觉得并不是说现在,当时我们觉得牛逼轰轰,觉得是我们自己牛逼对吧。
那其实你想想跟你有啥关系啊,人家战略投资你不是因为你有多牛,而是因为人家想干一个什么事情,人家冯某就是人家想干这个事情啊,然后他在市场上找了一个 OK 你,就你吧。
当然这个过我觉得你可能唯一牛的就说他可能差了 5 个。
正好选了你,就是他选择了你。
不是说你选择了他 20 年 最少钱的时候还有三四个亿。
我 2019 年 我们就是做了很多优化嘛,本来我觉得 2019 年 差不多就是这个公司要触底反弹了嘛,其实现在想想,就算没有疫情也不能触底反弹的, OK, 但当时很多时候创业者真的就是幻觉,很厉害的,就是幻觉啊,就是觉得,噢,我记得我还写过给全仍然写过一封信吧,说我们接下来就是换挡加速,换个挡吧,然后加速,然后呢,我们接下来就是要盈亏平衡,怎么怎么样。
因为我觉得其实我们那个时候 2019 年 也就裁了 25% 的人,一点都不多,但是我认为动作已经很大了,我觉得啊,接下来可以活下来了,就是因为你对未来想象的说啊,我这个硬件能卖多少钱,我的 ToB 能怎么怎么样,就你发现,创业者真的是有的时候最近这一个月收了 1000 万,就开始想,哦,那我平均一个月估计接下来做 2000 万,一年有 12 个月,那我就接下来一年的收入有 2.4 个亿。
你知道吧,真的很多会这么犯觉得,但其实你这个月做了 1000 万,也许下个月就只有 500 万了。
你比如 ToB 的单子对吧?
没有人承诺你所有收入是增长。
就是很多人幻觉到就是说才做 1000 万,你问他营收多少,我两点几个亿。
但是其实可能因为你其实没有一个可持续的商业模式,而且核心的就是说哪怕 ToC 也一样,你没有考虑到竞争。
我们以前就这样,我们发了一个新品,第一个月卖了 2000 万,我就会想啊,那我这个产品很好,可以卖 2.4 个亿,结果再过两个月,三星发了一个竞品,你啪,你这个东西就一个月只能卖,从 2000 万就只能卖 1000 万了,这个其实是很多创呃这个此类的人就是创业者幻,觉得非常厉害,我甚至遇到过那种,比如说现在我跟你聊天,这个从 CEO 跟我讲的啊,我们要做海外,我们要怎么怎么样对吧,你感觉哇,都一副崇拜或者羡慕的表情。
看来哇真好,我要去他这个公司就好了。
结果明天你看新闻说他们公司一半裁员。
我遇到过很多这样的情况,就是也就是说创业者他为了坚持下去啊,就是得自己幻,觉得很厉害。
他是为了坚持下去主动幻觉,还是他就是这种性格,容易幻觉,可能不能幻觉。
某种程度上,你不幻觉真的坚持不下去。
你想想,如果你知道你明天就要裁员就挂掉,你今天还有什么心思来跟我吹牛呢,对吧?
因为他当时想跟我们谈一个合作,跟我说啊,什么什么这个巨头也看我们,要投我们,那个巨头也看我们,然后我们的业务怎么怎么样啊,我们接下来有什么规划啊,当时我就哇,真棒,哈哈哈。
所以我觉得就是刚才说的那个第一股嘛,第一股就是 2020 年 就疫情嘛,因为我觉得判断 2019 年 判断觉得我们应该触底反弹,我们要换挡, 2020 年 就是加速, 2019 年 是换挡的这个阶段,但结果疫情不就来了嘛,就是你不但没有触底反弹,那个底还有那么深,就那那个时候,我觉得是 2020 年 肯定是非常就你说的低点,我觉得我都抑郁了那个时候。
你那个时候公司还是有现金的。
也没多少了,可能只剩下两个亿了吧又哈哈。
剩下两个亿还是有垫底的呀。
但是我这我哦你你要不上一你要明白我觉得这个很多公司真的没有理解到这种一个科技公司,你要做一个产品,弄一个技术,跑一个模式出来,没有两三年是跑不通的,我们当时所有的过去那些产品跟模式,我认为它都是亏钱的,那也只能寄希望说呃,有一个新的产品能够扭转这个格局对吧?
嗯,但是这个过程没有两三年是不可能的。
有多少钱才能垫底一直对于一个前沿科技创新公司来说。
那就看你公司规模嘛,但我我觉得永远就是你至少要有 18 个月的现金流嘛,嗯,未来如果没有 18 个月,我觉得就基本上就很难了。
比如说你有一部分的营收呢?
营收看你有没有毛利啊,你的营销成本有多高啊。
所以后来怎么度过的那个节点?
2020 年, 嗯,继续裁员呢?
从心态上就是躺平了。
甚至这个可能讲出是真的不太好,甚至我都觉得就是说我有意识的。
就是说因为我当时我不想跟任何人说话了,我觉得我就是表现出来给别人就觉得这个公司 CEO 已经不想干活了,因为我们当时公公司还是人才,很多人还是想干活有抱负的,所以那些贵的人他们就离开了,就觉得你 CEO 都感觉不想干活了。
这可能是我的战略性躺平吧。
不,这一方面是我状态就是很不不想跟别人说话,也呃更别说打鸡血。
我所有的我做的事情就是你把这个团队给我砍掉,或者说这个有五个人给我砍成一个人,我们的那些负责人就跟我说那就会崩盘这个事情,我说那就崩吧,没关系的,我做的。
那你给 n 加几啊?
裁员 n 加一。
都是 n 加一。
那还不错,基本上还是没有落什么纠纷,所以 2020 年 我认为是比较你才到多少啊?
那个时候只剩 300 人不到吧,好像才是 700,很多是主动离开的哦,确实很多人,那也包括我们当时在南京,我们把我们的这个总部迁在南京,北京只出不进,要进只能在南京进。
如果说我自己判断说确实没有这么加这一个人可能会崩盘的情况下,我给他说好,那你在南京,我给你个 head count, 嗯啊,通过主动控制 headcount, 通过战略性躺平,对,还做了一个事情,就是算 PML, 就你刚才说的那个,每一个产品线,每一个小业务,我给它分得很细,你的成本多少,你的人力成本怎么分摊的,公摊怎么剩给你,分摊给你,你看算下来你是亏钱的,你怎么办?
以前在 2020 年 之前,所有的业务的人都会跑过来跟我要人,说啊我这个人不够,我这个什么什么的。
自从把那个 PNL 给算出来以后,没有人找我要人的,都是主动我要来招个人,但是我不行,我这个养不活。
我觉得这些你看这个撇开战略,这个战术性的东西也是挺有用的。
就是这些动作呢,还是包括你看我们当时我我给你举个例子,有多夸张,当时我们公司有 4 个 it, 我们现在公司就一个 it, 当时我们有 4 个 it 的时候,我们要搬个家,我们还得请外包,因为搬家的时候 it 系统要重新网线啊什么这个店呐什么,要从他们说他们搞不定,需要外包公司来帮忙才能搬个家,我们现在一个 it 搬个家也不会请外面的 it 公司。
哈哈哈,这听起来我们的 it 同学听了不要骂我,但是就是我就想告诉你,其实吧,很多公司的泡沫是很厉害的,尤其是在这个科技公司。
这个状况就一直持续到了 23 年。
2020 年 是很难嘛?
我们不是 21 年 我们就母婴工坊出来了嘛?
呃不不, 2020 年 就出来了,母婴工坊 201 21 年 下半年就很好了嘛,而且大众汽车我们跟他谈了一个 deal 嘛,拿到了新的钱嘛。
就缓过来了。
至少觉得离死亡没那么近。
接近过创业死亡的人。
我觉得是,但我觉得我们这个听起来惨,对吧,但你跟绝大部分那些传统公司的惨,那都不能比。
人家那个真的可能就是下个月公司就没钱。
很多这种非科技公司,因为科技公司我们还是得知足,就是确实是市场给了你足够多的关注力,然后给了你足够多的钱,那你非科技公司,很多公司如果是你这么烂的一个公司,我觉得我们就是烂公司。
那个啥,就是你这么不确定的,自己思考战略啊,什么怎么竞争啊,对吧,那你就是该死啊。
那二三年大模型这一波来其实对你们是积极的对吧?
我觉得呢,看你怎么看,就是从大家对我们公司的认,因为可能 23 年也没人关注我们了,可能很多人觉得我们公司已经死掉了,二三年之前应该就是很多人觉得我们公司已经死了,只是还有个名字在那而已。
我觉得可能就是 2023 年 之后,可能又有一些人会想起还有这么一个公司。
这个关注你做不做大模型啊?
这个可能还是有些好处的。
呃,我觉得不好的地方其实是我觉得我们在 2020 年 我就找到了一条比较,就刚才说通用的大模型嘛,只是规模不大,包括我们还有做 AI 机器的应用,我们 2020 年 我们做配音, 21 年 我们也做数字源,包括 21 年 也做过协作使不成功,因为那个时候模型的推理速度啊,通用性啊,也没有 instruction tuning 啊这种东西,对吧,所以就是效果不好。
二三年之后,我觉得就是说一方面就我们肯定是跟别的公司一样,因为这个技术更成熟了,那我们以前很多产品做不好体验的,现在能做好,我觉得这是有好处的。
但是你说从竞争的角度来说呢,本来我觉得吧,我们可以按照我们的节奏,也不受人关注,比如说我就安安静静的做这些工具,也没人关注你,也没人知道你有什么营收,呃,其实这是挺好的。
其实你看我在二三年之前,我从来没有发过什么魔音工坊的任何东西,在我的朋友圈,我就是刻意的,就是因为前面的竞争,搞得我就是痛不欲生,就是前面做的,以前我们都是动不动搞发布会嘛,201 19 年 之前对吧?
19 年 之后我们再也不搞发布会了,朋友圈再也不去讲公司的什么产品对吧?
很多人因为那个时候母婴工坊哪怕是 20 年 下半年也有知名度了,就在那个配音的小圈子里面,但没人知道是我们公司干的,不知道是一什么一个 AI 公司干的。
对。
你找到真正有增长的产品的时候,干嘛要让别人知道啊。
对对对。
但是我的意思说 2023 年 就是一下子又引入了一大批人在关注这个 AI GC 啊。
我觉得如果很自私的角度来说, AI 机器再玩火两年对我们更好,因为那个趋势我已经看得很清楚,真的就在 2019 年 的年会,我就跟高佳给我做的 PPT, 然后我们就集中有一页的 PPT 我做未来 AI 的应用跟商业化就是生成,而且生成是跟识别这种多模态的生成,因为你只是一个文字的生成,其实用无感的声音、图片、视频这些是用户能感知到,而且他对这个质量的要求没那么高,不像理解错了就错了。
所以我觉得我们已经找在一个无比正确的路上了,就如果没有超强的竞争,没有大家一堆这个资本的钱又进来又搅局,对吧?
那其实对我们来说,这个所谓的战略冷静期至少有 2 年,那我们可能今天可能我不知道啊!
也也许会更好。
你二三年的时候是不是想过要独立再创一个大模型的页。
2 月 份想过呀,你不是采访过我吗?
我是后来 4 月 份才裁的你,然后呢?
我就是觉得那个时候因为我经历了上一代的竞争嘛,首先我对说融一大笔钱,然后去搞一个事情,但是这个事情本身我又看不到未来,或者我没有信仰,我对这个事情我是没有兴趣的。
我 2 月 份的时候是真的是对这个技术本身的那种资源的冲动,就觉得哇,这个东西我不干,那我未来就白活了,过去也白干了,因为确实是那种状态嘛。
但是到 4 月 份的时候,我就是觉得这个东西不是我想要的,就算我赢到钱,我每天我也会很难受,因为我看不到我可以把这个事情能持续做下去的这种可能性,所以后来我你看我宁愿我写飞鸽说 AI, 这对我来说真的有的人就觉得很奇怪,就是比如说 RT two 出来的时候,我写了一篇很长的一两万字,其实阅读量也没几个,因为可能大部分人都看不懂,什么 general 出来,什么 Sora 出来,我每次都是去研究它写个什么 2 万字的深度解读,就算没什么阅读量,呃我其实也无所谓,因为对我来说就是释放我对这个技术的这种爱好,也好。
很多时候就这样,一旦你把这个能量释放了,要以前,比如说 2019 年 之前,那我就会折腾公司说,哎呀这个牛逼,来我们来搞,10 个人就开始搞,那你你想那个对公司来说就是代价很高的啊,就是你不要打一场战争,因为打了那个战争之前,你很悠闲,一旦进去以后,你就出不来了,一旦开打,因为你总是想赢嘛。
但是我觉得现在,呃,比如说 RT two 出来,那我就没有说啊,来来,咱们来做一个机器人的模型,或者是搞一个机器人,对吧?
要以 2019 年 以前的那个状态,我一定是第一个跑进去说,来,我们现在去搞个机器人,然后呢,把这个大模型给放进去,然后你看能不能有这个 rt two 或者比 rt two 更强的能力,一定是那种动作。
但是现在我就发一个文章,让我对这个技术的那个冲动,通过写这个东西,思考这个东西,先把它释放出来,再更加长远地思考一下。
然后呢,也看一看有没有你的机会,没有机会,那你没必要去把自己拖到那个部分来赢的地方其实很痛苦的。
2 月 大家情绪都很高涨的时候,你不是跟王慧文当时聊了一下吗?
但是你们得出什么结论?
我得出的结论就是我觉得这个竞争的残酷性比上一代更残酷嘛。
是他们跟我说,都说是你们没聊妥,是因为他要当 CEO。
那怎么可能呢?
我们就没聊到这个霍尔霞王王霍文再投你一笔钱。
即使我说了,就算他给我钱,我也不会要的。
到后面到了 4 月 份的时候。
你自己心态扁了,哈哈。
不是我不信仰这个东西啊,就是我不认为这个东西有你的机会你能开心的,我又不是第一次创业,就是我为什么要把自己拉入一个又回到以前那个状态,对吧?
融钱,我觉得很多创业公司,科技公司,但我老喜欢总结,就发现就是很多公司,就是科技公司,它从第一天就进入了复循环。
什么意思呢?
就是你看绝大部分科技创业公司,它的高点是什么?
就是在融资内刻,就是那之后他会经历很漫长的一段,就是他痛不欲生的阶段,就你刚才说高点和低点,对吧?
绝大部分,在我看来,呃,公司的高点就是融资,融文字以后呢,它其实很慌,没有方向感,或者说在竞争中,呃,由于是到号这样,当你真正在中国创业了一阵,你在竞争中那种无力感,包括对用户需求的无,就是我刚才说了。
我都觉得用户怎么这么不爱科技,对。
我记得我以前我跟 2014 年 还是 15 年, 我说你看我们这个手表,我的成本都 850 块钱了,我 900 块钱卖给你,这么多高科技。
我们这么熬夜弄出来。
我都相当于是免费送给你,你为什么不要呢?
你这是典型的伪需求。
对啊,就是你会陷入到那种就是说深深的自我怀疑,这有人就是回答那问题啊,我就觉得我现在特别羡慕的公司是什么?
我不羡慕这些,什么融大钱,然后在我看来第一天就是融资,就是你高点,你就是在负循环,接下来因为你会亏得越来越厉害,你为了融资,你就搞一些莫名其妙的事情,然后用一笔钱,你的这个担子,这个压力更大,然后你又继续这个窟窿补不上。
很多公司处于这种状态,我觉得另外一种也许存在在中国这个环境下存在另外一种真的就是你第一天我哪怕就是做一个小生意,但是偏科技的,不是不偏科技啊,对吧?
但是呢,这是一个真实的用户的需求竞争呢,也不是说你完全不能 handle 的那种,我先形成一个正向循环,我不亏多少钱,我盈亏平衡,然后呢,我在这基础之上呢,我不停地拓展,拓展拓展,这个才是就是说就是你最好的高点是应该说你做出了一个产品,过三年以后,五年你做出了一个产品,很多人都不知道突然出现了这么一个产品,甚至都不知道是你干的,我觉得这种状态是我更喜欢的,我们创业已经真的是苦到我觉得其实我前面没说啊,就是你说上市那一刻,那一天我什么感受?
我就想今天这个结果对得起我过去的努力吗?
对的,我过去受的这个 12 年受的磨难吗?
哈哈,我觉得是对不起的,哈哈哈,因为我刚开始追求的根本不是这点事情对吧?
所以你是其实是有点不甘心的。
那当然不甘心呐,中国移动互联网的黄金十年,我居然搞成这样。
应该做移动互联网,不应该这么早做 a 不不不。
那倒不是,我的意思就是说,那我们的成就跟同时代的公司比,那简直就天差地别嘛,我们对这个用户带来的价值也是天差地别的嘛,差得很远。
你在那个湖畔,你们班上是个什么案例啊?
因为当时的问题就是说每一个人,每个 CEO 讲他最大的战略挑战是啥?
找到这个真正的问题是啥?
所以我们当时我说我们挑战就是我不知道在 AITC 今天我觉得我们是有一个成熟的产品,有商业模式,有用户,但是呢就是你是战略问题嘛,就站在 3 年、5 年看,我不知道这个 AI 的工具是不是还有一个生态位,这是我的问题。
大家讨论了半天,有的人安慰我,有的人说你直接就关掉啊,什么什么都有啊,我们同学里边对吧?
最后郑老师说这个问题已不是问题,已经是个答案,没有答案就是没有。
所以你的问题应该变成说在 AI 机器时代,你能够找到的生态位是啥?
听起来很玄乎,但是给我启发很大,就是说所谓的真问题是说,如果你这个问题已经有答案,就不是一个真问题了,因为它已经变成答案了。
你应该问下一个问题,既然这个不是你的,你这个不存在生态位,你就是放弃放享,逼着你说你去往下思考。
好啦,这期节目就是这样。
如果你喜欢我的节目,欢迎前往苹果 Podcast、 腾讯新闻、小宇宙、喜马拉雅、 QQ 音乐订阅张晓俊商业访谈录。
如果你有其他想邀请的嘉宾、想听的内容,或者你有任何想探讨的话题,都欢迎各位听众朋友们在评论区里留言。
那我们下集再见,拜拜!