闫俊杰认为语音交互虽然在某些场景中非常有用,但目前全球每天使用 AI 产品的人数只有 4000 万,渗透率不到 1%。语音交互的主流化取决于能否提高使用率,尤其是在不方便打字的场景中。
MiniMax 的创始人闫俊杰认为,同时做模型和产品可以更好地优化技术,提高产品体验。他认为这是创业公司提高竞争力的必然选择,尽管风险较大。
闫俊杰认为,创业公司需要在技术和产品上同时投入,以确保技术能够快速进步,并且产品能够满足用户需求。他认为这是提高公司竞争力和市场占有率的关键。
闫俊杰认为,语音助手的商业价值主要取决于用户时长。用户在使用语音助手时花费的时间越长,产品的商业价值就越高。这直接影响了产品的变现能力。
闫俊杰认为,创业公司需要更高的要求,因为市场竞争激烈,大公司已经布局。创业公司需要在研发效率、产品体验和用户交互等方面建立壁垒,以提高成功概率。
闫俊杰认为,未来的 AI 产品需要基于现实世界已存在的需求,而不是凭空想象。他认为,产品应该解决实际问题,提高用户满意度,这样才能获得成功。
闫俊杰认为,语音交互的成本比文字便宜,因为一秒只能说三个字,而文字一秒可以处理 20 个 token。尽管语音处理的技术难度较大,但总体成本更低。
闫俊杰认为,AI 产品的用户量和满意度低是因为产品在多次错误回答后难以获得用户的信任。只有提高回复的准确性和满意度,才能增加用户量和使用率。
AI 背後是有些紅利的全世界有非常多的人在研究人工智能包括 OpenAthens 內它的大部分的技術其實也不是他們來原創的全世界有這麼多的聰明的人然後有這麼多的資源這麼多的社區它的價值或者它的能力其實是要遠大於單個公司的
前段時間整個在中國基礎模型訓練能力的公司大家逐漸在形成一個觀點的說產品和模型是一體化的所謂的雙輪驅動就是我自己有模型我自己有產品大家滾動走是最好這個東西風險很大很難確定你是不是靠幾次瞎住就能把事做好產品的精力取而以產品能力然後商業的精力取而以你佔有多少的用戶市場
我認為沒有人真正想要高 pilot 大家真正想要的是 autopilot 只是今天技術不存在所以我們沒這個妄念能夠做什麼樣的產品其實是一個技術的周期待決定當你能夠把技術 push 到某階段的時候那些產品自然就會湧現出來
所謂臨界點就是大家都看到了它的確定性大家都會去跟進有人會去盡力的優化成本有人要拼命的進一步的向前提升它的能力還有一類我趕緊今天要去匹配可用的需求變成能賺錢的產品這個東西不能怪大廠壟斷更多的應該是思考作為一家獨立的公司你真正能夠創新東西在什麼地方正因為這麼難然後所以才應該對創業這件事本身有更高的一個要求如果我們做不到我們確實就應該失敗
离科技更近,让思考更深。大家好,欢迎来到开始连接 Linkstart。和多数人一样,在看到 OpenAI 最新发布的 AI 智能助手 GPT-4O 时,MiniMax 创始人兼 CEO 严俊杰的第一感觉是惊艳。
他也为那些演示效果着迷如丝滑的语音交互实时的视觉理解语言捕捉甚至包括了呼吸声 2021 年底颜俊杰创立 minimax 时 ChatGPT 还没有出现业内也没有人相信大模型而促使他一定要创业的动力是把人工智能做成通用服务大众这件事是很重要的在这个目标趋势下 minimax 是行业少有的同时做模型和产品的公司
在发布会结束两天后这位以神秘低调著称的从业者罕见的做客极客公园直播间和极客公园创始人兼总裁张鹏进行了近两小时的实时访谈从这场发布会切入他聊到了技术和成本行业赛点开源与闭源之争投流和 PMF 等关键问题本期播客为访谈的精华内容我相信最近这几天大家又看到了这个
AI 圈发生了很多的新的新闻大模型领域又有一些技术和产品上的变化而且这一波还大家都做得很紧凑 OpenAI 先是发了它的 GPT 的 4O 这个 Omni 被我形容为就是在自家客厅 25 分钟喝了杯下午茶然后就发了一个让所有人觉得很震撼的产品和题
与此同时再过一天 Google I/O 开了整个 I/O 又是提了 120 多次 AIProject Astra 包括 Gimini 1.5 一系列的变化上上下下在大模型这个领域里面其实做了很多的动作今天也特别的开心我们请到了在国内大家可能都很期待能够听他聊一聊的 MiniMax 的创始人 CEO 严俊杰
我们来一起聊聊天也想听听他对于最近业界这么又一波新的变化尤其是我们看到了一些挺好的产品表现这个背后到底怎么丈量技术进步进步在哪未来带来的影响是什么我都挺期待俊杰来跟我们做一些解读的
欢迎一下俊杰来 俊杰感谢彭总邀请然后第一次做直播还是挺紧张的尤其是刚才看到弹幕说这个歌的去年二来的这个对那个俊杰我非常渴望听听你的观点从这个 GBT4 到 Google IOS 两个发布风格迥异
你个人对哪个印象更深作为一个用户的实际感受我觉得肯定是红牌发布会是更受震撼的大家都认为是说这个实时的语言交互是第一次有人实现但是其实你稍微仔细的想一下你会发现是说说话是比打字是要慢很多的主流的这些元模型基本上它每秒可以处理的 token 都是十几个到二十几个量级的
但是说话呢其实每秒只能说三到五个字大概也就只有四到五个 token 语音的这个模态就像之前做那个图片跟文本一样只要把它对齐到这个预言模型上把它改造成一个成理由式的处理其实实现起来就变得非常的自然
所以说我觉得这件事的话第一我觉得 OPEN 还是能够从非常底层来思考第二呢这个技术难度其实是要远小于 SERRA 或者一开始做开 GPC 的这个技术难度的看了 Google 的时候你有什么感觉我的感受其实是说就是一个中年男人脱家带口来搞科研结合了大几千人来搞科研一个几千人的研发团队大概做了一年从那个芯片到钻砝然后到这个产品
用一种非常古典的方式来做研发大概能做成什么样它最后一步 AI 的搜索包括 ChargeGP 在内包括国内的很多这种 AI 助手说有很多人每天都会来用这样的工具坦白说和 Google 它展示的那一套 AI 的搜索还是有非常大的一个差距的里面有一个非常核心的东西实时的本地的信息这种体验绝对不是在比如说一个 ChargeGP 这样的产品里面然后外接一个第三方的搜索引擎就可以来实现的
这个东西实际上才是 Google 的真正的壁垒第二点的话其他的这个 AI 做的产品里面其实都是只有单步的推理的然后 Google 他们其实已经展示了一个多步的推理他们也是第一个做的第三点呢我记不错所谓的公司的大家的视频理解其实都是做的比较一般的比如说 GP4 里面那个展示的东西它的那个
Camera 其实也处于的不是 video 是一个静止的图像真的能够做非常流畅的视频理解并且视频理解的效果也比较好的好像只有 Google 因为 Google 本身有大量的视频 YouTube 的视频但这些视频在搜索里面是没让它被展示出来的因为之前的搜索只能有一个标题或者是一些非常简单的 label 这些视频如果做了视频理解之后就可以加入搜索结构里面去了作为一个存在着的事件我觉得有了 AI 之后真的是可以把搜索的这件事给予个质的提升
刚才这个俊杰说到对视频的分析处理这件事我后来因为还参加了一些 Google 比较内部的交流比如说举个例子一个网约车的场景里面几十分钟的视频可能就是六七十 K 的这个 token 弄完了以后能够非常精准的去捋出来这视频里到底发生了什么哎呦乘客实际上现在在辱骂司机对吧这个事是谁当时在哪个点里引发的这样的东西哇他都能给你分析出来
不光是你觉得挺正常而且你发现这事很有用俊杰刚才跟我们起了个头你说语音这件事我们会觉得它很难但其实它的一些机制决定了它可能没有我们想象的那么难以去实现而是关键你要如何去选择这次我也听到了一些观点说 Google 的人会认为 OpenAI 这次主要是一个工程和往产品往场景里边的一次能力的聚焦之后显示的突破这么理解对吗
我可以说一下旧商的我的一些理解吧 OPEN 这个事其实可以把它分成两步第一步的话是说怎么样用大模型来做语音的合成第二步的话是说怎么把大模型语音合成和远模型能够合在一起
语音合成的实际上是在去年开始有了非常多的进展怎么把声音能够做一个声音相关的 tournather 把它放到 GVT 的模型里面去如果效果不好怎么再做一个 diffusion 跟在这个视频生成里面其实是一套一样的一套 pipeline 接下来真正需要做的事是怎么把两个合在一起
本质上你先有个远模型怎么把另外一个模态找到它的这个 encoder 怎么把它给对齐到这个远模型上去这个事儿其实在图片里面已经发生了 GBT4V 干的事儿我猜他们应该就是把它换成了声音然后把它有声音的一个 encoder 给对齐到一个稳稳的模型上去这个事儿为什么不难呢说话的速度其实是远低于 token 的处理速度的所以
所以基本上你能看到它非常快速的响应在那个现场里边从你分析的角度来去看它变成一个纯流式的就端到端的这样的一个直接的东西而不是原来这样的按步骤来拆解的整个以交互为核心的这个流畅度显出了巨大的能量
我觉得这个事可以理解成如果有个公司或者一个组织它之前能够独立的做好语言模型并且能够独立的做好利用这种 RM 的方式来做声音的模型把它合在一起当然是比较轻松的但这里面的话还是有很多工程联络上的优化我们在移动多元其实做了很多的测试每当你降低一秒延时用户的很多的体验就会带来一个特别大的提升那说一个字的时间其实有三百毫秒
如果你开始想怎么样把它优化到延时只有说一个字的时间基本上就能推出来最合理的进步线应该是怎么样的你刚才说到这个延时的问题这个我还挺认同比如说 300 毫秒咱们虽然是大洋两边但感觉我们在一起聊天原来拆的 GBT 大家都是拿文字然后这次语音给了我们更深的一层震撼是不是未来语音是一种跟这种智能铁也好或者这种大模型也好
去用它能力的一种更主流的交互方式呢还是说它只是在一些特定场景里是有用的包括对这个语音的 AI 的助理苹果谷歌 OpenAI 都在这方面在强化你怎么看
我先说一个我的产品上的观察语音这件事可能在 10 年前大家就认为它会变得很重要对吧说包括苹果上的比如 iPhone 的 Siri 包括很多人手机都会有一个可以用声音来交互的助理但是小人不太能说这些产品很成功然后过去一年的话我们可以看到一个非常明显的变化是说在车里面现在车里面语音的使用的伸出率是显著的在变高的现在的话我基于当前的这些更加通用的同时能处的发展 AI 公司会越来越重视声音的交互
但是问题是说现在全球每天使用 A1 产品的人其实也就只有 4000 万这次在多巴胺里面可能有 3000 万是恰尔 GBT 提供的在手机上使用恰尔 GBT 的人我猜应该只有 1000 万每天每天都使用手机的人可能有 40 亿人你算一下就是在移动的渗透率可能都不到 1%
真正主流的这种产品比如说短视频或者长视频它的生存率应该都是 50%以上我觉得所有的公司或者是说有志于来做 AI 产品的公司那一定思考一个逻辑是说怎么样让生存率能够变高那唯一的方式就是就是让更多的场景可用或者让更多的人可用生意这件事的话它应该是符合这个趋势的可以在一些不方便打字的时候或者是说不方便打字的人有可能会来使用它
通过语音的交互能不能让 AI 的伸出率能够提升 10 倍我不太能说因为这个东西它现在还没有发生但是我能确定的事情是说至少代表了作为 AI 的公司大家在提高伸出率的一种努力你说这点引发我一个好奇
比如上一代的技术确实它就不行对吧但上一代也发现了这个问题就很多的东西是大家打开一个语音的助理按完了以后你发现就是好像突然就不好意思说什么或者想不起说什么然后就停了这件事跟技术其实没有关系语言就是一个比较高维度的交互就刚才正好聊到这一点
你认为 GPT-4O 放在它的那个 APP 里大家可以用会多大程度上是会提升它很强的用户的粘性还是能帮它在用户的增量上起到最好的作用我其实觉得这两个事都会发生
比如在 Hello AI 和新业里面的很多用户会给我们写邮件有很多场景确实只有语音才会发生就比如说在 Hello AI 里面有很多家长晚上睡觉的时候会代替他给小孩来讲故事用户会用他来学英语口语我自己亲身的例子就是今年春节回到河南老家让我看我外公他已经 80 岁了我就在他一个很破的安卓手机上装了 Hello AI 他就开始跟他打电话然后还会跟他讨论历史人物还会跟他讨论一些今天的新闻
之前的话其实你很难想象一个 80 岁的老人他会用一个 APP 对吧类似这样的功能他会用的很熟练他们会真的把人家当成一个人说着说着他就会说声音能不能大一点这里面并没有一个发声靠但是说明他潜意识里面是把他当成人了
我们为什么这么相信通用转的是因为我觉得它应该就是一个服务普通人的东西现在的问题是说整个行业的渗透率确实是没那么高的怎么来做这件事的话我觉得就是更简单的交互至少是很重要的一个方面对 更简单你也特别相信多摩泰是接下来整个大模型往下去走的一个重要的技术的目标要通过多摩泰才能够去真正让大模型走向通用让更多的用户用起来
MiniMax 自己也做了挺多的产品了你在看完这个 4O 包括看了 Google 所做的东西之后你是一种兴奋呢还是一种挑战这件事做起来可能还是要有更大的投入对吧然后你要追上它可能还又要花很多的时间你会是一个什么样的心态
其实有人在你前面是好事说明这个行业它的上限还远远没有到比如说现在有 GPT4 可能某个时间点会 GPT5 或者其他的东西实际上是没有任何的竞争不是因为不想跟他们竞争是他们太强了至少目前真正在开拓 AI 行业边界的实际上主要还是 OPENAI 如果他们还是能够非常快的来开拓 AI 的边界至少是说明 AI 的用户生存这件事是有一个底层动力的并且这个动力是可以持续的
如果他们都做不来创新了那才是这个行业比较可怕的一件事所以不断的向前突破就是对行业的好事这次让我们见识到这种 300 毫秒的延时和比如说要两秒甚至三秒这个东西还是有明显区别的在你们的产品里看到跟今天 FoWoo 这样类似的用户的体验你觉得这个是可见的吗在未来大概多长时间可能可见
这个事肯定是可见的动物来说主要的挑战是怎么样把那个语言模型给做的尽可能的好现在的动物胎实际上都还是以语言模型作为核心的我们自己内部在设计这些模型的时候基本上每个模态都是独立的当然是我们都有同样一套的存储框架
它里面都是这个 transformer 虽然代码是差不多的但是它的数据跟这个模型都是独立的我们在做上半模型就是我们的 AB6.5 的时候基本上是把如何做外一两极的 MV 这件事给走得非常通了然后现在是一门下的下一个模型的话因为我们每个模态都已经做出来了从文字的 语音的 到视觉的
我们在下半里面的一个核心的考虑就是如何能够有一个上限更高的语言模型以及如何能够把这些不同的模型还能够合在一起你在做一个模型的时候基本上就分成两个阶段第一个阶段就是试习阶段你有很多假设你要做很多实验来验证你的假设第二个阶段的话你就说假定你认为你的这些假设验证的差不多了然后把这些对的东西合在一起然后开始训练最终的模型
那这里面的这个 trade off 呢就是说你的这些假设你的这些设计的这些实验你要做到多久才算好那这个事其实是我们正在经历的一个事你正好刚才也提到了 MOE 是一个支持万亿大参数的模型非常有效的方法本质上你等在聊到 MOE 的下一步同意它要前进的方向能这块再稍微展开一点吗
一个中间的话都是一个巨大的一对称的 form 不管是训练效率还是推理效率现在主要的选择就是一套 MVE 第二个的话就是说你有不同的模态怎么样能够合到大的以 MVE 为基础的主干模型上比如说像 GPT-4B 你先有一个巨大的 MVE 然后再把视觉的东西往上来做对齐就可以做比较好的视觉的理解 GPT-4 欧里面展示的
想把声音也来堆起到这个里面去能够实现这种声音的处理这个的话就是 GPT-4 干的其中一件事第二件事的话呢是说这个生成的图片生成或者视频的生成能不能合进来这个时候现在应该说至少视频的肯定是没有实现的视频的这个它的 tone error 是一个有损的压缩还是需要通过 diffusion 才能恢复到一个比较正常的状态现在还没法整的在一起
基本上就底层的这个基础战就这样了因为我们又看到了一些技术的进展从中国的这个大模型的领域里面紧接着是不是说在多模态能够更加统一融合的这样的能力又会成为下一个阶段中国的创业公司们要去提升的目标去解决的问题呢我个人觉得是必须要做的事
比如说现在使用 AI 的产品你也知道本质上都是 copyright 有两种一种的话是主要满足娱乐需求的一种的话是主要满足生产效率的然后娱乐需求的这个事我就先不说了因为这种的话可能会有很多内容的属性但是至少在 PN 效率这种事上一定是需要做的为什么呢从历史上来看所有效率的产品最终可能大家只会用那个最好的如果有两个产品放在你面前
一个的话是说可以做很多东西一个的话只能做文字那大家一定会用啥都能做的产品前提是说这个赛道是存在的为什么问这个问题呢就比如说 SORA 它可能是个叫选答题但是在多么泰的统一融合上这是个必答题如果答不好可能就要出局我觉得至少在工具类的这种产品上或者效率的产品上是这样的
反正就是只要有一个公司做出来其他公司就必须得跟上我们密集的看到了苹果在这个语音 AI 的助理然后 OpenAI 在 FoO 上的动作包括整个 Google 把这个 Project Astra 这个 Gemini 非常深层的在用到整个安卓的体系里这种个人的语音助理
听起来大家觉得这是个很重要的入口级的东西我们都通过它来解决各种问题听起来很诱人巨头们今天都同时在往这方面行进那这个事创业者还能干吗或者说这样的东西未来它是不是第一个所谓的 AI native 的 super app 或者是用户活跃日活最多的这件事已经变得很明确了吗
首先就是从产品的项目上来说它其实不太取决于这个产品是剧统的产品还是创业公司的产品取决于最后的资源能力是一个什么样的水平说你的基础模型怎么来做然后你怎么样来做很好的对齐来优化你的延时提高你的工程的效率怎么样增加你的计算成本能不能把所有的模型体验都给了味儿出来在产品层面
其次的话我觉得是在商业的层面这类产品怎么来变现我觉得还是比较直接的几乎就取于是说有多长的用户时间比如说当我要买了一个搜索区的时候我不需要来打开百度了或者我需要来看一个视频的时候我可能不需要在抖音里面来看产品的精力取于产品能力然后商业的精力取于你占有多少的用户时长那我再具象一点你看比如说苹果属于是手机完整的从生态到硬件软件的掌控者
安卓呢就是它在操作系统上有天然的优势大家用的都是安卓的系统 OpenAI 呢实际上是一个新兴的基于大模型能力的创业公司那么这三家公司在面对我们在手机上那样的一个最关键的入口理想状态是我们不打开 Apple 我们都通过它来解决假定是这样从你的角度去评判谁会更有可能是那个赢家呢
创业公司在这个角度还有机会吗哪怕是 OpenAI 我觉得因为这边反正会有各种各样的一些动态不一的关系其实在搜索里面也发生了比如苹果里面集成了 Google 的搜索 Google 每年要给苹果付很多钱之类的如果稍微看一些第一性的话
最有利的一个位置还是说是能把东西做出来就是虽然说不知道最终会怎么样但是如果你能做到这件事那至少家里面应该会有一席之地我其实觉得这件事就是更利好于拥有设备的公司假设我买一个小米的手机我只要给小米付一次钱那之后这个小米手机上创造了多大的价值其实都跟小米没有关系了但是手机提供了很多的用户时间比如说我在小米上装了一个抖音然后一个用户在抖音上花了很多时间然后那些所有的钱其实跟小米是一点关系都没有
我觉得比较强的 AI 助手的一个好处是说能够让手机操作器能这一层占领很多用户的时间满足很多的端末的需求可以把很多价值从 APP 里面拉到手机上但是这件事其实背后也意味着是一个巨大的一块头因为最终用户他只会在意这个产品的体验是怎么样
最近我们也看到传闻苹果跟 OpenAI 有可能在智能助手这个层面产生合作某种程度上按照你的推理一家在大模型领域里做到非常优秀的公司跟一个对整个生态任意件软件是有掌控力的手机巨头最终大家合在一起未来的价值再产生进一步的新的分配这种的合流是符合逻辑的对因为这个它实际上就是用不时间的分配
如果没有苹果跟 OpenAI 的合作 OpenAI 自己在里边有机会独立的去挑战现有的生态吗还是看规模吧比如说现在只是一个 1000 万 DU 的 APP 那显然是不够的像 Meta 的这些 APP 可能都是 11DU 这个量级的
前段时间整个在中国基础模型训练能力的公司大家逐渐在形成一个观点的说产品和模型是一体化的但是绝大部分的公司是不具备基础模型的自己训练的能力的大部分是要基于开源模型结合在你要的场景里面的能力所谓的双轮驱动就是我自己有模型我自己有产品大家滚动走是最好但我们很多创业者也会有反馈说这个东西风险很大因为你自己要去训模型
你自己要同时要做产品你的 burning rate 会很高今天你很难确定你是不是靠几次瞎住就能把这事做好你怎么看这里面潜在的风险创业本身就是一个风险很大的事嗯
先不说同时做模型的产品了即使只做模型或者只做产品也是风险非常大的事我真的感觉至少对做模型的公司来说自己来做产品这件事几乎是一个必然的选择一成一的时候就这样有些公司可能后面才变成这样了反过来其实对做产品的公司其实也是一样的如果他们的产品做得很大他们肯定也是希望能够自己拿掌控模型的
核心的考虑还是说如果你认为这件事对的你现在有多少的资源自然化的来优化你那个想优化的目标其实只是个阶段的选择问题对可能还有一个更底层的原因假设有个需求你要通过模型来满足那如果是两家公司他们给你提供模型的公司来优化中间就是把那个业务指标变成一个对模型的要求这件事本身其实就损失了很多信息嗯
甚至也不让周期变长但是这个事现在不远程例外核心的原因是因为 Vern 的这些场景并且搜索 Office 的 Copied 都是一些能够变得 Vern 化的东西就是插膜一体根据模型能力造产品还是根据产品目标去改模型去驯模型这个事是个很有意思的东西你今天就要造的是让它更加通用能够在更多的领域里可能能命中的
在目前这个时间点其实 AI 背后是有些红利的最主要的围绕是说全世界有非常多的人在研究人工智能包括 OpenSense 内它的大部分的技术其实也不是他们来原创的可能大部分是鬼鬼做出来的但是确实是他们把它最好的整合在了一起
然后把它做到一个足大规模全世界有这么多的聪明的人然后有这么多的资源这么多的社区它的价值或者它的能力其实是要远大于单个公司的把模型做通用是一个比较容易来吸收到整个社区的进展的一种途径你有机会带大家去一个新大陆就别急着自己在那盖个菜园了
如果今天我就去拿它做某一个产品其实你失去的是这个世界跟你共创的机会并且的话能够做什么样的产品其实是由技术的周期来决定的比如说我们建构的所有的产品基本上都是以文字的交互为主产品的功能基本上都是处理这个层面的假设你有一个模型然后当前的能力还能再显著的提升这样的话显然会产生更多的完全不一样的产品形态
但这个东西显然不是说收集出来的当你能够把技术 push 到某个阶段的时候那些产品自然就会涌进出来我看 Sam 也不断在提醒说不要基于今天你看到的所谓模型的一些问题去打补丁他认为这种打补丁其实是浪费时间的如果技术在滚滚向前你在这一个时空刚把补丁打完可能整个的这件衣服都已经换了我认为没有人真正想要 call pilot 大家真正想要的是 auto pilot 对吧
只是今天技术不存在所以我们没这个妄念还是挺有意思的一个视角我想把话题再延展到这次 4O 里边的一个挺具象的东西我前两天跟汪华我们聊天我们俩算算说这下今天有个千万级 DOU 的产品恨不得一天可能就得花掉 200 万的成本我们是个很粗的这样的推理每家公司优化的能力是不一样的我们去看一看 GPT4O
它如果变成了一个拆的 GBT 那种形态的应用的量因为你们自己有很多类似的语音的产品在用能不能帮我们判断一下它要做到几千万 GB 它大概得花多少钱其实语音是比文字要便宜的比如一秒只能说三个字
但是数以文字的时候一秒可以升上 20 个 token 假设使用相同的时间语音其实是更便宜的这个可能是一个反常式的大家认为声音更贵其实它更便宜这是第一点第二点的话成本这件事这件事其实是这样从 2012 年开始用 CNN 来做 duplining 的那个时代甚至在更早期的时候怎么样来优化或者怎么来降低成本这件事其实就是不属于这个领域里面最高端的技术支持
只需要把每一步都做的足够好然后拼在一起就可以带来一个很多的变化比如说去年三月份刚有那个 GPT-4 的时候又慢又贵对吧现在比如说 GPT-4 实际上又便宜了 OpenAI 可能是在全球里面对于成本的降幅所谓叫智能模式定律这也是 Sam 当时提的这方面可能他的能力是更强的正因为他不断在拓展技术的新的边疆新的高度
它也會解鎖更大的空間我們看到 Austra、4O 他們出來之後是不是這種多模態尤其是語音的形態進入了一個技術的臨界點所謂臨界點就是大家都看到它的確定性大家都會去跟進你這個都答不好你可能未來就不在這個 game 裡了
有人会去尽力的优化成本有人要拼命的进一步的向前提升他的能力还有一类那我赶紧今天要去匹配可用的需求变成能赚钱的产品这看起来对于创业者来讲存在这三种选择但刚才你已经提前给我的结论你的选择会是说
那还是要把这件事在上面跑到足够的领先要做到非常 top 这是今天最重要的东西而不是后两者我不知道我这个理解对不对对 我觉得从结果上来是这样但是从过程上来说我觉得有两个事是可以相互转化的效率跟效果效率跟效果相互转化然后什么意思呢就是说假设你的算力只是别人的十分之一那意味着是说你跟别人有了一样的算力那你寻找的效果显示要高于别人如果你能够把效率变得很高
你一定是能够把模型的上限能够变得足够高的就有点像是同等算力我低功耗同等功耗我的算力比别人高芯片的体系里大家就是有这样的一个转化所以你认为其实在这也是类似的反正你的资源是有限的那一定是你的效率足够高你才能上限才能然后才能更高它实际上不是一个说我现在做好然后别人也做完了然后再来优化所以你怎么看就 SAM 说给我多少万亿我就能把 AGI 迅速实现这个事儿
其实很像芯片的制程假设我是台积电对吧它做的是 7 纳米下一版你要做 5 纳米然后要做 3 纳米然后做 2 纳米是一代一代需要往下做的但是突然间他说我现在知道我最终能做到 2 纳米我就把 5 纳米 3 纳米都跳过去了我就直接做这个事其实是不太对的相当于是说我就直接上完小学我就读博士了好像不是很 make sense 对
创业者的宿命就是以远大的目标还得一步步走你只能在时间中逐渐行进去掌握那个未来不会有人提前把未来交给你这个我觉得也是个创业的本质吧当然有可能他们太强了可能没有完全理解到他们的精髓之处但是我觉得正常世界上理解应该是这样
你看过去一段时间里面大家可能在 C 端看的比较多的是像这种陪伴型的 Fantasy 型的这样的一个产品在今天我们看到这个 GPT-4O 包括 Astra 包括苹果的意图出现之后比如像你们海洛 AI 这样的产品是不是意味着在这个领域的竞争者会越来越多更多的力量会参与那你如何去看这个产品的发展目标呢
从用户市场看核心的东西其实是帮助用户解决问题的效率或者说回复的满意度这件事为什么
为什么 AI 的用户量或者 AI 的伸出率只有 1%的原因是因为只有对 AI 特别有热忱的用户在给你无数次错了答案的时候你还会选择相信它然后才能有更高的一个容忍度本质的原因是因为这个指标实在太低了我觉得 GPT-4 没那么让我觉得特别好的原因是因为它其实并没有提高这类产品真正的价值
用户的回复满意度这件事这的话其实也是我们在 HelloAi 这个产品里面努力的方向正好说到产品了你刚才讲到星野里边的用户粘性到满意度都是在你的产品线里面发展的比较好
现在的话其实它很像是小树类的产品你看它的市场用户分布包括它的留存数据其实比如说什么叫正能助手这件事其实是没有一个定义的目前这种产品最大的豆包大概也就只有 4 万 DL 当然不能算是一个很大的产品还不太能定义这个行业怎么样在这个助手类的产品我们的有限目标就是如何尽可能的高的提高用户的单次回复的满意度我们所谓的技术的产品的努力基本上都要围绕这个点来展开
最大的做包可能也就是 400 万的 DAU 那确实是还没有到能够去定义的这个角度目前的这些产品大概可以混成这两类吧然后我们在 Fantasy 这个领域里面算是做的比较领先的其实算是刚起步吧自觉的做到 400 万 DAU 和一个创业者做到 400 万 DAU 的效果历程是不一样的这个大家都懂的还是说到产品业界大家 AI Native 的产品都开始投流了
我们讲做这个做的挺牛的豆包其实它那个量呢你也不能说它真正做到了 PMF 以前移动互联网的时代好歹这个 PMF 实现了之后开始投流去放大但今天好像就是说大家需要花钱去试这个 PMF 一方面呢可能中国互联网的这个整个流量比较板结了都在巨头这儿另一方面呢就是 AI 的能力可能比较有限说白了没有到自然的这个用户推荐能够直接到那个位置所以他就是要开始用这种方式
是不是本身也是对这一代 AI based 的创业公司的很大的挑战在这个 AI native 的时代和移动互联网的时代是不是它本身就不太一样对其实坦白说我们在这身上其实是吃过亏的因为你可以发现是说这个事其实在中国跟在美国其实非常不一样的比如说恰到 GPT 对吧恰到钱是没有投入的对吧最早期的比如说
开发点 AI 它现在其实做了一些投流但是它最早期的时候显然也是没有做的比如像 MVGernet 但是反过来说你看在中国基本上所有的产品其实都会投流对吧每个公司大家可能在现阶段更多的还是靠技术能力跟产品能力但是它其实也是有带进来的
实际上来说美国的研发成本还是会非常高的因为很难像中国这样能够快速找到非常多优秀的工程师中国的工程师的红利和产品的红利相对来说还是比较充裕的但是中国的流量其实是比较头不居笼的
我觉得投流的话可能更底层的原因是因为目前为止比如说在住户类的产品上有哪家公司能够拉开差距就大家都在同一个维度上产品比较统治化然后技术能力我觉得也是比较统治化的那为了获取更多用户呢又只有靠投流这个的话是目前的一个这类产品的一个困境吧有种人认为是说获取用户的宽容是一个比较重要的事宽容本身的价值当成是一个算成钱的话那
那投楼有可能是值得的那就看怎么来看这件事了就是一个创业往前走的最简单的方法就是我要把技术做到最好就绝对的领先其实好像这个世界也会变得简单如果你不能在这件事上简单直接的领先世界就会对你变得复杂你要考虑的因素就会变得更多其实你也不会省下多少成本不同的人可能有不同的选择他处在不同的阶段移动互联网时代的所谓的 PMF 它就是非常明确的比如我是不是有 40%的人
会认为我不用这个产品了我就很伤心当年就是安德森他提出这个 PMF 这个概念里面非常明确的一点说如果低于 40%呢你在这个 30%的人里面看你的产品怎么收缩一下最后打这群人他也能 PMF 当年都有这么一套理论但刚才你说这个 PMF 说到了一点如果我在今天不只是去看说这个用户的留存等等我其实就是要买他们的行为
他们的 feedback 的 loop 去帮我在模型的能力或者是某些方向上起作用那这个里边可能就不能把它简单的看成是一个投流买量我们对 PMF 这个定义是不是也要做变化呢
觉得 PMF 这个事是这样的其实创业的时候一般情况下创业的话都要写个 BP 对吧 BP 的时候可能要讲你的 PMF 是啥然后怎么样我们那个其实一开始就没有搞懂这件事写了大概也都得改这个记得没有一次能写对的对
其实可以做一些假设第一个假设的话呢在鱼类的产品上其实只要有用户时长它就可以变现本质上它的这个 PFM 其实是用户时长作为量化的然后比如说这种飓利的产品呢目前这个形态里面其实是没有变现逻辑的如果能够做到某个状态是能够假设出来一些东西的但那个东西怎么来算钱其实不知道只有也要领先也是不由己是吗就没法完全让它自然发展会有吗其实我觉得是存在这种情况的
如果让你选你其实可能未必喜欢这种情况对但这个东西其实也不能怪别人就只能怪这个没有把技术变得最为领先对这个东西其实是自己的问题太可爱了这个对我觉得你好真实你好真实谢谢你这么坦诚啊前段时间其实我发了个朋友圈我说今天的创业怎么好难啊测试阶段就找 PMF 阶段就要花钱了但后来我又把那个朋友圈给删了因为你说当年滴滴等等这样的一个模式出来的时候在很多的城市啊
就他没有 PMF 呢甚至不是他一家是很多家在里面都在烧这件事突然到某一天到了个临界点就父母城了然后这个时候他的 PMF 出现了 AI 这个东西里会有类似当年网约车那样的情况出现吗网约车里面其实是有非常显著的规模下影嗯
就是说你的规模越大你就会有更多的司机然后更多的用户那你的这个转化效率就会更高弹幕型里面的话其实不存在反正会有规模效应在弹幕型里面呢你要把它体验变好其实不是说你需要有更多的用户或者更多的产品主要还是靠你的这个研发速度到底有多快
这个模型电脑效率是怎么样的它跟你的用户数量其实不完全是成正比的肯定还是要分析一下 AI 它可能不是一类产品它其实还是差分到一些不同的需求上下二类的 余二类的 过程当中然后还是应该看那类产品里面本身的行业的特点
刚才你说星野的时候你非常直接就说像小说阅读就阅读是一个非常底层的需求了是不是未来做 A&A 的产品它的起点应该先回到现实世界已经存在的需求
甚至被上一代的数字化 PMF 过的这样的东西上再去想就不要凭空想为什么会有当年星野这个形态为什么在那个时候又要用大模型率先去做这样的东西它背后的逻辑是什么星野的话它的更早期的时候我们当时的第一个产品叫 Glow 包括有海螺 AI 的时候当时最早的我们叫硬式其实那个时候也只有最早期的一个恰吉的一个版本
我们的产品其实是撞出来的都不是说我们做了很多分析发现了一些东西然后就需要来做它我们在创业的时候既没有 Carbon.ai 然后也没有恰当 GPT 我们唯一的想法只有对 AGI 的信仰然后做了一个模型的能力试着能力看能做啥就做啥是吗是这个逻辑吗真实的情况是这样的它为什么后面变成了 Glow 呢没有变成恰当 GPT 呢
2022 年的大概 10 月份当时的第一版模型是大概 30 币那个模型它只能做娱乐的事因为它没那么好实际的情况是说那个时候我们根本就没有做对齐我天哪那个时候只有一个 portraining 我们对齐的东西还没有跑通它其实是非常随机的一件事
所以其实什么产品的方法论可能有无数种听起来都很有逻辑但归根结底呢你还得看自己的这个创业的实际的状况真正的战略是要跟你匹配的我觉得你还是蛮坦诚的那时候没到位没 ready 所以做不出来很正常这个也没大个遗憾的反而为什么技术本身这件事是最重要的因为技术的发展就是有红利的我现在能理解当时这个是怎么走过来正好今天我们还把这事聊清楚了
但今天的创业确实比移动互联网的那一代更加不容易了巨头呢今天也基本上在 AI 的层面上都有自己的布局你实际上在他面前打的都是名牌甚至你的 PMF 在他面前都是透明的很多人就觉得很绝望我们没有他钱多人多我们没有流量我们自己去做测试的时候都要给他去交税你作为一个创业者在里边怎么找到你的希望呢
我自己觉得其实这个东西不能怪大厂垄断更多的应该是思考作为一家独立的公司你真正能够创新的东西在什么地方这个东西是不是对的比如说你的研发效率你的认知然后你的产品体验你跟用户的交互是不是能够组合好每个东西其实都可以建立很多的壁垒当然你把这些东西都建成了壁垒之后这个事能不能成立其实也不一定但是至少它的成功的概率是更大的正因为这么难然后所以才应该对创业这些人本身有更高的一个要求
如果我们做不到那么确实就应该失败这就是 grounding 是吧对如果不行然后就不行那你就 grounding 一下这反而是个闭环了对吧就是它能验证你到底做的是不是真有价值对
对然后第二个点呢是说其实在国内的这个流量相对来说是比较这个巨头龙端的但在海外的流量还是比较开放的至少有很多的市场还是可以比较自由的来竞争的虽然很难但是空间好还是存在的因为没有一个创业是容易的吧在这个环境里最终你找到所谓的希望和路径这个其实特别的重要
我相信最终 minimax 的目标还是希望能够去创造出我们所说意义上的 superapp 不管是像星野海螺 AI 这些东西假定你觉得他们的目标是那个 superapp 的候选吗还是说 superapp 可能会在这个行进过程中今天还未必是看到的一个形态它可能还在未来我觉得第一呢这样的产品都不是
第二呢是说我们认为单个产品它能够到一个足够大的用户规模然后这个用户规模呢可以对用户产生很多价值同时也能够让我们在商业上获得足够多的成功和回报这个是我们做一个产品的基本的一个假设也是我们努力的一个目标至于一个产品它是不是最终的那个东西我觉得其实是不重要的 A 加这个事儿它一定是一个长周期的事儿嗯
它显然不是 2024 年就实现了可能也不是 2025 年就实现了我们作为一家公司我们真正需要做的事是说我们的技术能够足快地在进步基于我们当前的技术能力做出来的产品能够让公司运转效率变得更高让公司的商业化的包括产品包括我们用户都能够创造出来对应的价值同时的话让我们能够有能力来做更大的产品一单一单往上滚这个事其实就已经够了客户来看中
中国的过去一些年的比较成功的公司基本上也都是这么一条路径你刚才这一段挺好相当于在讲 AI 这个时代里面做 AI native 的应用包括把模型能力和产品融在一起这时候的创业者他其实该有的觉悟有这个觉悟的时候在做这件事才能像你说不要给自己那么大压力可以 chill 一点对吧做
做一个东西有一堆用户很喜欢用在这个阶段把这个能力释放出来然后公司能够基于它再往前前进可能是那个最重要的目标我能感觉到就俊杰在这个多么太这个维度上的思考可能在最开始创业的时候他就挺明确的很显然在今天这个阶段对于一个真正的 AI 的公司技术就是那个最重要的点这个就是我从俊杰身上有收获的期待未来有机会我们有更多的场合能跟俊杰有更深度的碰撞好 感谢 感谢
以上就是本期播客的全部内容了感谢大家的收听如果你喜欢我们的内容欢迎把开始连接 Linkstart 推荐给更多的朋友这档知识圆桌栏目会以直播和播客的形式与大家见面也欢迎关注视频号极客公园在这里我们每周都会邀请各行各业的嘉宾畅聊时下热点的重要的科技商业议题如果你有感兴趣的想听的主题也欢迎在评论区告诉我们
感谢大家的收听我们下期节目再见