cover of episode Vol.24 张鹏对谈李开复:AI创业进入洗牌阶段了吗?

Vol.24 张鹏对谈李开复:AI创业进入洗牌阶段了吗?

2024/10/30
logo of podcast AI局内人 | AGI Insider

AI局内人 | AGI Insider

AI Deep Dive AI Chapters Transcript
People
张鹏
李开复
Topics
@李开复 :AI创业环境变化迅速,大模型训练初期应遵循Scaling Law,模型成熟后应专注于应用开发。预训练并非所有公司都适合,需考虑自身资源、技术能力和成本效益。当前AI创业最佳方向是应用开发,尤其是在模型够好、推理够便宜的背景下。中国AI创业公司应避免盲目跟风,应根据自身资源和市场需求,选择合适的技术路线和商业模式。OpenAI的垄断思维和对生态系统的忽视,为其他公司提供了弯道超车的机会。未来应关注MOE模型、多模态模型和高效推理等技术方向。 中国AI创业公司在2B领域面临低价竞标和客户需求不明确等问题,应专注于提供端到端的解决方案,选择合适的细分领域,打造差异化竞争优势。 Transformer模型并非最终形态,未来可能出现新的模型架构,但短期内Transformer仍是主流。 AI创业公司面临的三大风险:资金链断裂、技术路线选择错误和商业化落地失败。 @张鹏 :AI创业环境变化迅速,需及时调整策略。大模型训练初期应快速追赶,后期应控制节奏,注重效率和成本。预训练的决策需考虑资源、技术能力和长期价值。未来AI创业应专注于应用开发,充分利用现有成熟模型,发掘细分市场机会。 OpenAI的O1模型为大模型发展指明了新的方向,即“快思考慢思考”的推理能力提升,未来应关注这一方向的技术创新。 中国AI创业公司应在Transformer技术路线和商业模式上寻找差异化竞争优势,避免与巨头直接竞争。 中国AI大模型在2B领域的应用已初具规模,但仍面临挑战,应注重提供有价值的端到端解决方案。

Deep Dive

Chapters

Shownotes Transcript

欢迎收听 AI 局内人每周和极客们一起聊聊 AGI 通用人工智能时代的新技术和创业方向

AGI Insider 是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目本节目会围绕 AGI 相关领域的基础发展产品方向以及新的商业模式每周邀请相关领域的观察者和从业者与我们一起探讨和交流通用人工智能领域新的机遇各种可能性

这两年行业巨头纷纷入局大量囤卡加天价投入随身的 AI 创业不论在商业还是技术领域每时每刻都在发生新的变化 2024 年末 AI 创业究竟是芳心未艾还是已经进入了严酷的洗牌和淘汰阶段

10 月 16 日,零一万物正式对外发布新旗舰模型 E-Lightning 该模型在国际权威盲测榜单 LMSIS 上超过了 GPT-4O 而孵化零一万物的李开复在 AI 大模型狂飙突进两年后针对 Skilling Law、预训练、AI 创业的不同选择有了一些新的看法而去年看起来还渐入盘石的一些行业共识放在今天可能需要分析和反思毕竟创业就意味着拥抱变化不断更新对技术、商业和世界的认知

本期节目《01 万物理开户》将和极客公园的总裁张鹏一起盘点 AI 创业公司们的优势和困局聊一聊 AI 创业需要转变的新思路

欢迎大家又来到我们的今天晚上的今夜科技谈那今天呢我们又要聊聊 AI 了应该说在过去这两年里边大家都被 AI 弄得内心还是很火热的大家肯定还记得啊在这个今年呢我们也邀请了这个创业工厂的董事长同时也是 01 的 CEO 啊

开复老师来到我们的经验科技坛的直播间曾经聊过 AI 创业我们当时还开玩笑说这可能是这一波创业里年岁最大的创业者但开复老师其实浑身还是充满着活力并且在这波浪潮里边还是创造了很多让人印象深刻的这种瞬间今天其实我们又要请回开复老师跟我们一起聊一聊

要聊一聊 AI 在变但是创业者要如何取舍那我们接下来还是要请出啊我们创意工厂的董事长也是零一万物的 CEO 李开复老师啊看看开复老师是不是已经连线进来了啊开了哈喽嗨张鹏你好大家好好啊看开复老师一直还都是充满活力啊今天这个呃我们又把开复老师请来还是非常高兴的啊因为我想先从一个有意思的事也是让我觉得挺好奇的事开始聊起啊

因为前几天我记得看黄仁勋专门发推特说马斯克很厉害十几天就组了个 10 万卡的 H100 的集群当时我们看起来说 10 万卡的集群 H100 对吧觉得真有钱然后还真的速度很快当然我觉得他说这一点的时候核心还是

顺着我们原来的理解就是要把大模型的智能提升可能需要非常庞大的算力对吧这种工程化的难度本身也很高十万卡就是非常高的工程难度很快实现但我为什么提这件事是因为最近看到灵异发了一个新的版本的模型好像你们这个模型不是

就是在里边有些的东西还是明显的比这个马斯克他们的那个模型是要好的我就很好奇因为我相信开复老师一定不是偷偷搞了个十万卡的集群对吧所以这个事我就很好奇对吧这个有点违背我们原来的理解说啊

越大的模型才能越强越强的算力才能越强但看起来你们又不可能做到用那么大的这个算力去推所以这背后一定有一些有意思的值得分享的洞察我们就先拿这个话题了解啊怎么做到的这么神奇好的好的谢谢啊对确实我们是用大约 2000 张 H100 然后

訓練了一個月 2000 張 H800800 100 差不多了 2000 張 H 卡訓練了一個月我們要蘋果對蘋果的話因為馬斯克的這 10 萬張卡還沒有訓練出還沒用對還沒有用它上一個模型應該是 15000 還是 20000 張訓練所以我們大約是然後可能訓練了不止一個月所以我們大概是用了它 1/20 或 1/30 的

GPU 训练了一个能跟他打平的模型

而且打平不是說自己量量自己的 mmlu 就算了誰都可以自己量的誰都可以刷很多題然後把數字弄高的我們是在一個公開的經濟場就是伯克利大學的 LMSIS 它是會有上千萬個不同的人上去同時去評分兩個模型看誰高誰低每個模型都會被測一兩萬次

那一两万次之后基本上用户觉得我们跟马斯克的模型是不分上下的

能做到这样的效率其实背后有什么可以分享的这种方法论吗或者说我知道这一定都是你的核心机密但是大概可能让我们尝试去理解要不然我们无法想象说它为什么能够差这么多对我觉得应该有几个因素吧一个是我觉得我们在训练的算法上有一些非常独特的地方

这些细节就不能分享了然后其次我们用的是一个 Mixer of Experts MOE 的模型我们用的是一个比特别迅速然后规模然后总参数都要比马斯克的模型小很多但是也不会小到没有办法去达到这个泛化

所以我们可以看到的就是如果我们是讲稠密模型的话我们的 MOE 模型根据我们的实验大概可以等于一个训练的很好的 200B 的模型

那我們的總參數可能也在 200 幣上下但是我們的實際的這個激活參數是遠遠遠遠小更小所以這個的話在訓練方面就有很多巧妙的 tricks

还有就是我们的基础架构 infrastructure 做得特别好所以我们的训练的速度也比别人要快还有可能有一些有帮助的就是数据方面吧因为这个也没有独立出来做实验但是我们对数据是非常用心的那花了很多时间收集了好的数据标注还有

它的 interleaving 順序等等的很多的細節基本就是數據方面是雕花雕出來的花了很多的硬功夫

这以上加起来这就是 200 多个人努力了 5 个月左右得出来的结果那每一个人的贡献在不同的地方当然做预训练的团队其实很小就几个人然后再拿去做这个后训练的人也不大也就几个人他们是核心的这个操作这个过程

然后但是背后有很多幕后的英雄无论是我们的 infrastructure 还是我们的训练框架还是去很多去 researcher 去读各种 paper 去讨论还有处理数据等等的就是全公司的力量去试着把这样的一个模型价钱能够降下来

因为我们看到在这个大部分的这个美国的顶级的几家公司都是不惜代价的去往前冲那中国的公司基本没有一家啊是能够或者愿意花这样大的成本去做啊

GPT-4 大概是 1 亿美金训练出来的 GPT-5 应该是花了 10 亿美金然后 GPT-6 可能就是 100 亿美金然后与此类推这样的一个做法是一种暴力出奇迹的做法我们认为他做到今天这个状态还是能够有 scaling law 我相信 scaling law 但是可能是事倍功半的一种 scaling law

我不会说 diminishing return 但是是倍公办所以你花这十倍的钱肯定得不到十倍的效果甚至得不到五倍四倍的效果所以这个也是相关的就是说我们是不是做得好我当然很自豪我们的团队我认为做得很好但是还有就是如果你真的有十万张卡让它能够好好的运行起来

然后不要出状况不要说一张卡坏了整个训练就要停顿 10 分钟 20 分钟半小时然后不要说而且你 10 万张卡在一起你的卡的每一张卡的计算能力是乘以了 10 万倍

但是你的 forward backward 在算这些参数的时候你的 latency 带来就是严重的因为它不是真的能够分布式的把一个问题拆成 10 万份来算他们还是需要 sync 的而且 sync 经常发生所以它带来 10 万张卡能不能不堵车的问题

还有就是他能不能一张卡出了问题不把所有的卡全盘弄当的问题所以这是扯了他的后腿所以一方面我们认为我们可能有些是做的蛮好的还有他加了这么多卡其实是扯了他的后腿我的理解是 GPT-5 训练的不顺利也是搞不定这 10 万张左右的卡怎么在一起能够协调达到一个比 1 万张多个几倍的功能都很难

所以卡多也有卡多的难题卡少也有卡少的难题但看起来如果从你们的实践来去看说卡少但是人在里边有创新还是能推动这件事继续往前走并不是说卡

卡的数是唯一的这样的一个阻碍或者它是唯一的参数对吧这个变量里边卡是一个重要的变量但不是唯一的变量至少我们从这个行为里能这个过程里是能看到这样的一个结论对是的我觉得卡越多它的复杂度跟可能出问题的概率也增加

卡比较少我们一方面可以有更多创新摸索的空间另外还有我觉得中国团队整体来说要比硅谷的团队更刻苦耐劳勤奋愿意去花很多苦功夫把 infrastructure 磨出来也好把数据优化也好这些我觉得都是整体来说应该是超过硅谷平均的水平我觉得这个也很有关有创新但是也有这种勤奋努力

所以这也引发了一个讨论就是在去年的时候我记得跟国内一些已经是挺知名的企业家们在看到 AI 一波浪潮的时候大家曾经甚至都有那种结论说哎呀这件事一看就是要投入千亿以上才能入场玩的这样的一件事对吧就是一度这件事也吓退了很多人也让很多创业者入局的时候可能因为这个水看起来深不见底

这是在当时下水之前或者是在去年的时候这其实跑了这一年多本质上因为大家都在水里去游了这个到底这个水啊

是不是深不见底还是说今天已经大概知道水深水浅然后找到了合适的姿势就是一年多之后他会是一个我们这时候再去看我如果我们做大模型创业他本质上我们该怎么定义比如像去年会认为这是个只有非常有钱非常技术怎么怎么样的人才能干还是这个到今年也许会产生变化我开普老师在这个过程中也呃

一定一边自己在干一边也在观察整个产业你会觉得如果从创业者角度怎么理解这一两年对这件事的认知的变化

对 我觉得我们也是不断的在调整学习在一年半前我们开始做零一万物的时候我们是抱着一定要 scaling law 其实现在回头看这个是正确的因为当时的模型远远不够好我们当时连 GBT3.5 都远远达不到所以你不 scaling law 怎么能达到 3.5 怎么能达到 4

而且今天回头看我们现在看得很清楚当时也许不是那么清楚 GBD3 和 3.5 就是做不出好的应用来

所以你不去 scaling long 你用 3 到 3.5 的水平是做不出应用的我觉得现在也有很多人说我用小模型或者我为了要做一个终端的模型要把它降低参数等等的那你就要找非常独特的应用是真的不需要推理泛化能力的应用才能把它用上

如果你真正要在一个能让人愿意付费或者长期使用每天使用的应用他肯定是要用一个好的模型所以我们 scaling law 就得加机器就得加模型就得加数据一直加到模型够好了

ok 这个时候你可以说等等了我要把这个模型拿来做应用做推理而且这个模型我们好不容易训练出来了不要过三个月又把它扔了今天我觉得在整个投资界包括做国内也包括硅谷很多人就觉得训练大模型不划算因为你如果花了比如说哪怕就是 1000 万或 2000 万美元训练了一个模型然后

四五个月以后就做了更好的模型前一个模型就没用了这个我不是在批评别人我们自己也做过我们有一个模型就是花了 1000 多万美元训练出来的然后它的说明就是五个月而且中间好像也没有因为它直接获得多少收入对啊这就是必然要花的钱是吧

对啊作为一个想做能上市企业的我们肯定要考虑到这个一个支出跟他的回报的比例嘛嗯

所以我觉得刚开始模型不够好那就不断的要 scale 这就是一个 R&D 应该花的经费但是到了够好了我们应该看怎么能够用后训练或者甚至 O1 或其他的方式把它能够用到极致继续使用让它的寿命能做久一点

你想做 Windows 做安卓做 iPhone 对不对乔布斯不可能一个月出一个新的 iPhone 他这样的话研发费用不亏死了所以我觉得我们现在的看法就是我们这次训练出来的 e-lightning 是绝对能够达到很多应用的 PMF 所以我们就会用它用一阵包括我们自己的应用包括提供 API

所以初期的时候一定要做 scaling law 大家都疯狂的做我觉得是对的因为你不做的话那时候的模型真的不能用用了也做不出 PMF 现在从 e-lightning 开始这一类的这种能力或者应该说 GPD-4O 开始他们当然更具代表性是可以找到很多 PMF 的

所以现在应用的百花齐放的时间到了大家赶快把这一类的模型拿去应用而且它也够便宜了尤其是我们 E-Lightning 九毛九一百万个 token 的价钱大家都拿来做 PMF 多好以后模型会再进步的话再把它变更便宜所以现在考虑的就不只是说模型不够好一定要 scaling 了现在是模型够好了还可以更好但我不要急着每三个月升一次级

我累积以后国际后发也许 9 个月 10 个月以后再发一个大招这 9 个月 10 个月之内把这一次的模型已经足够好而且又够便宜了自己和开发者一起去做很多应用出来因为毕竟要做好应用才是王道因为一个产业如果大家都比模型

没有做出应用用户的价值何在用户如何会愿意支付他不支付大家怎么赚钱大模型公司只是烧那就最后只有英伟达赚了巨大的钱我们的整个应用生态没有起来所以我们这次我觉得真的我们特别振奋的就是说一个非常好的模型到了白菜价大家想做应用的该跳出来做了

我听起来如果我们这么看过去这一年半可能在最开始的一段时间里边就是半年到一年的时间因为我们是在后面要追赶的就是所有的除了 OpenAI 其他的全世界的公司都是在追赶对吧为什么那时候算力那么贵然后这个 AI 的人才这么贵本质上大家都是要拼力的追赶就有点像我们哪怕我跑一个 1500 米看起来是个中长跑但是

一起步的时候还是要抢内道的对吧有点要卡身位这个时候呢你就得要卡到好的身位你就要加油对吧然后就一定要把这个技术能够追到至少望齐向背距离可以丈量然后

然后到后边进入途中跑的时候可能就要控制节奏了因为那个时候你要还一路那么狂奔可能这个资源消耗太大体力就不就跟不上了这跑步就是它毕竟是个中场跑不是个短跑冲刺对吧我觉得可能这么去理解我大概能听懂开复老师说的这个意思就是大模型的训练

在去年我们看起来这些看起来浪费的钱其实是在这个过程中必须要花的但是在今天再去看这件事的时候可以有每个人不同的节奏的选择这个也是更必要反而如果还那个节奏不一定对这也是最近在国内大家探讨比较多的这个也会大家说中国的创业公司可能第一点可能比较担心创业公司们

预训链花钱是不是太多还烧得起烧不起第二呢又觉得说你看 OpenAI 这次都开始走强化学习的这样的一个新的路线 O1 出来之后带来这个东西甚至有人认为在过去那种暴力出奇迹的层面上再加板其实看起来这个效能也不大所以才会推理出预训链这个事创业公司还值不值得做所以在这个问题上我们重点是

中国的创业公司如果要对这事做选择它会基于什么样的逻辑做选择第一就是预训练这件事做不做是一个统一性的选择吗还是说每个人要根据自己的情况做选择这种选择往往会基于什么

对 我觉得预训练做不做是非常好的问题首先可能很多人认为不要做了因为一做就是 1 亿美金或者 3000 万美金这次我就告诉大家我们就花了 300 万美金越做越便宜 不是那么贵 对吧对 不是一定要花 1 亿美金的要做的话是做得起的但是第二个问题就是你有没有能力把它做好而且这个能力是有一个硬标准的

就是如果一家大模型公司或者一个大公司的大模型组他预训了出来的模型在一个竞技场上进不了前二三十名那为什么还要做

因為二三十名裡面有很多好的開源模型比如說 Lama 比如說千問你為什麼不用人家的來做你就算要燒 300 萬美金也沒必要平白無故的把錢燒掉做出來的模型還不如人家開源的模型所以我覺得第二個硬標準就是你的團隊的認知和能力能不能做出一個比別人的開源模型要好的如果不能的話那就不應該做

然后即便你能比别人的开源模型做得差不多或略好一点那下面还有一个问题就是值不值得做因为做这个事情要花人力 300 万也是钱而且这只是预训练还有后训练的钱

而且如果你做出来三四个月以后又要再重做一个模型那哪怕你是花 300 万加 300 万假设后训练也是 300 万花个 600 万美金训练一个模型三个月以后就扔掉那一个月 200 万值不值得这还要再问一次所以我觉得问了这三个问题以后第一个问题就是你能不能不要花很多的钱训练出模型如果你还是要做得起对吧就是这个东西还是要做得起

第一个问题是你有没有足够多的钱或者用很多钱就烧去或者你没有很多钱但是你会像我们这样 300 万能训练出一个模型 OK 那第一关你过了第二个问题你打不打得过开源打不过那第二关你就没过假如打得过你还有第三关就是说你比开源略好一点值不值得你花的钱

然后你会不会三个月以后就把这模型扔了那回头你后不后悔那这三关都过了那就要做所以我觉得现在在做预训练的公司或者号称在做预训练的公司应该有一半是过不了这一关的

那我们来说的话我们是都过了而且这次也验证了我们是世界第三的模型公司第六的模型然后打败了所有的开源而且训练成本也不是太贵我们也不打算两三个月就把它扔了我们得用一段时间所以因此我们是理直气壮理所当然的要做运行链嗯

我听懂了就是说白了就是做不做预心恋这件事呢核心是看有没有理由要继续做这个理由又构成了三个部分有足够的资源或能力对吧就是能力也能转成资源刚才你也说了人卡少人人优秀也能往前走这个其实就是你的能力然后再要看说最后你能做出的至少要比开源好对吧

第三就是说做完这件事你得有个盼头因为他这件事是未来能够值得你持续更新你能看得见这个东西对你的哪怕是你的竞争力还是你的核心的技术的基础它是有意义的对吧

就某种程度上去年大家就是无脑往前也要抢身位要不然就追不上了但今天就是要动脑去思考到底预训练做不做对吧就这个我听懂了还是挺务实的那那比如说如果选择不做运训练的话那在 AI 创业公司里边大家如果不做了预训练那

那应该去做什么呢因为确实可能有的公司也会面临这个问题那这个时候要怎么办呢因为我相信开复老师也会帮助很多的创业者很多 AI 创业者也跟你会有比较坦诚的交流那在这个时候是不是说那不做运行链了就意味着 AI 创业失败了还是说他可能就是要换一个战场换一个项目来去做这样的事我们怎么理解这个事假定如果要是不选择做运行链的话

對我覺得一個靈活的創業者在錢沒有花完之前可以趕快換方向我們今天上市的地平線的愉楷就換了好多次方向最後就換對了如果他第一次就堅決的不改今天就沒有地平線這麼優秀的公司上市了所以要調整怎麼調整我覺得答案每一年甚至更快至少每一年會變一次

如果说是一年半前你问我最大的机会是什么那我说肯定是要做大模型要做预星链因为中国可以跑出一家 OpenAI 量的公司对的如果说是九个月前你问我我可能就说可能是 infrastructure 最好

因為現在大家都覺得 GPU 不好使覺得訓練太貴覺得推理太貴那 infrastructure 做好了可以解決這些問題所以創新工廠就投了三家 infrastructure 的公司大概都是在 6~12 個月之間然後今天我覺得我們進入了一個很獨特的時代我覺得今天要轉乾脆就轉應用

因为这个可以看到很清楚的就是模型够好了推理够便宜了在什么领域你能有独特的想法数据或用户的认知在 to c 或 to b 方面能做出一个好的应用这个之前是不存在的因为之前就是说比如说哪怕是

5 个月前你要用 E-Lightning 这么好的模型都要 10 块钱一个 million tokens 如果说是一年半前你要用这么好的模型它不存在当时最好的模型 75 块钱一个 million tokens 那怎么用啊所以我们从这一年半从 75 块降到了 10 块降到了 4 块 4 就是 GPT-4 今天的价钱然后这次我们把它一直降到了 1 毛 4 美元就是 9 毛 9 人民币所以今天不做 APP 创业还做什么

另外还有可能就是所谓的行业大模型

我不排除行业大模型的价值但是你如果没有独特的数据或者对行业的认知就是拍脑袋说我钱不够做预训练了我来搞一个什么什么行业制造行业金融行业的大模型然后用这个做我们的招牌我觉得这个的价值未必会是很大的除非你有很好的数据

对行业有很深的认知那这当然也是一个方向前一阵我觉得有太多所谓行业大模型了

还有一个方向是小模型我做不动大训练做不了预训练我做个小模型小模型可能可以成立因为今天我们也看到无论是苹果手机里的 Apple Intelligence 或者是其他手机端的终端推理还有最近出来的各种的中国的各种的眼镜眼镜上面是有它一定的这种根

跟在用手机的推理能力能够跟他讲话然后让他帮你看东西做事你的眼镜上是戴着这个摄像头和耳机的那这些终端会爆发的成长那小模型我觉得是有机会的但是就要想清楚一个小模型它到底是什么场景

讓它能夠應用用戶能不能夠真的去用它了解它能做不能做什麼事情就小模型的能力有限這個場景它真的能不能工作長期來說我覺得很可能很多終端上都會有小模型當它解不了的問題它就會去網上讓大模型來做這樣的話會大大降低我們網上我們的總共的推理的成本這也挺好的

但小模型可以做但是我觉得如果就是说我为了小而小用户体验怎么样不知道这样做出来可能也不会有好的效果所以整体来说我还是认为做应用 to see to be 都可以国内出海都可以但是做应用是绝对最好的对大部分懂一些模型的来说但是待会我们也可以延伸谈一谈什么样的团队可以把 app 做好

嗯对这个真要做应用的话完全是模型能力的团队一定是对于呃这个如何运用模型会是有很大帮助但产品又是另一回另一回事这里边的认知啊那边的能力啊这个但我觉得刚才开复老师说了很重要一点就是呃

如果卷不动那个大模型这个维度的东西那确实可以看到在大模型还不能充分发挥作用的地方去做在那些地方在受限场景下然后依旧需要的那种所谓的大模型对吧

就是那这个在那种场景下的大模型那可能比我们说这个现在标准意义上的这种大模型是更小的但是比如说在一些行业里边光有大模型它就通识但是它没有行业里边的这样的有效的这种认知它可能反而不如一个小一点的模型更能解决问题或者在端侧对吧就是这一侧里边你那么大的模型在我这儿我这机器跑

一个问题就没电了对吧那这个事怎么办所以你就有可能需要在这个受限场景里去做开发所以这个我觉得是创业者就像开复老师说就是他应该是像水一样他可以适应这种环境的变化然后这个但其实水也是蛮有力量就是看怎么找到那个你能够去充分发挥的地方

这点呢呃但是我们既然说到了应用的这个事一会咱们后头肯定会要聊一聊要多听开我老师讲一讲我还是追问几句模型训练的事啊就那在今天我们看呃

如果预训练还要做但今天的预训练跟比如说一年半以前大家都去追赶的时候那个预训练就是先把卡堆上先把这个这个这个算力堆好然后我们要赶紧堆数据往上跑肯定经过这一段时间里边这个预训练里面也会有很多的 know how 甚至大家都会有一些自己独门的方法甚至是因为你的选择

他会在预训链上会出现一些分野的这种关注点所以今天谈预训链的时候那些关键点跟一年半之前会出现什么样的变化会有什么样的一些创新的这种架构啊方法啊结合他的目的这个模型最终的目的会出现这种不是都所有人秒一个而是大家开始分散的有一些突破所以这个里边有什么样新的动态想让开复老师给我们科普一下

我们自己的认知是这样的首先我们认为稠密模型是非常不适合做产品 APP 的 PMF 用因为稠密模型你要把它做好它就会要非常的大我们看到了 Lama3 它花了这么多钱它花了上几亿美元做训练还花了几亿美元标数据

这样做出来的模型我们还是把它打败了用远远更少的成本那就表示稠密模型它的训练是低效的不是说稠密模型这个东西永远不会成但是在今天这个节点上你如果就执着的做稠密模型那它一定要到一定的规模才能产生足够的效果而它带来的是有一个严重的稀疏的 sparsity 的 problem

也就是说他训练了一个巨大的模型但里面模型的大部分的是不被使用是无用的所以你训练了一个很浪费的模型就是智能的密度不够密度不够所以你训练出来这个模型花了很多钱而且更大的杀伤力就是当你要应用它的时候就非常的贵因为你需要把整个模型里很多有用无用的参数全部都读进来

今天的 Lama405B 就是一个特别典型的例子所以我们现在没有计划再做任何虫密模型的训练

不排除以后有一些突破或者想法证明我今天讲的不好或者以后有比 MOE 更好的方式这都完全可能甚至三六个月以后都可能但是今天我们就笃定的把我们所有的资源无论是做文字的多模态的都放在 MOE 上面嗯

这个决定我们其实是在一年多前就开始在探索但是随着我们和一些其他我们做的很好的友商做出的结果来我们感觉这个应该是就这么做了

但是盲目的在 MOE 也會有個很大的問題在 MOE 上面你的整個訓練框架 infrastructure 框架很難搞定因為之前你的稠密模型就是一個大模型所以你做 SFT 做 DPO PPO 等等的相對好做

你要做一个 moe 的后训练其实难度很大是会很考验团队的 infrastructure 能力这一点比较幸运的是我们的 infra 团队还是蛮强的所以这是我觉得的一个认知第二个认知就是说我觉得多摩泰是一定要下赌注的

这个我觉得是行业并没有一个绝对的认知有些做 NLP 出身的认为语言才是最更精髓的这是我个人的看法就是我们虽然我也是做语音语言出身的我们人的学习它不只是闭着眼睛听一些字或者看一些文字就学会的周围的所有的数据多模态的数据对我们是有巨大的价值的

而且如果我们不对这个环境有很深的理解以后有很多事情就没有办法去做出来无论是巨神智能或者是无人驾驶机器人或者就是视频理解等等的都没有办法去做那我们就很单一的文字它我觉得是有限的那多摩泰做起来呢又会带来很多其他的挑战数据的挑战标注的挑战然后没有人类历史累积的挑战

文字我们 3000 年以前的文字还能拿来做预训练 3000 年以前没有视频没有图片最多就画几张画用来做训练没什么意义所以它的内容是相对不够多元化的那这些问题都要去补课

我們最近也做了不少多模態的工作然後我們覺得這個是有價值的而且我們是相信當你丟了很多多模態進去以後我們能夠研究出來一種方法讓他有了多模態以後文字也變得更好這個今天還不能保證做到但是我們覺得就像我們當我們丟了很多高質量中文數據的時候我們的模型的英文也變聰明了

这个跟硅谷的感觉是不一样的硅谷是觉得丢了外文以后外文变好了英文变差了但是我们认为如果你花了心思去琢磨挑特别好的数据中文数据然后不要放太多你的中文肯定会变好你的英文其实也很可能会变好我们相信很多语言加起来

会更强就是要辛苦的去把每个语言都做了同样的要辛苦的把每个模态都做了我们深深认为这个的价值会很大所以这代表是不是 O1 出来大家都不要做预训练了那肯定不是因为 MOE 怎么把后训练做好是一个问题

还有没有比 MOE 更好的模式是一个问题还有除了文字之外多么态怎么加进预训练这是一个问题这几个其实就够我们花很多时间做很多实验了所以我觉得预训练的时代跟创新跟进步肯定是没有停止还会继续做的

所以其实凯弗老师提到了就是这种稠密的和稀疏的这样的这个它其实各有各的长处吧对吧就是也有人提到比如说如果模型是走这个稀疏的路线泛化会不会遇到问题当然你稠密的模型就真正用起来的时候成本又是非常的高对吧其实浪费也是比较

这里边看起来就是在不同的路线里边它都会有它的好有它的不好其实本质上这是个选择问题是不是可以理解为这是个选择问题就是你如果比如我就是一个像 Facebook 这样的 Meta 这样的我就是要去抢这个里边的 No.1 我要不断往上堆我也不急于要算过账我就是往上堆那我就按这个方式去做我可以发挥我有卡

然后我不差钱我一年可以花 20 亿美金砸在这件事上对吧我有我有自己的这个金矿不断的在输血我不在意我就做这个了所以他就可以去选这个但是对创业公司来讲就你肯定不能有这样的资源你就必须要给自己一个理由和目标然后去选择所以

反而在这个选择下预训练依旧是有意义的就在于你要在你的目标上通过不断的一次一次的所谓的炼丹往上的迭代才能最终到你能够创造价值那个节点要不然你不进化其实之前花的钱才是真白花了是不是可以这么理解大概是吧我来这么解释就是说我们可以用一个数字来描述 MOE 做的有多好

就是说如果当你有比如说 20 币的激活参数它能等于多大的一个虫米模型过去 Mistral 认为这个比例应该是 3 就是说一个 60 币的虫米模型和一个 20 币激活参数的 MOE 模型应该表现差不多但是我们自己测出来的我们觉得可以做到 6 甚至 7

所以换过来说就是说如果你决定用稠密模型来训练一个大模型我们有这个 know how 来去做 MOE 的话我们多花点时间多花点苦功夫一旦克服了 MOE 的训练的种种问题之后我们可以用 1/7 的激活参数跟你达到一样的表现这就回到你说的了 Meta 可能就说我不在乎

我可以想像当时 Mark Zuckerberg 觉得这个 Meta 严重落后了我们要尽快速的去赶上训练一个世界前十的模型最快的方法是什么去学 MOE 学不来还不如就做一个超大的 dance model 然后就花钱来买时间这是他选择的方案

但是后果是什么呢后果就是说你如果是人家 7 倍的这个参数量那你的你必然的你的推理就会比别人慢而且 MOE 本身它就是参数量小它就是比较效率高就是能够省比如说 3 到 7 倍的推理成本

所以而且我觉得今天这个时代尤其在中国最重要的就是我们要好的模型一定要快一定要便宜要不然的话我们永远找不到 PMF 所以假如今天我们全世界唯一的选择是 Lama 405B 那它今天依然找不到 PMF 因为它的模型可能够好了是属于世界前十但是没有人用得起啊

所以我们如果真的是要让这些众多的 APP 的开发者百花齐放我们一定要给他一个白菜价的顶级模型不能给他一个很好但是用不起的模型所以我还是坚决的说如果你有技术能力愿意去花时间去琢磨能够把 MOE 的模型练出来

那这个模型是会有更大的商业价值因为它的推理成本会远远低于一个同样表现的一个稠密模型因为它会更大嗯

这个我引发了我一个思考或者说这可能也跟这种大的格局我们怎么判断它挺有关的就是因为刚才开复老师也讲到了比如说巨头们如果在今天存在一种方法就是砸足够多的钱只要我不在乎砸足够的钱它就会是最好的那这件事且它会越来越好好到别人无法追赶

那这个路线他一定得出的结论就是这个事只能是少数人干

那这个时候你在旁边比如我的手艺好你跟工业化的一种东西就没法拼了但如果在今天不存在一个这种工业化的持续成长的就是只要往这狂奔啊大力出奇迹他就能一记绝尘如果不存在这一条那这个时候可能就变成说在里边我们要雕花要在每个细节较劲在每个自己的选择方向上去做深入他就能够产生价值所以嗯

我们在今天看整个全球大模型技术的发展可能一个非常重要的基础的判断是在于到底它未来会是一个还能一路狂奔有足够的钱就像当时 SAM 说那个 SAM 奥特曼说你给我多少万亿我给你 AGI 对吧如果这个东西真存在这样的一个公式那看起来可能那就是少数人去做这件事剩下的人你是不太能追得上对吧但

还是说这个情况今天已经不是这样就是在各自的这个记忆上未来在更细分的领域里大家有发挥的空间了对首先我们一个问题就是说假设我们有无限的资源什么时候能达到 AGI

这个问题很有意思因为之前有一篇 paper 叫 Situation Awareness 是一个 OpenAI 出来的年轻人他写的他认为三年但是我前几周在硅谷见到他了我觉得他肯定是过度的乐观了但是我也相信 Scaling Law 加上一些算法的进步再加上花很多钱是会达到 AGI 的

我们如果假设 AGI 的定义是说 GPT2 到 4 进步了多少我们就在 4 的基础上再进步同样多

就相当于 GPD6 假定是这么说就是上升两个版本号对但是我们可能达到的结论是可能要做到 GPD7 或 8 才会达到双倍也就是说我们看到了一定的程度的 diminishing return 它的效果是递减的可能你要两个版本从 2 到 4 但是你叠到 4 到 6 可能会需要 4 个版本

为什么是 4 个版本因为之前大概是一年半迭代一个版本今天有一个我认为非常靠谱的组织叫做 Epoch AI 你们有兴趣可以去看一下 epochai.org 它是一个公益的智库它做了非常细腻的研究然后它会研究世界上能生产多少芯片世界上能有多少数据

然后把芯片堆起来它会有多少的 latency 的问题因为它就是帮我们计算了无线资源能有多无线其实也是有限的对

对其实是有限的他得出来的结论是 2030 可以达到所谓的 GPD2 到 4 的提升在 4 再做一个升级你要把它叫 GPD6 或 7 或 8 都可以但是大概的意思就是说如果我们从一个幼儿园到了一个高中生我们要做一个类似幼儿园的高中生的提升再叠加在高中生上你可以把它当做一个科学家或者一个博士后我也不太知道怎么定义但是 2030

所以我觉得我研究了这篇 paper 我觉得它比 situational awareness 更靠谱当然我知道有很多人会比我更乐观包括 Sam Altman 但是我觉得我自己做了一些研究以后我觉得 2030 可能是一个合适的时间也就是说 6 年以后我们达到所我们就姑且把这个 2 到 4 4 到 6 7 8 这样当做一个 AGI 的定义的话可能是 6 年对

所以回到你的问题啊假如我们说要达到所谓的 scaling law 狂奔 AGI 不惜代价的打法是需要六年的时间而且会需要大量的资源这个资源你看看这篇文章会吓死的可能都不是什么十亿百亿美金可能还要再加一两个零是非常巨大的一个数字所以我觉得舍命狂奔是肯定有人会奔的嗯

然后也可能会奔出一个奇迹来但是可能要 6 年的时间所以我觉得首先我们可以坐在这里酸葡萄说我们没有那么多资源那真什么什么的但是我觉得与其去羡慕人家我们应该看到花那么多钱烧出一个不确定性那么周期长的我们还不如做点有意义的事情

因为前一阵还有另外一篇 paper 是来自一个机构叫做 altimeter 写的特别好特别简单他就是说今天我们大家舍命狂奔最后带来的是一个病态的生态系统

也就是說如果每一個公司都相信我們全部大力出奇蹟 scaling law 我每年加 10 倍或者兩年加 10 倍的算力我一定要燒出個 AGI 來到時候不但我贏了我可以碾壓所有的人如果每一個大公司每一個有資源的公司都往這個方向做

那最后所有的聪明才智精力都花在怎么去烧个巨大的模型怎么让十万张一百万张英伟达能够在一起工作然后不降低太多的效率那最后的钱都被

芯片 GPU 英伟达转去了那么你的生态如果我的生态系统如果我们把大模型或者 Gene AI 看作一个生态系统底层是我们的芯片中层是我们的平台平台可以是云计算商或者是大模型 Infrastructure 在上面是我们的应用今天

芯片赚的是 750 亿美金平台层赚的是大约 100 亿美金然后应用层赚的只是 50 亿美金而且大部分是 CHATGPT 一个产品赚取的所以这就是一个病态的一个生态系统

因为一个好的生态系统一定要让用户得到福利用户得到福利才会付钱给 APPAPP 才会把它的需要的进步告诉平台层平台才会推进芯片过去的 PC 移动互联网都是越来越多 APP 带来了

软件平台操作系统的进步再带来了芯片手机的进步再迭代出来大家买新手机买新应用就滚到了今天的这伟大的一个手机的生态系统那如果说最厉害的最大的公司有最多资源的公司他们的心思不再归我们的用户做出很多 APP 来或者提供很便宜的

API 然后很好的模型很好的工具让很多 APP 开发者能做出 APP 来他们的心思全在我怎么烧个大模型这个生态就会继续的病态下去

所以我们认为我们在零亿万物坚决的要做一个 pro ecosystem 就是认可信仰生态的就是说我们要把很好的一个模型未必是疯狂的 AGI 烧出来的而是尽力做的很好的模型用很低的白菜价让很多的人能够开发起应用来这才是在未来一两年用户真的需要的对生态系统更好的

我再最後補充一點就是說 OpenAI 這個公司它的壟斷思維是很可怕的我見了幾位它的前員工它現在的員工肯定什麼都不會說

就讲了我刚才这个理论我说你觉不觉得你们公司或者你的前公司是太花时间去烧 AGI 没有顾及 ecosystem 跟应用开发者他们笑了笑就说 Dr. Lee 我们从来不相信有什么生态系统我们认为我们烧出 AGI 以后所谓的 APP 就是一层薄皮挂在我们的 AGI 上面值钱吗有价值吗用户要付钱给你们吧还不如付给我们

所以这种一方面是理想另外一方面这是一个双刃剑一边是理想一边是傲慢然后是对生态的无辜所以我觉得我们要换一个思路要把我们 PC 跟手机打造生态系统的思维带进大模型时代让这个白菜架能够让很多 APP 开发出来然后这些 APP 各自有自己发展的空间成为了

GNAI 领域的抖音微信建立他们的护城河这样哪天一个公司烧出了 AGI 以后它不是一家独大还有一些其他的很强的 APP 有护城河的 APP 来跟它竞争这样我们用户我们的生态系统我们的开发者才有未来否则不就一家垄断我非常同意开复老师刚才说的点在听开复老师讲的时候我脑子里就在

人类历史和经济发展的过程中我们就去搜寻了有人类历史里曾经出现过某一个什么东西被几家企业竞争完然后成为了对世界的完整垄断经过他们烧了很多钱去干这件事的历史的成功好像其实我一时确实没有想到特别类似于这样就只有这一家有这样的东西进而他统治了这个世界对吧就是有啊有啊核子武器不就是吗这个

这个不是我说商业体系啊我刚才说只有在核武器这件事上就换句话说你刚才我听你讲的时候脑子里想到的就叫军备竞赛因为你有我没有我就完了所以我一定有几家有能力的我们都得有这样所以就整个呢那我们也看到就说最后就是没人搞面向社会的经济建设

就几家巨头为了维持自己的霸权然后去发展核武器 AGI 就变成了一个本来应该去更普惠所有人的这样的一个生产力它最终会变成了一个说是皇冠上的明珠最后成为了霸权的这样的一个工具但我认为呢其实商业世界和

和这种所谓人类的社会的这个东西还是有差别商业世界有它的规律对吧在这个里边可能天然就会反这样的东西因为这里边我觉得最大的一个问题是在于你能不能做到最后是一个你做不到就是零做到是 100 在零和 100 之间它没有过渡段

那这个事其实是个最高风险的问题对吧你可能会连续投了几百亿上千亿一万亿美元到最后可能他没到最后他没到那个从二到四他只是从二到三那这个时候怎么办所以他那个价值可能就形不成绝对垄断那反过来另一条路线就是叫一步一个脚印把这个生产力做到位真的为社会创造价值一步步发展其实在商业世界里的金融机密往往是

这么走就是一个人突破带动一堆人然后再突破再带动一堆人你看苹果当年给整个移动互联网带来的这种解放苹果获得了很大的收益但我觉得这个世界上还是要有 100 倍多的人要创造了因此创造更大价值这才是一次真正的技术进步

所以我觉得从历史去看的话似乎也应该是这个道理当然我觉得每个人在占有不同资源的时候他就会有不同的选择那这就不好说但我相信 OpenAI 的选择也不会是无限的反过来就是站在创业公司的角度

更应该能够去理解就是自己接下来要做的这个事我确实很赞同啊帮能够真实创造价值就是创新而不是绝对的那个技术的所谓的绝对的高度啊说到这儿呢我觉得就再追问一点啊毕竟比如 open air 在今天可能还是有一定的领先性的包括欧万出来之后呃

之前这个 4O 出来大家都在追刚才开复老师也说 4O 这个标准就应该是一个能未来让更多应用创造价值的东西那 O1 出来之后可能大家也在追想听开复老师评判一下就是在今天如果是一家做模型自己要做预训练的模型公司他最终

到底什么东西是一定要追上就拿今天的 OpenAI 比一定要追上包括比如说像 O1 这样的东西可能要花多长时间因为看起来这个呃他会这个距离越拉越远追起来越来越时间长的还是说他会越来越近这个我觉得是两个两个问题到底要追的什么以及这个时间会变长还是变短嗯好的对我个人是非常认可 O1 他带来的价值嗯

因为他真的把快思考慢思考能够拆分了出来他在很多问题上就是说你去做 next token prediction 的预测他并不见得能够加很多分写一首诗写篇文章他并不见得比 4 欧做得更好但是在很多数学代码推理问题上他能做得很好因为过去的这种快

快思考的模式他并没有这种批判式思维自我修正或者是自我反省的这些能力而当他用了貌似是用 chain of thought 的方法然后再加上了强化学习是能够 guide 这样的一个推理引擎去不断的去重新思考推翻自己就和人一样人很多的这种很多数学的难题不是一秒钟可以答上来的

但是要你写首诗如果你是个文人像曹植这样的就岂不能成诗所以我觉得这个快思考慢思考确实是一个非常有意思的东西而且两个是彼此互补的然后我觉得在看到网上 Lacombe 跟 Norm Brown 的辩论也非常清晰的就可以看到就是说 Norm Brown 就是说我们这个欧万里最了不起的就是这条线

這條線就是一個推理的 scaling law 也就是說我這個算法不告訴你是什麼但是當我花更多時間思考它會線性的變得更聰明那一定程度就像我們用更多的算力在預訓練的時候把它變得更聰明這是說用在推理時候也可以如果是理科生的題目的話所以這個是非常有趣我覺得做這一類的 inference time 的

投入跟理科生的大模型是每一家认真的大模型公司的必修课要不然的话你就错过了这个阶段而且还有一点他能够使用的就是说然后我不觉得会花很多时间能够做出很有意思的东西来

其实我们思考一下为什么以前的预训练你再叠加数据不见得能够那么快的提升因为世界上就那么多数据你在家再去找当然可以加一些但是而且当你做后训练的时候什么是对是错这个判断很难决定你找人来标每一个人判断又不一样但是世界上有些东西就是真理一个数学的对错

它的一个理论的对错或者一段代码它能不能做出题目的要求它就是不是对就是错所以你是可以用真理来反馈这样的一个强化学习我们也知道从 AlphaGo 到 AlphaZero 可以看到的就是如果你能有一个接近真理的一个 reward function 跟反馈你就可以训练得很好

那我觉得这个巧妙的认知这个认知其实我们很多家都是知道的就是说在数学和代码方面你是知道真理的所以用真理回头去教你的模型一定能教得更好

但是他这里又补充了一点就是说你教的时候不要总是去调你的模型参数你要去调他的思考方式因为毕竟理科生解题的方法跟文科生写诗的方法是不一样这个我觉得是一个特别巨大的一个理解的突破他并没有多大的学问但是我们就是没想到人家 OpenAI 就是厉害那么回到你的问题说我们各家都去拍脑袋猜怎么做

我个人认为数学题跟 coding 题这些数据集在网上是非常多的所以并不是说需要你去用很多的 GPU 还有很多的尝试不用烧 GPU 大概就可以做一些实验不用烧很多 GPU 所以它的实验的成本不是很高而且很多高校很多学校的博士生都可以去探索而且它的数据集挺多的而且也是比较正确的

而且我也认为 OpenAI 走的这一条路径就像当年稠密模型的路径未必是唯一的也未必是最好的

我觉得今天已经有很多人提出了不同的思考在零一万五就有三个团队提出了不同的方法来去用 openAI 典型的方法论但是方法是我们自己产生的我们也不知道哪个会最好那就赛马吧我想每一个大模型公司可能都有这么三个团队大家做一做算出来我觉得整个行业 openAI 的人可能是全世界最优秀的几百个人

但是全世界就是对不起 OpenAI 可能是任何一个公司或高校里面人才密度最高的顶级的人数量最多的但是我把全世界通通堆起来肯定是要比 OpenAI 还要多个上百倍那这么多人都在思考典型了以后那一定会想出同样好甚至给一些时间更好的方式搞不好最后 OpenAI 还要读一些论文回去弥补他们的算法嗯

不过还是很佩服跟感谢他们嗯所以我我觉得我是乐观在三四个月之内我们就会看到不同的不只是研发机构大模型公司大厂包括高校都会出一些很有意思的东西非常期待来读这些论文嗯

某种程度上是说就是欧万指出的这个路线之后在未来三四个月我们就能预期看到在这个路线上路线的指引下会有一些呃这种大模型带来的哪怕是局部而不是一个泛化领域但这个局部他用新的创新的方法也好对吧或者顺着这个路线呃

他能够快速的追赶一行我们就能看到一些进展和结果也就是这并不是一个被拉远的距离而是一个是可以往前走甚至还没准有一些创新空间因为他毕竟这个事解锁了一些新的创新的可能性而不是只在原来对数据这件事对

对嗯对我跟你讲个八卦嗯啊因为我刚从硅谷回来嗯啊这个八卦还是比较准的嗯啊啊 openai 首先 gpt5 训练的不太顺利就是因为他这个 10 万张机群蛮难搞定的啊反正

反正迟早会训练出来的啦但是没有想象那么顺利那他这次又要融资那 GPD-5 没出来比较没有一个没有一个这个由头来让投资人投他嘛因为大家看来都在追赶他有些也快赶上了所以他就只有祭出了他的一个内部准备不发布的方法就是 O1 他这个 O1 本来不准备这么快发布的是因为 GPD-5

不能够很快出来但是他又急着要融这几十亿美金所以他只有寄出一个内部的一个东西

然后他们内部的人还告诉我说我们内部有很多好东西你以为什么什么是谁谁谁发明的其实我们一年前就做出来了只是我们没有发布因为我们一发布你们就会学嗯所以他这公司真的很牛他应该还有很多牛的东西我们要一定尽快的追赶他让他有压力这样他就把一些好东西丢出来我们大家就有更多的灵感了哎这个我觉得

很有意思一个视角啊就是追的越近呢可能反过来他就把自己压箱底的东西拿出来越多某种程度上我觉得他也也是在这个路径上确实是有他的优势和领先啊对绝对还是有我觉得还是不能低估但反过来呢就是说他每一次往前的东西能够释放出来因为就像我们说这个他确实是这个团队尤其是现在创始的很多成员都离开之后 Sam 已经一统江湖

他这种非常强的这个这种霸权思维对吧我觉得还是挺明显的在硅谷大家也会这么干的对吧这不是咱们作为中国的创业团队看的其实硅谷反而比我们说的更更加狠一点对吧所以在这个思路上就只有去迫近他才能去呃

把它更多的东西逼出来但总体我觉得都是推动技术进步的事那刚才开复老师讲到了一个挺好的比喻啊说其实如果我们把 4O 理解为还是顺着 GBT3.5 这样的一个文科生一路越来越是一个优秀的文科生对吧

然后但是到了欧万之后呢你发现他是理科生了文理兼修了就是是这样的一个感觉所以接下来很重要一点一方面我们国内还在努力的追这个富欧而且富欧其实看起来大部分的公司还是能够往上去寻求一些这个跟他很接近的结果但欧万这件事也是一定要追的对吧就这理科生这件事也是要追的而且在未来三四个月可能就是

是不是一家 qualified 的公司三四个月能不能拿出这样的东西就会变得很重要对不一定赶得上他我是说三四个月会有要有进展要明显的进展能拿出来明显的有进展对可能还不能赶得上他不能说叫赶得上对对对但是应该也不会太久能赶上因为我们不只是自己在想三个方法

我们还会去读别人的 3000 个方法然后最后也许是别人的方法比我们的更好或者结合起来用所以给足够的时间肯定可以赶得上但是三个月应该可以看到一些初步的一些认知和进展这个里边也有一个有意思的话题可能我们往前置去思考一下你看过去开复老师也刚才也在跟我们说接下来应该更多的去很多团队可以去思考用大模型去做应用了

但如果我们当时没有欧万之前我们脑子里就是我们有一个很好的文科生在这边复欧我可以用接下来比如在中国也会有这样的模型像咱们 01 的模型我也可以用但未来现在欧万出来之后预期在半年内吧就会有很好的理科生这样的模型会出来

那这个是不是对于未来应用创业也会带来变化因为在过去供给就只有那个但未来的供给变了那这个技术的供给一旦变化那应用的方向或者这种好的机会是不是也会变化帮我们能不能分析分析这种变化带来什么样的连锁反应

對好的我覺得其實大部分的應用還是會在文科生的基礎上做因為很慢的思考是很致命的我們移動互聯網很多應用如果說要想 10 秒到 1 分鐘用戶就不用了就你想你刷一個抖音如果刷出來一個視頻要等 1 分鐘你就不看了

如果你做一个 Google 百度的搜索一个搜索结果要一分钟你可能干脆根本就不搜了所以一分钟是很致命的所以我觉得除非我们能把欧湾 style 的这个推理变得很快要不然的话他的这个时间就会让他局限在一些用户愿意等的领域这次我去硅谷也见了一个斯坦福的教授

经济学的教授他说他就在用 O1 把他当做一个博士生来看待所以他会出题 O1 解题然后解了他会点错他也会犯错 O1 也会犯错他跟我说我一般我给博士生一个题他需要几个小时甚至几天来解

O1 一分钟能解我已经起初忘外了所以这个应用上就是你拿 O1 来替代一个博士生它的速度是绝对够快的而且太快了但是你拿它放到一个搜索引擎里面去等一分钟那是绝对不能接受的所以

所以我们就要了解就是说可能 O1 它的应用场景是那些比较深的问题也许是写代码的做学术的这种应用所以如果要开发这类的应用可能用的是这种的理科生 O1 但是大部分的应用我觉得还是移动互联网式的就是一个 AI first 的抖音 AI first 的搜索 AI first 的这个

生产力工具等等的那么这些所需要的可能还是一个传统的文科生 GPT-4O 的这种款式的方法去前进顺便这里再插播一个我们的模型的广告我们的模型我们今天看到 O1 出来我们觉得我们有巨大的优势为什么因为

如果说我们做出我们的 O1 以后那如果一个 O1 基本上就是比一个原来的文科生版本假设我们的 E-Lightning 是一个文科生版本然后假设一个理科生版本就是会让它变慢三倍到二十倍吧但是如果我们的速度是超快如果我们是 0.2 秒

你三倍的话也不就是 0.6 秒吗嗯你 20 倍的话啊也不就是几秒钟吗可能我们还真能做出一个啊非常非常好用的一个理科生而且快速的一个理科生的一个推理引擎啊而且我们啊内部开发我们的欧万希望也能有优势因为我们如果用我们的 lightning model 来做嗯

它就是那么的小所以我们做实验结果就会快所以我们的三个实验也许会比一些友商要快个几倍出结果那如果大家聪明才智都一样但是我们做这个研究速度可以快个 5 倍 10 倍那可能也会有一些优势

所以这又显示了真的要做模型不能只看它的能力还要让它非常的便宜非常的快这样无论在各种应用上文科理科的应用还有自己内部做科研做研究都会有很大的一个提升和帮助

听明白了凯夫老师之前在文科生模型上主修一个成本低大家都用得起的好模型然后在理科这个上面就是说我在慢思考上做更快的速度这件事就可能能让他在更多的领域能发挥作用你看这都是大家会在一个大方向上会有自己选自己的最重要的点那个点可能就是我聚焦能量要去突破的

而如果你要说每个都要对着别人去追其实反而是被动的我觉得这个里边感觉得到就开复老师是带着这种选择去做的那听下来刚才的结论就是欧万确实会在解锁一些新的可能性但主体接下来做应用呢你还不要只等它因为那个场景还是有限但我们也最近看到有一个场景可能大家都挺关注的特好奇开复老师会怎么看就是这种编程的这个领域里边代码

那在这个领域里面你看这个看起来他本身就是算理科生的领域而且他可以慢思考一点我没关系我不需要他下一秒钟就反馈给我他哪怕想两个小时想半天最后给我交付一个很好的东西我可以 OK 的因为原来我都是用人我还得等我得等一个月的现在他能一天给我我已经开心死了对吧那是不是意味着在有一些这样的领域里就会真的未来预期会出现变化就是这种 AI 编程呃

他最终在里边会考验的是什么以及就是欧万这样的一个形态就是最好吗他存不存在着在里边有新的呃这种架构的创新空间把神经网络甚至最近我们也看还有包括有什么用 ple 的结构啊等等各种的讨论都挺多都甚至我会觉得比当年刚看到 3.5 的时候这个这个挺百花齐放的各种想法都变在变多是不是也意味着在李格生这个路线上呃

未来我们还会期待有很多新的变化并且如果编程一旦这件事是可预期编程是可预期的这本身又是一种重大的生产力提升会对产业带来影响这个看起来是两个问题但因为我相信可能也是一方面是要有新的创新然后再到看是不是真的在编程上已经能够稳定的成为一种自动驾驶的生产力而不只是 call pilot 这种存不存在可能性开复老师会怎么预期这个未来

对我我肯定是比较乐观觉得即便当时还没有 01 没有李克生的时候编程都已经做得非常的好了嗯然后我们觉得今天有这个李克生出来以后他的提升空间应该是非常大的就像你说的对时间的这个不是那么的敏感对

当然我觉得对代码可能还有一些就是我们如果里面有幻觉还是蛮严重这个是可能会比其他的应用更严重然后尤其是如果要用在一些非常 mission critical 的应用上面这个代码的正确性还是非常重要当然话说回来人写的代码也会有 bug 所以我们的金标准不是一个完美但而是一定要肯定比人出的灾难性的问题要能够少

那一个长的代码去做一个证明它是一个正确的也不是很容易的事情所以这些可能还需要努力我觉得短期应该还是一个 copilot 的状态所以还不能预期很快真正出现 autopilot 的这种把直接一个 AI 的程序员对吧这个还是不能很快预期出现但是在有些比较简单的重复性的部分是可以 autopilot 的

所以可能是一个就是说程序员还是在看着他 watch 着他管着他有点像开最新的 Tesla 的时候基本是车子自己在开自己了

但是你可能偶尔还是要稍微关注一下在某些情况之下要确认是 ok 的所以就有点像是一个 Tesla 的 L2 的第一个版本到了现在几乎已经是 autopilot 了我们也会觉得编程和很多其他的问题都会去走这样的一个道路

如果我是一个程序员有可能我很 enjoy 我认为已经是 L4 的体验了但是问题是

那个程序只负 L3 的责任只负 L2 的责任对吧它不能确保这个东西一定是对的今天我们在很多自动驾驶有人真的当 L4 在用但真出事了是人的责任对吧所以某种程度上这个就是说因为真正从科技定义上的 L4 和用户心理上的 L4 是不一样所以有可能本质上还是 call pilot 的但是它已经开始呈现出 autopilot 的

体验啊就是所以这个确实是存在可能而且可能会越发展速度越快啊对而且就是当人发现在很多情况下他比人厉害的时候嗯人就会算了我就不管了嗯

所以当你发现 Tesla 很多情况开的比你好你就可能就不管它了虽然它偶尔还是会犯很严重的错误同样的一个编程的 Co-pilot 也好它叫做 Co-pilot 最后责任要人来负但是人发现它太牛的时候

也有可能就说 100 次里 99 次你都这么牛我就不管你了随你做然后到时候我就说是我写的我负责任但是 100 次里出了一次的问题说不定就灾难性的所以这一类的问题我觉得以后会常碰到

之前我的书里面也谈到了就是医生以后诊断 AI 诊断的比医生牛了但是偶尔还是会犯严重的错误这个时候但是医生可能已经对自己失去自信了所以每次看到 AI 出了答案都不敢去挑战它修改它最后就完全靠着 AI 但是 AI 是可能犯很严重的错误把病人医死了

而医生是不会做的所以这些可能以后都是各种的这种人的习惯性跟自信丧失之后过度信任 AI 带来潜在严重的后果这个是值得担忧的虽然看起来有些东西 AI 已经到位了但是我觉得还是要对这事真正你大规模用起来尤其是做一些这种比较关键的问题的时候可能这些公司也要在上面做对应的思考对吧

其实当年马斯克说他当年也就是个 L2 的自动驾驶他就叫 autopilot 我们当时都吐槽说明显在误导大众但可能就是这么走过来了反过来未来 AI 如果在这么大规模应用的情况下反而是要更认真地看这个问题

看起来行如果实际上还真的没有到那个那个标准反而是可能创业公司也要在这方面更严谨的去设定的这某种程度上也在体现了就为什么技术还是要往上发展不要看起来行就行啊

这个是挺重要的一点那这个我觉得也引发我们再往下的探讨啊既然我们也看到了一系列的技术的变化产业的变化我们再反过来去看比如 transformer 带来了这一波这是这一波的 AI 的变革的这个基石啊然后我们经常会探讨会

会就在这个上面一直走吗还是说未来还有可能出现新的东西甚至连这个基石都可能会有创新凯夫老师刚才也讲到 AI 这一波的变化吸引了全世界最优秀的人最多的资源开始聚焦那就意味着 AI 这个场子热起来了是不是有可能在未来还会有这种连 Foundation 都会出现创新和变化的可能性这种因为您研究这个 AI 这么多年你会怎么看

对我觉得最终一定会出来更新的模式然后可能会是学术界出来因为我觉得在产业界做创业公司也好大厂也好去试一个新的东西成本有点高

所以我觉得过去你可以看到当搜索出了 Google 以后或者是当语音识别出了这些很多很厉害的语音的公司以后机器翻译一个一个的产业里面都标准化了学术里面反而觉得 Transformer 做不下去了

因为打不过业界它的数据多产品好然后团队大工程力强 GPU 多所以你可以看到这一次又一次的从搜索到语音识别到人脸识别到机器翻译慢慢的学术界就放弃了就让产业界去 takeover 那么这一次我觉得 Transformer 应该是肯定被产业界 takeover 了

学术界应该是很难在这个领域上做出太多的创新但是我觉得这也是一个很好的时候因为啊产业界可能可以发现 transformer 可以赚这么多钱都去做了那学术界反而是可以发明一些新的东西嗯

那之前我们也看到 Jeff Hinton 有提出新的 ideaYoung LeCun 有提出新的 idea 所以我觉得这两者的并进本来就是我们的这个社会里的一种分工的机制让要赚钱的企业去把一个已被验证的东西不断的发扬光大做到极致那学术界就在做下一代的东西所以我觉得我们会看到这样的一个情况

那本来 Transformer 这个东西它本身到底是不是还有发展的空间我认为是的因为我们这个 Predict Next Token 猜一下一个字它真的是智力吗貌似好像不是但是你仔细思考一下假如你是个侦探然后

然后我把一个 case 全部丢给你所有我知道的嫌疑犯跟命案的当场发生的事情跟报纸等等全部都告诉你你读了 100 万个字以后最后我的一句话就是杀人犯的名字是然后要你去预测下一个字如果你没有彻底读懂这整个案子你怎么能知道杀人犯是谁呢

所以就是說它真的是需要思考才能推出最後下面的一個字或一個名字或一個 token 所以我覺得是有道理它做 predict next token 是引發的這種思考

思考而且我们看很多很神奇的事情今天我跟几个不是学计算机的他们就说大模型都会翻译吗我说会啊他怎么学的我说你们觉得怎么学的然后每一个人就说你是不是有字典有算法教他给他例句两个文件对照我告诉他们根本没有

就是把所有的文字通通丢进去让他训练最后他每一个语言是什么对应别的语言是什么怎么翻译他就自己学会了如果 predict next token 没有真的理解的存在一定程度的理解的存在他怎么可能机器翻译就无师自通所以我觉得 transformer 它还是非常 powerful 的所以我们我不会认为它很容易会被颠覆而我也认为它本身是有道理的

但是最终人类的科学还是会进步的我也不会相信它就是一个终极的解决方案最终我们还是会看到走在 AGI 的路线上也许有一天真的碰到了什么瓶颈或者哪怕达到了 AGI 但是还想做得更好最终一定会有更新的方法出来但是因为现在大部分最聪明的人

都涌入了 Transformer 的賽道所以剩下來的大腦不夠多了只有大學的教授跟學生了那他們可能在賽跑的路中想出一個新的方法並能夠有足夠的資源去驗證它會需要一點時間因為畢竟大部分的 GPU 資源大腦團隊都放到 Transformer 的賽道了所以這是一個不太公平的賽跑

如果我們這兩種方法各有一半的人我覺得可能很快就會有更好的方法出來但是現在可能是 98%的人 99.9%的 GPU 都放到 Transformer 賽跑所以新的東西要賽出來可能需要有一點耐心給它一點時間然後可能來之高效

就开复老师说的这个特别到位就是你要说会不会有新的机制就是长期来看中期来看肯定得有对吧人类从来这个技术都不会停在一个地儿然后就不改了那一定要进步但确实短期来看

它又是一个能算得过账的事就资源全部聚焦在这儿那别的地方就少那那条路线它出现这个新突破的概率就低而这边反而把它夯实的这个速度可能会更快所以这个就是一个在一定周期里会发生的这样的事情那对于创业团队它肯定要站在它可见的周期里去做这个思考啊

我看这个刚才我们直播间里很多人就是很担忧说 transformer 如果要是被颠覆了会不会今天创业公司都没有价值啊我觉得这个事其实可能不值得按这个方向去想对吧更值得想的是 transformer

Foremer 这条线上创业公司们怎么能找到自己的价值那这个是今天可能更务实的一个挑战和问题那我这个问题也就顺着这个就展开了比如说开复老师我们刚才我也知道像零一万物本身有开复老师坐镇也有非常强的团队但毕竟是创业公司对吧

你看今年咱们国内这个刚才你也在提这个签问啊包括我们也看到字节在这个领域里边啊又有钱又敢花钱而且确实也

开始金团式的作战在大模型的领域做对应的投入都已经看到一定的成果对吧巨头们在中国也没躺着技术也确实做的在全球也都是能看得见成果在中国这种环境下有咱先不说美国中国还有一堆巨头创业公司们这模型的创业公司们怎么办这个里面怎么在里面找到自己的生存发展之道怎么找到值得自己创造的价值

这个边界这个选择到底应该怎么定呢嗯对首先我不太接受创业公司就打不过大场因为 OpenAI 就是个创业公司嗯他就打败了 AI 的鼻祖这个 Google 对嗯而且多年 Google 追赶还追赶不上啊另外的话我觉得创业公司有它的弱点啊资源少人少 GPU 少嗯但是它也有它的强项嗯

是能够更结合起来作战比如说我们的 e-lightning 怎么训练出来的就是因为我们团队小

我们做推力引擎的人做 infrastructure 的人懂芯片的人设计我们的服务器的人还有我们的模型训练的人还有模型框架的人都坐在附近他们是一起把 e-lightning 做出来的在一个大厂里面通常一个 infrastructure 是给一个 VP 汇报的

然后 model 可能是给另外一个 VP 汇报 app 肯定是给另外一个 VP 汇报的这三个 VP 的 KPI 不一样要去对其做好一件事情是肯定也是会有难度的可能这是第二个大厂会要付出的一些代价其实还有第三个是商业模式的问题

最近我们可能看到 Perplexity 似乎抢走了一些 Google 的份额或者它的光环其实 Perplexity 连个搜索引擎也没有连个大模型也没有它凭什么抢走 Google 的份额这绝对不是一个技术问题而是 Google 的商业模式的问题因为 Google 它不敢做 Perplexity 这样的一个产品就是一个几乎没广告只靠用户付费

然后是一个用 AI 来回答一个答案再有其他的东西来去辅助那么这个东西 Google 要做肯定比 Perplexity 做得好但他不敢做因为他如果一做了他就有面临 Innovator's dilemma 就是我之前就是 Innovator 所以赚了这么多钱今天我的广告收入有这么多我竞争对手一来打我我就跟他

做成一样的东西我的广告收入就归零了因为他是光脚的不在乎你可是穿鞋的你不能是他一来你也把鞋脱了这个事怎么办对吧

对所以就是说大厂它有它的优势也有弱势但如果我们务实的来看的话今天我们在 LMSIS 打榜是有幸得了中国最高的分数但是另外下面还有三家表现也都很好的那这三家里面我们一共四家在 LMSIS 有去竞技嘛

其中的三家都是创业公司,只有一家是大厂。所以我觉得从真实的结果来看,虽然大厂有更多的资源,有更多的钱,更多的 GPU,但是今天我们如果把 LMS 的竞技场作为一个比赛的话,其实是 3 比 1 的,是创业公司比大厂要多的。

所以有的时候资源的短缺或者说资源的丰富也许反而也是个诅咒资源的短缺反而可能是一种动力然后它会让你追求更高的效率更多的创新否则的话你无法生存所以它在这个环境下反而会带来一些它的这种创新的必然的发生我就突然想起来当年

这个我那年 2014 年把马斯克请到中国晚上我们有个晚宴在聊然后当时是亚琴坐在我跟马斯克旁边亚琴就问那个马斯克一个问题说这个为什么 NASA 有那么多的资源他在这个火箭回收问题上做不好你能做好然后马斯克说就是因为他有太多的资源

我至今记这句话记得特别清楚就 too much resources 对吧就是因为有这样的一个原因反而他在一个短缺的状态所以我觉得可能对创业公司我觉得一定程度的短缺是创新的动力对吧也是他能够去战胜大厂或者说在一些领域里产生颠覆性的东西的那个原生的东西没这个反而不会有

对吧就是你都很充裕咋会创新呢大家都去大力出击机就好了所以可能这是个挺哲学的问题当然短缺有短缺的痛苦了对吧就是只不过说我们根本上看可能它确实是个动力

对我觉得非常对英文有一句话叫做 necessity is the mother of innovation 就是当你的资源的这个缺乏然后你有这个必须来做一件事情你就会背水一战反而能够做出创新的事情来

其实还有一点我补充一下可能很多听众观众也看了我的前老板 Eric Schmidt 在斯坦福大学的一个采访就是问他说为什么 OpenAI 打败 Google 然后当然之后他很不好意思他这个道

道歉了我以为是闭门的时候没想到就被给传出去了是吧但他说的肯定是大实话嘛他就是说 Google 是大公司了有各种的官僚员工就基本躺平了然后到了下午晚餐的时候就回家了那 OpenAI 是个创业公司就像 Tesla 是创业公司中国的一些公司是创业公司他们 996 这个 007 的去做那拼命的做把它当做自己的公司

来做那肯定是要比大厂的打工者是有优势当然之后他道歉了但是我觉得他应该是说了大实话为说实话而道歉对因为没办法涉及到一个那么大的公众公司当然我觉得刚才其实聊到这一点本质上我觉得他在解读所有的不光是 AI 任何领域都是创业者会一代一代的诞生对吧就是结构工业其实这过去

当时开复老师也是看着经营员从零到一一步走了这十几年我们也看了好多波创业者在各个领域里都是新生代的创业者最终创造了新的价值所以他可能科文规律刚才我们说短缺未必是诅咒可能恰恰是创业公司的动力但我们也要反过来看就是永远不能低估巨头永远不要忽视环境对于创业公司的带来变化因为创业公司还是脆弱的

所以我觉得这个也引发了一个问题就又往前跑了一段时间之后或者说我们跟一年前如果再去看就凯夫老师如果回想一下一年前一些中国创业领域的一些判断到今天如果我们再看有哪些判断是需要做调整修正的

就对于一个 AI 领域的创业者不管是做模型的还是做应用的我觉得因为凯特福老师都跟这群人在一起自己也在创业那你一定会不断的迭代这个思考对吧大概率是隔段时间就要否定一下前面的东西做一下微调然后再对齐到新的方向所以过去这一段时间里边上一次微调调了啥过去一段时间里比较重要的要调整的认知就是是啥能不能 share 给我们一些好的好的

對 我覺得主要的就還是捨命狂奔 scaling law 越做越大因為落後太多我們啥都沒有這是我們初始的狀態我覺得今天的六小虎的初始狀態都是這樣也是完全可以理解但是我覺得跑了一段時間以後可能就要考慮環境的演變

就是说我们一方面是生态需要什么我们能做什么是最有差异化的第二个问题就是说我们能有多少资源来用美国人的打法跟美国人竞争所以我们的这个觉醒应该是差不多九个月前因为在就是一年前我们才在推出了我们第一个模型就是 E34B

那个时候还不是说没有想到这些问题只是说我们无论如何得先做个模型出来要不然什么都没有但做出来以后就开始思考我们这个模型要花多少钱下个模型要花多少钱这个划不划算我们能融多少钱能用多少钱这是一方面的一个 necessity 就是说我们的环境给我们的束缚和限制要面对现实

另外一方面我们考虑的就是说伟大的公司训练出这么大的模型 APP 用得起吗 APP 不出来生态能是良性的吗那我们要走什么道路呢那这两个思考最后导致的就是我们是做了一个调整就是我们还是相信 scaling law 和 AGI 但我们不再梦想我们会是第一家达到 AGI 的公司我们也没有资格没有资本

来去做这件事情但是我们能做的是一件更有意义的事情一方面就是我们做非常好的模型但是又非常的便宜我们自己可以从自己的发展的角度来去做很好的 PMF 的应用就是之前我们提的 TCPMF 就是 PMF 是要在好的技术跟低的成本之下做出来

我们自己控制模型控制推理引擎我们就能做出这样的应用出来

第二呢就是我们一旦做出来以后我们要把这个 API 分享出去让更多的开发者能用白菜价买到非常非常好的世界顶级的模型所以我们这个路径它一方面是可以说是为了大环境和生态啊的一些感触另外一方面是为了自己能够创造价值能够挣钱能够打造差异化嗯

然后还有一方面就是我们钱不够不可能去做那个之前梦想做的事情所以三件事情累积起来导致我们做了一个比较务实的决策就是说我们不再不再加 GPU 了我们就用这些 GPU 然后我们会要非常的省吃俭用用最低的成本训练出模型来然后把模型做到最便宜然后

最低低价最快速然后用它来去做产品的 PMF 这个抉择大概就是今年年初做的吧嗯

是不是可以这么总结就是在去年的时候所有人的共识 AI 做模型的创业者大家的共识都是赶紧追赶对吧然后赶紧做出第一个模型然后去缩短这个距离要望其向背然后在这个范围之内然后逐渐到今年到 24 年开始之后我相信可能大家都开始要在这里边做一些更精细的思考就不是只往前跑而是往哪跑

然后跑的节奏要怎么样然后最终怎么在里面形成这个价值闭环或者甚至把这个奔跑的能力转换成哪种价值在什么方向去让它能够支撑它有一个能量的循环我觉得可能在今年我也观察到好多创业公司大家在这方面的思考

再增加啊这看起来就是过道的一个第二阶段啊就是要让自己的这个更聚焦在能创造价值的方向上找到自己的成长方式对吧从统一的要追赶到找到自己的成长方式这可能是一个共识的变化我可以预测在下一个阶段也看得非常清晰嗯就是说你的财务模型是什么

你怎么样去能有收入扩张收入进而有一天能够有利润因为现在大家都估值这么高了融了这么多的钱下一个阶段再融钱可能基本就是要能说服那些 PE 了就是说我们的 VC 跟 Growth Fund 都已经拿过钱了然后再下一个阶段就是要找 PE 了

我们之前其实也找过 PE 因为我们从一开始估值就挺高的但是跟 PE 谈完以后他就说你的一笔大是多少就是说你的税前的净利是多少我说我们这个阶段就问我们我咋回答对吧然后我其实并不惊讶但是当时还是有点惊讶我说我以为你听懂了我们做模型是什么时候要烧钱什么的但是我也了解因为我做投资我就是好

从你们的词汇跟思考逻辑来说我谈不出哪一天打平我就不要想拿你的钱

如果我看不到我的 unit economics 就是单位的这个经济模型也不要想拿你的钱我如果不能证明单位经济模型已经合理化然后我们现在要规模化能够扩张我们的收入也不要想拿你的钱所以如果我们大家都在大约一个估值水平下一个估值水平是要拿 PE 的钱那肯定要能够面临这样的一个灵魂拷问所以

所以这个事情其实我一开始就知道的所以我们也在一直在做不同的啊学习调整和去寻找怎么样把这样的一个灵魂考问能够交出一个合格的考卷要不然最后融资终有这下一轮或下下轮还是会碰到很大的瓶颈嗯

凯伯老师说了一个非常务实的问题啊这其实也是刚才我特别想问的因为刚才我们其实还是蛮给创业公司鼓劲的因为我觉得创业公司没有天然一定不成的理由它反而有它的创新和这个破土而出的这个动力但务实的来讲创业公司就创业都是很难的一件事对吧就是它都是要从呃

无中生有然后从小变大那中间我们花一点时间去探讨在这一波 AI 的创业公司里他可能面临的风险最大的风险到底是什么其实刚才你多多少少有点指到了这一点你已经直指这个有足够风险耐心在技术上有足够的热情

能给出的钱看起来在这个阶段基本给中国的这些创业者也都给了就是再往下走就这个资源可能这个钱就要往

商业世界里面的更广泛的这个这个这个就价值观不是那么对齐到创技术创业公司而是把你当成一个 business 去看的钱这可能是接下来可以去赢得资源但赢得这个资源有个前提条件就你好歹能有个模型吧你好歹有一个商业模型能算吧对吧不是手里有个技术模型你得有个商业模型可以算所以我我其实顺着这个问题如果我们再去看假定我们说

嗯就是如果 AI 的就做大模型的创业公司如果要遇到问题最终被淘汰有可能最高风险的三个问题会是什么肯定拿不到钱资源不能支持了而又没有赚到钱最后造成这个问题是一个还有其他的吗就我们如果假定拍脑袋列三个的话嗯

对我觉得这个是最大的然后在未来一两年之内会看到一些公司面临这个问题除此之外我觉得第二个问题就是跟风但是跟错方向了就是美国他们烧我也来烧烧到最后发现我只有他一个零头的钱我其实没资格烧但是 GPU 已经租下来了退不回去了或者买下来了或者长期租下来了退不回去了

这个应该有一些公司现在已经面对了嗯但是可能不是不是一个这个致命的东西但是会发现哇我的钱怎么烧的这么快嗯

怎么去控制不要烧完当然最后致命的还是钱花完了但是一个钱花完了是说没有找到商业模式能够容不到钱了另外一个是过度的去用美国的 scaling law AGI 来租 GPU 烧钱

烧到最后发现我的钱只有 18 个月了 12 个月了 6 个月了糟了时间到了这可能是第二个第三个其实我觉得是一个技术创业者常碰到的问题我们在 AI 1.0 也常碰到就是说过度的去认为

比赛创新是最重要就是说我有多少博士我写了多少论文什么比赛我得了第几名超过了对商业的思考这样最后就变成了一个叫好不叫做或者是技术很牛但是商业不落地然后再下面可能就有几个不同的结果一个就是说糟糕没有人投我了我就完蛋了

第二个是说那我就拼命的去堆收入然后堆的过程中在 AI 1.0 堆出了各种低价值的收入就是说我卖个服务器给你然后上面装了 AI 你用不用我也不知道反正服务器算我的收入了然后用这个去忽悠投资人

但是我觉得今天的投资人 AI 1.0 已经有一批上当过了他第二次不会再上当了不会再有这个放羊的孩子能够一次又一次的去骗过这个别人的所以就是说另外的死亡路径就是说只在乎技术完全忽视了商业化

或者把做一些不规矩的或者没有价值的收入来抱着侥幸的心态投资人看不出来看不懂但是现在投资人可精明了 AI 1.0 可能还有一些投资人错过了甚至有一些这种公司上市了 AI 2.0 不会有对我觉得就是说一种就是资源烧完了

然后中间可能如果技术路线选错了跟节奏选错了可能会加速这个进程对吧然后在中间当然你如果原油不办的有人输血拿得到钱他也在扩展资源但反过来这个上面容易犯的问题是他不求真了

其实那个钱不是真正的健康的那样的收入他并没有印证你的商业模型那这件事即便拿到一次你可能也很难持续拿到那最终这件事总有一天会

会崩的所以归根结底我觉得听起来就还是一个要面向长期踩一个 game 这是个中长跑一定不是个短跑那这个过程中就是怎么把握节奏让自己保持能量这是非常重要的不管是技术

技术你有更好的方法去绿色环保的还能技术创新还是说你能够很快找到商业模式变成家里有矿支持你创新各有各的打法但归根结底我觉得要把它当长跑来去做

这点我觉得也确实可能身边很多创业者们我也感觉到大家的思维也都在变化越来越求真务实的去看这事从最开始那种兴奋那种 all in 大家反过来要更加的找到自己应该走的路了这也涉及到一个问题最近在国内

2C 的应用我们一直很期待能够长出来但今天看起来呢好像还没有让人觉得特别有那个样子甚至比所谓的现象级的应用也还不多一方面我觉得可能模型的技术到位刚刚刚刚这个摸到这个边啊可能再过几个月啊

半年我觉得应该会有但 2B 的领域好像还挺热闹的我不知道开复老师怎么看啊就今天是不是在中国的市场上 2B 的应用基于大模型的这种应用已经到了一个能够比较真实的规模化的产生价值的时候了这个背后我不知道你是怎么看对我觉得这个规模化还不能下定论

因为国内虽然有很多公司在采购大模型相关的应用但是同时面临几个问题第一个就是说国内很多采购者他们是用招标的方式然后付费的意愿是有的但是愿意付的钱是很低的

最后你作为大模型公司去竞标拿到了单子做一单赔一单最后带来的是一个双输的情况因为你作为大模型公司收了这么点钱还要赔钱你肯定不要贴你就尽量的敷衍了事敷衍了以后发标的公司就觉得我买来的模型不太 work 这个东西不好所以变成了一个恶性循环

所以这是所谓的项目制竞标带来的一个麻烦

所以这是一个问题对第二个问题就是说我们的很多模型的采购者已经不再要买模型了一年前还有听到不少公司说我要买个模型用来做什么我也不知道大概是这个或这个但是这种所谓的玩家现在已经不玩了他们再不就是自己已经摸透了自己开始开发应用了这个是少数了

再不就是说买模型不知道干嘛有用做了应用呢有一点价值但是也没那么大那所以问题就在于他们要买的是解决方案那这个解决方案是谁来买给他啊所以这个可能是啊是第二种问题那所以我觉得我们如果要走 2B 啊今天我们确实在零亿万物在探索一些 2B 的方向我们会去可能寻找几种客户吧啊

我们会尽量的不要做项目制的做一单赔一单的但是我们可以花很多的精力打造一个完整的解决方案我们会挑选一些领域而不是什么领域都做因为毕竟我们是很小的公司不能像比如说有些大厂有很大的团队来做 2B 我们就会挑一些我们认为大模型对它的价值更大可以帮他赚钱而不是省钱而已然后

他要买的不是模型而是某一个端到端的解决方案然后我们就得咬咬牙把整个解决方案给他开发出来然后让他能够一落地就经验然后一落地就最好能变成一个印钞机他给自己印了很多钞票就会分一些给我们

所以我们在不断的摸索这种场景这种场景肯定不多而且在大环境里大家是一般不用 SaaS 或订阅的模式买软件找起来并不容易但是比较开心的是我们还找到了几个领域或单一的公司是能够跟我们找到双赢的

这里可能就不能讲太多了因为很多我的友商都在看我的直播只能说因为他们一听了这倒是真的我的直播间里经常潜水好多好多都是公司的创始人在那潜水我就不指名字了我只能这么说我们现在为止

2B 的单子拿的不多但是大部分绝大多数的单子都是有利润的而且不少的单子是金额比较大的但是也代表了我会需要去花蛮多的时间做一个 2B 公司的 CEO 自己就是最大的销售

會把我認識的所有的 CEO 去掃一遍去騷擾他們去各種年會演講去問他們的需求去做這個工作這可能是一個加分項第二個就是說我們會去會有取捨

很多招标的我们就放弃了我们到今天为止应该几乎没有参加招标但是我们的订单数跟确认收入的数量都还是国内算是做的不错的我理解开复老师说其实这个简单来讲就是 2b 确实在至少对 01 来讲在 2b 领域就是未来会认真去探索的方向但这里边它不会是

今天就有望念做某个标准化产品然后大家萨斯订阅就怎么怎么着这个听起来凯夫老师说今天可能还不那么 ready 那如果是项目型的是这种真正要去做交付的服务呢那我觉得这些事就得是真的有价值也得真的能吃肉否则的话这个事就变得没有意义对吧如果用大俗话去解读其实就是这么个逻辑

我们会希望假如是做一个项目制的我们会希望这个项目做出来能够卖到很多家去也就是说它有一个相对标准有泛化的附用的可能性是的而且泛化的过程不是说我 10%重用 90%再开发而是 90%重用 10%开发

这样的商机也不多我们也在尽力的去挖掘也在尝试那也在试错肯定也会接错一些单子但是我们就必须去摸索因为我们觉得

毕竟虽然这个赚钱不易但是还是有愿意付费的客户从消费来说 2C 来说的话实在挺难找消费的客户我们同一个产品在国内国外推国外付费的还是意愿还是挺强的国内就其实想都不敢想收费了因为我们的友商也不收费我们怎么收费呢

同意我觉得在即便今天大家都要去除了要有个技术的大模型要长商业的模型但商业的模型里选择取舍依旧很重要对吧就他不是简单的往上去建什么都往上堆对吧因为这个东西弄不好是毒药啊所以反过来我觉得要精挑细选啊这都要做选择

所以我觉得今天开复老师还是跟我们分享了一方面从这个技术的大势另一方面也看到了 01 的一些进展包括我就觉得可能要短短几个月跟开复老师聊这个感觉开复老师的思维我肉眼可见的也在延展在变化

就可能这就是创业的真相创业真的就是一个月之后的人和一个月之前认知都会变化选择都会变化这个特别真实所以我我跟你们确认凯夫老师在创业因为他这个状态就是典型的创业者

那我当然我除了开创业者我开发老师我们还是知道你在硅谷啊人脉也非常多呀你站在 AI 领域里边有很多的这种大神大咖你都跟他们关系很紧密的我们也想窥探一下站在全球这个技术角度听你给我们讲讲八卦或者说听到的一些传言好像说你比如说这个 open air 接下来又要又要整活了说很快又要有一些新的动作要发布一些新的东西呃

凯夫老师有没有听到一些传闻你预言一下的话他估计要又要整什么活要发什么东西对刚才我对他的 GPD5 跟 O1 的应该是比较确信的是发生的是按照我说的发生的其他的 rumor 我还没有比较确切的消息嗯

但是我可以告诉你的是说 OpenAI 的很多朋友还有前 OpenAI 的朋友都告诉我说他的把关者就是 Sam 他会战略性的选择发这个不要发这个他发有些产品的目的是要融资发有些产品的目的是要确保自己他的行业地位

嗯啊他发有些产品的理由是因为要招聘啊要要 show muscle 啊但是整体来说他不想发太多产品因为你想这么一个有很大的 AGI 梦想的人和公司和啊垄断的梦想的人和公司啊他是想把大招尽量的憋在最后然后最后一鼓作气就上了 AGI 你们就都不要玩了嗯

我覺得他是這樣的心態我覺得從硅谷的他們的內鬥也可以看到很多人說 openAI 的人才流失了以後還 hold 不 hold 得住我覺得一點都沒有問題因為流失的這些人大部分是原來的非盈利的認為做一個非盈利的安全的 AI 是最重要的尤其是想做 AGI

Sam 是后来进来把它改成一个盈利型的公司这些人两次公司内部各种不同的不愉快政变也好后来大批离职也好就是这批在乎用户体验在乎安全在乎安全的 AI 这批人基本跟他不合就走了但是他们走了以后 Sam 可能就是大权在握如鱼得水

因为你可以想象如果你作为一个 CEO 你的简易跟你的思想是不一致的你要执行起来就会有挑战所以之前有董事会的挑战现在有大批的离职但他们走了以后我觉得他肯定是把跟自己的商业思维

垄断思维好强的思维的一批人而且听话忠诚的一批人放在他的简一那现在我觉得 OpenAI 应该是能够更在他的指挥之下运作的更快更成功但是运作出来的产品一定是相对不安全对生态系统相对不负责所以这就是双刃剑带来的结果

所以他真的是一個很可怕的競爭對手

因為你想競爭對手他的武術比你高到他藏一大堆起來他把右手綁起來左手還能夠讓你沒有辦法接招所以我覺得這個競爭對手是很讓人尊敬也很讓人害怕但是也不用特別害怕因為我們見招拆招我們在 5 月的時候推出了我們的 E-Large 然後第二天他 4 歐就把我們打下來了

但是五个月以后我们又报仇了至少把他五月推出的那个 4 欧打败了虽然他的新 4 欧又超过我们了所以我们感觉如果我们真的能跟这么值得尊敬这么厉害这么伟大的一个竞争对手能够保持一个五六个月的差距我们觉得已经是很了不起的一件事情我也挺好奇因为刚才开福老师也讲到 OpenAI 其实本身它的组织的目标

已经跟当年出发的时候有了巨大的不同他的核心团队的构成权力的架构也都有了根本性的变化所以他一定有在这个方向上 Sam Altman 有可发挥的东西但我觉得比如通向 AGI 这件事可能也不一定是

还是这家公司的那个目标因为如果原来有那个团队在我相信 AGI 真的是当时他们之所以有这么群人在一起的核心那 Sam 现在肯定会有他的一些自己的对目标的设定那反过来如果我们去期待一些技术上的令人兴奋的突破除了 OpenAI 因为家里的还有底对吧然后未来也还能有向前发展的这个力量呃

还会有哪些公司会是你比较看好的比如在硅谷也有各种的其他的公司包括这个什么 Astoropic 然后包括现在这个谁那个 Super Intelligence 对吧就是这个 OpenAI 也有这个当年真正的灵魂人家再出来做了一家新的这样的公司我不知道开复会怎么看就是在除了 OpenAI 还有哪些公司是值得关注的甚至你对他们是有所期待能不能帮我们也 share 一下这个观察

好我们先讲纯 AI 公司吧嗯我觉得 XAI 还是让我有点跌破眼镜的嗯他这么短的时间这么少的人虽然很多很多的钱能够烧出这么强的一个模型还是很让人尊重的当然他的模型 OpenAI 的人怎么描述 XAI 呢全部抄我们的 OK 但是但是他能抄的这么快也是够厉害了嗯

我觉得这是有中国的速度的一个公司可能是马斯克很卷的这种管理模式啊比我想象的要强啊 Anthropic 呢今天发布的东西还蛮有意思的啊但是我觉得他们现在面临的很大的问题是商业化的问题啊

他们的虽然模型有一定的特色但是 OpenAI 就针对 Anthropic 打它把这个 4O Mini 的这个压到了美国的白菜酱我觉得很多人应该是从

Cloud 会可能流失确切的数字我不知道但是从 Sam 的角度的话他有多元化的收入 Anthropic 基本就一个 API 收入那他打到白菜价以后先把你打倒了然后再去涨价或者是不降价所以我觉得 Anthropic 的商业化是让人担忧的我觉得这个公司 PR 还是会做的这次用这个噱头

控制你的电脑是很聪明的一个噱头其实没有太大的用处但是很聪明的一个噱头

但是我觉得噱头归噱头它的商业化我觉得做的应该是没有看到有什么苗头然后纯 AI 的公司有一些 inflection characteradapt 就不说了他们都用不同的模式等于是并购掉了不过我听说 character 的用户量还是超过我们的想象所以也许他能够再找到一个方式能够在

二次启航因为很有意思的一点这也是一个八卦就是说 Google 买 character 它其实是用了很巧妙的模式没有把公司买了它把人挖走了它把技术弄走是把那我们又给请回去了请回去了但这个条件呢这个条件是这样的如果一年半之内或者我不太记得是两年还是一年半之内 character 就死了那

那就证明了 Google 你把它掏空了你是等于把这公司买下来了之前你说我只是拿人授权技术就不成立了所以 Google 不能让 character 死掉

Microsoft 也不能让 inflection 很快死掉所以他们有一定所以他们两家都给了足够的钱再摸索一阵看能不能找出如果我们相信现在的模型够好够便宜了也许他们能找到一个 PMF 也不一定但是可能大家都不是很乐观在讲讲大厂的话我觉得 Apple 是完全没有找到 AI 的方向

做 demo 可以做一些但是处于两难用别人的又怕别人把你的这个用户接口抢去了但是自己呢挖了很多人却做不出一个模型出来我也不知道怎么回事这些人都很厉害的我知道很多当时我很多想挖的人都从 Google 我没有挖到反而跑去苹果给了高价挖了人买了 GPU 但就做不出个模型来不知道怎么回事我觉得

我觉得微软就是一个最精明的公司它自己赚好多好多钱现在很多人是经过它的 Azure 去接触 OpenAI 所以 Azure 本身就赚惨了我在硅谷看到很多公司都觉得 Azure 加 OpenAI 在很多 to be 的情况是无敌的他们都打不过它所以最后钱基本被微软拿去了所以微软又赚钱又能够一定程度的控制 OpenAI 吧

他可能的挑战就是自己做不出做得出模型来他把 inflection 的 Mustafa 跟团队挖去以后我们拭目以待但是这个团队应该在硅谷不是最顶尖的是不错的但不是最顶尖的所以我们看看拭目以待 Google 是这里面最被不认可诟病觉得没希望的外界都是这么说的开户怎么干的

比 Apple 能强点吧总比 Apple 强吧比 Apple 强当然比 Apple 强但是 Google 应该是第一或第二名但是它真的没有一个第一名第二名的项我觉得各种理由我的理解是 Sundar 是一个不错的管理者但是他可能不是全部的掌权他还是一定程度要等 Larry Sergei 发话

那 Larry Sergay 又巡遊世界也不是那麼專注尤其是是 Larry 所以就沒有那個時代我覺得 Eric Schmidt 他當時我在的時候的價值是非常巨大的他是一個懂技術懂管理然後有謀略的人他跟 Sam Altman 跟 Elon Musk 這種人是在一個 level 上的

失去这样的一个核心人物是一个巨大的损失是我个人的观点其他的很多听到的诟病我就不重复了我当然也是当年很热爱 Google 在那边工作的很愉快也希望它能够好起来

它的各种的挑战跟麻烦就是 Transformer 也是他发明的强化 CSE 也是他发明的 DeepMind 帮人怎么就做不出来呢怎么连 O1 都让 OpenAI 做出来了呢这就是我们觉得有点跌破眼镜做的不够好 Google 其实 deserve 更好的今天的这样的位置和状态是是但是看来很难很难

而且他做的很多決定很奇怪你如果去 Gmail 去問一個美國大選的問題他不回答他這個就自我自我不回答任何的這個大選的問題有怕事怕成這樣的嗎

然后就剩 Meta 没说了 Meta 还没说大家都在提醒 Google 有一个亮点 Notebook 对对对非常的惊艳我觉得这个是连三毛都承认做的好扳回一城绝对扳回一城而且真的是 20% project 做出来的对这个还是我觉得很不错 10 个人做出来的团队也不大

OK Meta 的话我还是觉得 Meta 是个搅局者而且我觉得他们的技术能力在刚才讲的这些公司里面不是第一梯队的虽然他有一些牛人但是毕竟 Young LeCun 这些牛人是不屑于做产品的真正做产品的批人真的不是第一梯队

但是他们选的路径呢我觉得也是就像金庸小说里有一个叫什么名字的什么什么姑啊就是他只会一招记得吗就是有一个拿着一个铁叉见了每一个人就那么一招 meta 的那一招就是我开源所以这个打不过 tensor flowok pi torch 我开源啊

今天模型打不過人家 OK 我開源但是也就被他誤打誤撞開源這次還真的撞出了一定的名聲跟使用度包括最近這個 NVIDIA 用 Lama 訓練出來的更好的模型等等的我覺得在開源界對他還是很認可然後我覺得 Meta 他 Mark 他畢竟還是懂社交懂廣告的所以他靠廣告賺了很多錢

他靠裁员省了很多钱把这个钱去大量的甚至浪费的去买 GPU 甚至买数据我听说训练 Lama2 他花了 4 亿美元以上买数据

我想中国的大模型公司可能每个就花两三百万美元去弄数据哪有听过四亿美元的数据的但这就是财大气粗所以我不会觉得说 Meta 没有希望我觉得至少人家有浪的资本对吧他还是可以再继续浪下去对所以我觉得我还是会把它放在一个中等的位置

英伟达就不用说了肯定是超级看好我们不管多焦虑反正他不着急他应该总体来讲都在一个汉老保守的位置这就不用说了对 AMD 其实也有一定的机会尤其在可能推理方面有一些机会但是毕竟英伟达

它有太深的基础了哪怕是你用 AMD 其实它的芯片做得很好的我们最近有开始在用 AMD 的芯片做得非常好只是它的 networking 跟它的对 AI 的理解是不如英伟达的所以用起来就是有一些问题当然他们最近也在进步中了所以这两个公司 AMD 还是值得关注的它毕竟是一个我觉得世界的老二

最近还有一些芯片公司出来像 Grock 最近还真的很多人认可我觉得 Grock 这样的公司中国其实完全可以做一个它没什么核心技术它就是烧了个 ASIC 然后在某些情况之下可以跑得非常的快

价格也不是很低但是他不用像英伟达收那么高的 margin 他用白菜价卖出他的芯片用一用推理其实他真能用但是中国怎么就没有出一个 Grok 快了我相信快了对

但是但是 Grok 实在也没什么你今天讲完了就更快了但是我觉得 Grok 也没什么可持续的竞争力他就是在今天这个节点能炒一炒他能够超级快的出 token 对这还是 demo 的力量 demo 的力量但是他的其实成本并不低

感谢开复老师刚才非常高信息密度的给我们立即同步了一下站在全球的角度啊站在这个这个整个全世界的这个 AI 相关领域的产业链条的角度基本把我们都帮我们都捋了一遍相信大家一定都挺有收获当然我觉得最重要的是今天也看到了开复老师在确实是非常高的频度在迭代自己的思考

带着零一万物其实在一路向前奔跑在迭代自己的选择然后聚焦在正确的方向上继续往前去做突破这点我也是一直是我非常钦佩开复老师我觉得就是最重要的是开复这么多年从当年去帮助了很多的年轻的创业者到自己在这一波因为 AI 是开复的这种我觉得可能应该在这方面技术也是有

有当年的这个信仰去支撑可能也在今天觉得这就是个要去投身其中的事所以在这一波浪潮里我觉得还在这么亲里亲为的去突破这其实让我们非常期待啊看到开复的进一步的进展刚才我看好多人说开复老师保养的很好啊说是不是创业就年轻啊我觉得应该是的创业这事必须保持年轻至少在思想上

而且开复老师看到这么好的状态我们也都很欣慰感谢开复老师今天来到我们的集工院的今夜科技坛开复老师未来争取每隔一段时间能来到我们这一起聊一聊也帮我们分享一下你的认知也帮我们分享一段你了解到的科技八卦我们也觉得收获很大

好凯夫老师跟大家来做个总结吧你会建议大家比如在这个阶段里如果要去关注 AI 的话也许去看一些什么样的书或者看一些什么样的事情会让更多的人能让 AI 离自己呃

创造价值更近一点你会推荐大家怎么去因为毕竟不一定每个人都是搞 AI 但大家怎么去拥抱这波浪潮呢给大家最后提个建议吧好的我在这个直播里提了三篇文章一篇是 Situational Awareness 第二篇是 Epoch AIEPOCHAI.org 出的 Can AI Scaling Continue Through 2030 然后第三篇是 Altimeter

ALTIMETR 出的一篇有关我忘记它的文章名称是什么了是有关 AI 生态系统按照 AGI 的打法是一个不健康的生态系统这几篇文章对我都有挺大的启发希望对大家也会有

那然后今天如果直播有一点是特别特别重要的就是今天最好的很好的模型都已经很便宜包括我们的 e-lightning 是白菜价是非常适合创业者进入

来用开发自己的想象力做个 APP 用这些白菜价的很好的模型打造出 TC PMF 谢谢好感谢开复老师刚才开复老师说的这些东西大家未来把这几篇文章也都好好看一看这可能也是开复老师给大家一个很好的建议今天我觉得感谢开复老师来到我们的直播间应该聊了挺长时间了期待我们很快

看到 01 的新的进展也请开复老师不断分享你的思维的迭代作为一个创业者不断的这种进步和向前的探索好谢谢开复老师下次再见谢谢拜拜拜拜