Yang Zhilin chose the productivity scenario because it accelerates the improvement of intelligence. Optimizing intelligence in productivity directly enhances product performance, aligning closely with the company's mission and product roadmap. Additionally, the U.S. market's trends showed that companies focusing on productivity achieved better business scale, funding, and talent attraction.
The ultimate goal of Kimi is to become a long-term partner that understands the user deeply, rather than just replicating the user. It aims to be useful by handling increasingly complex tasks and establishing long-term trust and connection with users, ensuring accuracy and reliability in its interactions.
Yang Zhilin views long context as essential for advancing AI capabilities, particularly for handling complex tasks that require extended reasoning and planning. He believes that long context is a necessary condition for AI to progress from simple tasks to more complex, multi-step operations, ultimately enhancing the value delivered to users.
Yang Zhilin predicts a significant reduction in the cost of long context processing, potentially by an order of magnitude or more. Advances in engineering optimizations and architectural improvements, such as context caching, are expected to make long context processing more accessible and affordable, enabling broader application in various scenarios.
Yang Zhilin describes his entrepreneurial journey as akin to climbing a mountain, where each step brings visible improvements in model capabilities and efficiency. He emphasizes the importance of focusing on a single product, Kimi, and refining it to its utmost potential, rather than diversifying into multiple products.
欢迎收听 AI 局内人 AGI Insider 是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目这是杨志林时隔半年之后又一次来到了 Founder Park 这一次他对于产品的定义和技术路线的选择更加清晰很长一段时间内月之安眠都不会推出 Kimi 之外的第二款产品因为 AGI 产品的中期形态很确定
就像人一样不仅能解决问题还能提供陪伴与情绪价值所以娱乐的需求生产力的需求可能都没有明确的边界他们最终都会在一个产品里只是大家的路径会有不同我们希望聚焦一个产品然后把这个产品做到极致杨志林如此解释他的战略对于 Kimi 这一年的表现杨志林怎么看对于长文本有什么新的思考吗在 AGI Playground 2024 上张鹏和杨志林对谈让他聊聊自己的新思考
欢迎之人来到我们 AGI Playground 从你当时创业之后咱们俩做过一次直播那个时候我们的印象就蛮深刻的那个是应该大概去年的九月份左右对吧就是那个时候到今天可能又过了这么大半年的时间你自己怎么评价就是 Kimi 的发展给自己这个团队公司产品打多少分
对确实时间过得很快然后我估计有个 60 分吧就是说多少分 60 分是吧对对对就是说我觉得整体这个行业肯定还是一个马拉松就是可能从我们的视角来看因为我觉得技术发展可能相对其实会快一些但是如果我们看整体的
技术的普及然后包括整个产品和商业化我觉得肯定是会从 10 年到 20 年的维度来看这个事情所以我觉得可能过去一年的时间我们基本上做的一个事情就是说可能去探索早期的 PMF 早期的 product market fit 然后可能在
技术上吧就是迭代了一些模型的进展然后呢使得说这个模型能够更好的去服务用户的需求我觉得可能有一些非常非常早期的这种 PMF 然后但我觉得同时可能也还是有很多的挑战就是我觉得最关键的还是说在这里面
比如說 scaling law,我覺得今天我們還是非常早期,可能我們還是要去看怎麼能夠 scale 到下一代模型、下下代模型,然後通過這個東西能夠去在產品上能夠形成更強的 PMF,然後它真正能夠在每個人的工作和生活中能夠有更高的這種滲透,我覺得這個其實還是
有非常多的挑战吧我觉得可能是一个更长期的东西我听你说的有点客气了我把这个话题收紧一点你看你其实相对来讲是入场比较晚的但是我们从外界的感觉是你提速很快现在声势很好
我觉得刚才你其实在很客观我相信你可能对本身这件事发展有更高的要求但从我们客观来去看你还是发展的挺好的这个里边能不能替我们总结一下你觉得有什么做的比较成功的东西就是能到今天客观的效果你认为哪件事的选择是比较对的造成了这个结果
特别好的问题我觉得可能严格意义上来讲我觉得肯定不能说是非常成功或者怎么样我觉得可能相对有一些小的起步然后呢我觉得这里面我们持续关注的东西然后同时现在也在持续优化的东西可能一个还是说希望能够
真正从底层出发去解决这个问题真正关注这个第一性原理因为我觉得可能每个行业它都会有一个基础的假设就像比如说 Personal Computer 这个行业的基础假设是摩尔定律对吧然后我觉得 AI 行业的基础假设还是规模化定律就是 Scaling Law 所以如果我们从 10 年的视角去看这个问题的话我觉得更多还是
怎么能够去从技术和模型的效果上持续的去优化然后在这个过程中形成更强的 PMF 所以我们可能很多动作会更加从这个出发点开始然后去规划说我们到底要做什么东西所以我觉得这个是很重要的就是说
可能我们希望我们最大的投入还有可能所有人的时间精力应该是放在就是说怎么能够去迭代出来更好的模型从而解锁更多的场景这个是可能我们最关注的东西然后当然这个本身就是它可能也意味着聚焦就是可能在技术上和产品上可能我们都希望更加的聚焦
比如说我们可能现在就会更多的聚焦在生产力的场景上然后可能生产力之外的场景我们现在暂时不会做特别多因为你如果什么东西都做了可能最后也很难做好对然后所以这件事也是有 trade off 的对吧这是也是要有做一些取舍的对是因为我觉得还是创业公司创业公司我觉得还是要有
比较明确的重点然后比如说我们可能就是针对生产力场景去做非常极致的优化可能很多时候你其实产品上看起来好像都是一个框它好像没有发生什么变化但其实你背后可能很多体验其实已经优化了很多当然肯定还有现在还有很多的空间对所以我觉得在这个取舍的过程中很多时候就意味着就是说你需要砍掉一些东西就并不是所有东西你都要做因为我觉得组织的惯性还是
他想做越来越多的东西对然后所以我们可能就是要去对抗这个低吸引力就是说你其实希望做更少的东西但是把它做到极致包括在技术上也是因为其实 AI 这个空间很大然后你可能考虑这个因为智能本身是一个非常
这个 Heterogeneous 就是非常易购的东西你可能一个会计师的智能跟一个画家的智能跟一个数学家的智能它是完全不一样所以在这里面可能我们也会根据我们核心的用户群体去看到底什么样的智能可能是现在重点的那它对应的基础能力可能是什么然后可能去更聚焦的去做这个事对
因为你刚才提到了就是如果把一件事能做到今天这个效果可能比较壮大原因是因为你比较聚焦你选择了生产力这个维度比较聚焦的再去做这里边有一些 trade off 其实是没有选一些方向我挺感兴趣很具象的讲比如现在大家陪着聊天的等等的这样的方向你肯定也看过甚至我相信你们团队肯定也讨论过最终不选择它背后那个逻辑是什么就是把它放弃的那个原因是什么
对 我们确实讨论过这个问题然后我觉得最主要可能有几个点一个就是说还是考虑到底我们最后想做的是什么因为我想做的是通用的智能所以我们现在可能就是最终闲聊场景和比如说真的这个生产力场景我觉得其实它应该是大概率结合在同一个产品里面所以现在更多的它只是说你在路径选择上会不一样
所以在路径选择上我觉得我们应该先做生产力的原因是生产力对于智商的提升是更快的
因为比如说我们今天如果去做类似 character 这样的产品的话可能你绝大部分精力并不是在优化你的智商因为你优化智商可能对你提升产品的流程可能一点帮助都没有但你如果做生产力的话你优化了智商之后你的流程是可以能看到显著的提升所以我觉得它对于说就是你的公司的 mission 跟你的产品的 roadmap 之间它应该是能够更紧密的结合起来所以
这个是很重要的一个原因然后当然可能也有其他的原因比如说我们也观察了可能美国市场的不同的选择发展的情况因为可能美国市场整体来说还是比中国市场会领先个一到两年所以说我们可以去看不同公司发展的情况其实在这里面可能选择做生产力把生产力做得特别好的公司他在今天可能是不管是从业务体量还是从融资和人才吸引力来说他其实都是更好的
所以我觉得这个也是很重要的一个决策的参考然后当然还有一个很重要的就是说我觉得在娱乐场景可能今天确实它的这个基线是非常高的对因为我觉得过去十年移动互联网的发展诞生了一堆非常这个好的娱乐体验但是我觉得在生产力的这个维度的
基础的体验或者说价值还有非常大可以挖掘的空间即使说今天最好的生产力产品我觉得它其实还没有非常深入的渗透到真正的工作流程里面而且这个是我觉得是 AI 带来的巨大的新面量所以这个可能是为什么我会做这个选择的一个重要原因理解了我们怎么定义 Kimi 这个产品因为虽然我们都在用
但好像也没有特别去刻意的定义它但我觉得反而是个有意思你们会对它有定义所以 Kimi 到底应该是它是个什么东西它在解决什么问题它长期来看是我们的一个 AI 工作台还是一个什么样的东西你们内部有没有这样的讨论和定义对
这个我觉得可能是分短期和长期来看就是说短期它目前的定义就是说我们希望它是能够在生产力场景发挥很大的价值就是你生产力场景能够提供
越来越多的智能当然今天可能最主要的可能比如说在更好的信息获取然后信息的分析然后包括创作这些任务里面我们希望它能发挥更大的价值所以我觉得这个是短期的然后最长期最理想的情况我觉得其实大家有讨论我觉得现在可能有两种不同的观点一种就是说
其实这个问题本质上是在讨论 AGI 产品的终极形态或者终极定义是什么样的它有两种可能性一种就是说它是这个
就是它是令我就是世界上另一個我就是它可能擁有你所有的事物然後它的想法基本跟你一樣然後等於就是你復刻了另外一個自己然後另外一個自己可以在這個就是在數字世界甚至包括物理世界可以做很多事情然後另外一種定義就是說它可能是你的一個夥伴是一個長期的甚至接近終生的夥伴然後這個夥伴它也能幫你做很多事情但是它可能會不一樣就是它可能會
给你提出来新的视角然后他并不是完全复刻你而是他可能是有点像但他理解我对吧不是复刻我但他理解我非常理解你对我现在觉得可能第二种的概率更大对所以这可能是我们想做的东西我觉得他会有几个比较重要的特征第一个我觉得他还是得先得是有用就是你能做越来越多的事情我觉得今天能做的事情却还不够多
所以这个是为什么我们现在最聚焦的还是说去进一步提升模型的能力因为你只有通过提升模型能力你才能让他做更多的事情比如说如果今天你让他类比一个人的话他其实相比于人还缺少非常多的维度他可能没有记忆没有办法做非常长期的规划我想象中应该就是如果最终这个产品做得好的话他应该不是说你在
完成这种可能 10 秒钟 20 秒钟能完成的任务而是他应该是有你甚至可以给他定一个 OKR 你可能给他定一个就是你这个季度的 OKR 应该是什么然后他其实就可以就是去做这个事情所以我觉得第一个很重要的特征还是有用的逐渐能够做更加复杂的这个任务
然后可能第二个很重要的特征我觉得还是在 AI 和人之间建立这种非常长期的信任和这个 connection 但这个前提的这个的前提还是第一步就是它得是足够有用比如它不能每天给你这个 hallucinate 或者给你很多错误的结论或者让你觉得就是提供很多错误的信息我觉得只有解决了真实性然后可能能再越来越
複雜然後長窗口的任務裡面提供這個真實性和準確性我覺得他才能夠建立這個很好的新人對 所以可能我們會從這些方面去考慮這個產品的未來 對
所以其实在从这个角度我们看到今天可能是产品的一个初级的形态这也是解释了为什么我们可以看到产品里有不同新的功能本质上你在努力赢得在用户身边更有用的位置所以这种位置未来是会逐渐从一部分的能干的事到扩展的越来越多这可能是一个路径对我觉得这里面会有一个重要的标志就是如果有一天你发现
在你的工作裡面 AI 做的事情比你做的事情更多也就是 AI 佔比超過 55%我覺得這個會是一個非常重要的 Milestone 然後當然可能下一個 Milestone 就是說你可能比如說機器人的數量可能超過人的數量對吧那就是那個在物理世界但是我覺得數字世界可能先會有一個它可能會更早的實現 對
所以我很好奇一个问题 Kimi 从月之暗面 Kimi 的角度来去看今天有一个很成功的产品大家都在用未来你可能也会有新的功能解决用户的更具象的问题你会更倾向于都在 Kimi 这个平台解决还是会有机会长出其他更专有的 APP 这方面有没有一些原则性的探讨对目前我们的想法就是说肯定会聚焦做一个 APP 因为我觉得
未来的就是 Kimi 对对对没有第二个对就是我们肯定会聚焦做这个事情然后呢因为我觉得很重要的一个点还是说未来的智能的产品它应该是满足这种普世的需求就像我刚刚说的可能其实你娱乐的需求包括生产力的需求甚至你其实这两个东西它
可能都没有特别很明确的边界我觉得它应该是在同一个产品里面只是说你的路径选择上会有区别因为这个我觉得也是所谓的通路智能可能它最有意思的地方就是它可能不是说只能做一件事情但只是说
只是说确实在路径选择上你没办法一开始就做所有的事情一开始可能还是会有重点的场景然后核心的用户群体但是它可以逐渐的去泛化开来对所以我们可能还是希望聚焦做一个产品然后把这个产品做到极致对听起来
要能到 Kimi 你刚才说的那个终极的目标成为一个理解用户的伙伴首先的起点是从先帮用户做好一两件事情然后逐渐能做越来越多的事情然后这个伙伴的关系和信任就建立了所以这是一个前进的这个世界观和路线图对对是的然后在对我觉得这里面很重要的标志还是说就是
现在可能你是单个的 query 每次可能问他一个问题或者有一个什么很具体的任务对然后比如说人你如果让人去做这个任务他大概可能花个一分钟两分钟的时间他也能做嗯
但只是说你现在可能把它变得更快但是我觉得逐渐的你慢慢从这种很短时间能完成的任务变成就是说可能本来一个人也要花个两周一个月才能做好甚至人都不一定做得好因为其实现在的 AI 很大程度上也有一些 super intelligence 在里面它不是全方位的 super intelligence 但是比如如果去思考这个
长文本这个东西长文本其实它实际是一个 super intelligence 因为就说就人是没有办法一口气读完比如说几百万字的这个文章然后可能直接找到里面要回答的问题因为很多问题也不是能通过 control f 去得到答案的这就是我们一开始踩的坑因为我们觉得这个可能人可以做所以我们就找了一堆人去标标那个长文本的这个数据想你标数据你学了不就会了吗
但是你发现就是人其实根本标不了或者说他标的效率就会非常非常低对所以我觉得今天其实有一部分的能力他其实确实是可以比人做得更好然后但是我们可能需要让说这些任务的范围能够逐渐变大因为今天我觉得还是在一个很局限的范围内对正好你谈到了长文本因为这个长的这个 long context 这样的东西
本身也是 Kimi 一开始让大家印象深刻的一个点甚至在那个时候可能比较非共识你提出来这件事很重要但看起来最近好像产业界是不是在这方面越来越有共识了就是长文本这件事你的理解是因为我们也看到很多的模型是它的文本的支持的长度在变长所以这里边包含着两个点就是这件事未来是不是已经逐渐形成共识第二长文本对于解决你说的那个终极的问题它是不是那个最重要的路径
对这个是特别好的问题就是说我觉得我觉得今天其实有更多人在做这个事然后但是你如果说是完全的共识我其实也不是非常确定因为就是说
也有不同的观点就是可能有人认为就是说其实你藏文本可能没有那么重要对吧然后你其实应该去其实短文本的场景下也有很多可以挖掘的东西那你可能不一定非常着急去做藏文本所以我觉得不同的这个但我觉得这个也是正常的就是说因为你可能每一个产品或者说每一个公司本身它可以有自己的这个判断然后有自己的选择还有自己的这个差异化所以我觉得这本身是一个很正常的过程对我们来讲就是说
我们其实比较早认为这个可能是一个非常关键的东西因为这里面可能会有几个方面就是说第一个方面就是
如果我们想从刚才的说的这种一两分钟能做完的任务变成就是说你要做三十分钟五十分钟甚至两周一个月才能完成的任务那它必然是一个很长的这个 context 很长的这个上下文就你只有在这个很长的上下文里面能够去完成这个复杂的任务你才有可能真正就是把这个 AI 往下一步去推进所以这个其实我觉得是
非常重要的就是但就是说它又不是只是长盛在我本身它是冲要条件它可能是必要条件对 它是个必要条件但不充分是吗不充分 对就是你可能有这个很长的窗口但是你在这个很长的窗口下面你可能还要具备比如说很强的推理能力对 所以我觉得
就是可能常常下文或者说 long context 本身它是一个维度但是它有点像就是说你先需要可能有更长的窗口然后在这个窗口下面你可以有更强的推理能力然后更强推理能力之后你又可以做更长的窗口所以我觉得它有点像是这种螺旋的迭代的过程所以我觉得
可能更准确的叫法应该叫这个长推理就是你能够在一个很长的窗口下面去做很好的推理我觉得这个是最终能产生很大的价值这个长上下文的本质应该是长推理这个其实就对齐到你要给用户解决更复杂的问题就智能的增益和用户的指令最后交换的服务价值的交换比
得提升对吧就本质上我觉得看起来你是有一个对比参数到那个值才是临界点是我觉得你说你说这个点很有道理对就是他最终其实是跟用户在做数据的输入指令的输入和你最终交付服务的这种转换比的计算对吧越高他其实就可能带来的价值越高对这个确实很有意思就是比如即使你看产文本这个技术本身它的落地过程也是
一个比例逐渐提升的过程因为你可能在最早期的时候你是用常上下文去做一些阅读类任务阅读类任务肯定是最早落地的因为它是一个
从很多的信息变成很少的信息的过程所以它相对会容易一些比如说我现在读十篇文章然后我就让他总结一下这个本身它难度肯定小于说我今天我只是给你一个很简单的指令但是你一口气要做一个月而且做完一个月的这个工作之后你居然还能满足用户的需求我觉得肯定是后者更难对 所以但这个也确实是
就是像你说的就是它是个比例的问题就你输入和输出的商的这个比例它可能是一个本质的东西对这就是智能能够带来的增益的价值我再问一个最近业界大家看到的技术变化比如说像这个我们今天看到 SORA 看到 4O
你怎么看 Sora 就是这种视频生成的能力会是月之暗面 Kimi 未来看中的能力吗对这个肯定很重要因为我觉得对于通用的智能来说它
肯定是多模态的就是你很难想象就是一个单模态的这个通用智能然后所以我觉得最终可能不同的模态之间它肯定是一个这种统一的模型对然后当然我觉得现在可以看到就是说技术的发展它可能是两个不同的维度你可能第一个维度还是说
智能的不斷上升就比如說我們看到 Sora 看到這個 GPT-4O 它本身可能智能的提升沒有那麼大它提升了一些但是沒有那麼大就是你如果去做這個智商的測試或者說讓它去做一些更複雜的任務它可能還是做不了所以我覺得這個方向肯定還是要持續去投入而且是
我认为是最重要的方向然后但是还有另外一个维度就是说你不断的去扩展这个模态比如说你这个可能有视频的模态你可能有语音的模态甚至未来可能会有这个把很多这个感知的传感的数据就是有还有动作的数据这些机器人的新的模态可能他都可以去不断的去扩充所以我觉得但他这个价值可能就是说
更多的是你能去完成更多的场景对吧然后有更丰富的交互方式能够把这个产品从现在我觉得它对就是 cross the chasm 可能会有一个非常大的作用就是你能让越来越多人用起来能让这个技术真正变得非常 accessible 我觉得它可能是两个不同的维度但是
会统一起来我非常能理解比如像 4O 这样的它的多模态的这种能力一定是所有做模型的公司有机模的公司大家可能都要往上去演技的能力但比如对 Sora 这样的一个视频生成
这件事如果按照你之前的理论就是更关注的是智能的成长视频的生成的这个能力是在这个智能的成长的这条线上吗还是说它更多的是在给用户交付的服务这条线上你认为它重要到底是因为什么重要对其实这个问题在我觉得在纯语言模型的时代大家就讨论过就是我记得 2019 年到 20 年那段时间就是其实很
很重要的一个话题就是讨论说那个语言模型到底应该做理解还是做生成对所以一开始可能有像比如说像这个 Bert 这样的模型然后这个后面可能有像这个 GPT 就是可能 GPT 的生成能力会更好
但是 BERT 模型它的好处就是说在你一样的算力情况下 BERT 的效率永远是更高的就是你单位算力产生的对于 benchmark 的提升是更大的所以其实有一段时间就所有人都关注在这个 BERT 上说反正你能做理解就行了而且可能工业界大部分的价值是这个理解然后但其实我觉得这里面可能忽略了一个很重要的问题就是说如果你想做非常好的理解你其实
就是说你需要做非常好的生成你才能做到非常好的理解对然后所以这两个问题最终可能它其实就是一个问题我觉得对视频来说也是一样的就是我们今天想去做很好的视频生成
它一方面是因为视频生成本身它有很高的价值就是你比如说有很多的这个 creator 用户价值本身很高对 用户价值很大但是我觉得更重要的还不是这个更重要的就是说你其实通过生成本身如果你能把生成的这个目标函数优化得非常好
它最终可能是它最终是一定能把理解做得更好对这两个目标其实因为我觉得文本已经是个很大的 lesson 就是过去几年因为一开始大家有很多争论但后来基本上就是共识就是说你这个理解和生成它就是分不开的就你很难单独训练一个理解的模型最后这两个可能就是一个模型对理解了我再稍微多问问关于长文本的问题或者咱们叫长推理这件事
这件事的成本未来会很快速的下降吗因为我们都知道其实现在你真的把 200 万字让你去跑一圈这个成本也还是蛮高的如果我没有一个非常 reasonable 的原因对吧就是我也不好意思天天薅你们羊毛你肯定也不会让我一直薅所以你们肯定会要考虑这个事而且这件事又跟到底我把这件事一个长的文本运用在什么场景里能真的那么高价值去解决问题这两个问题其实是 bonding 在一起的你怎么看
对我觉得成本的持续下降肯定是个必然的趋势然后因为最近我们还有一些新的技术就是说可以去很大程度的去降低这个成本到什么程度给我们一个感知我觉得至少能在现在的成本基础上可能有数量级的下降甚至一个数量级的下降可能不止一个数量级不止一个数量级对所以就是一方面是可能你有一些这种可能
工程上的很极致的优化比如我们最近可能会有一些比如像 context caching 这样的技术然后就会有非常大的成本下降然后可能第二个就是说这个 architecture 上其实我们也做了很多优化对所以我认为就是说如果是说 200 万字这种窗口然后非常普惠的让大部分人能用起来我觉得应该是一个
就是在今年可能大概率能实现的一个目标今年是吗今年就是说 200 万字的这样的事实际上是可以让更多的人真正可以 access 对我觉得这个可能是我们目标而且就是说你在接下来可能
很长一段时间内就是它是成本还会持续降低而且它成本降低的速度它会比这个 short context 成本降低的速度更快比如说今天还有很多东西其实是没有被挖掘的比如说如果你考虑一个人去处理一个很长的
或者很长的周期的任务它其实并不需要把所有东西都记下来对吧可能它是一个动态的计算的过程你可以选择哪些东西要记下来哪些东西可能要扔掉然后这里面其实有非常大的空间可以去优化因为它今天的 efficiency 它的效率是远远高于人的所以它的优化空间很大所以它的整体的成本降低的速度它其实会比比如说短的上下文的成本降低速度是要更快的
那我们如果拿这个事去站在这个角度去想象或者是去去思考一下它有可能这种变量带来的在应用的场景上大家会怎么用这样的一个能力呢就是比如说之前我们的例子我把一本书扔进去他能给我做总结这个是非常能直接想到的那所以按照你这个推理接下来还会有什么样的场景有可能会成为一个 available 的东西对就是
这个跟我们刚才说的话题有点相关就是说它是一个输出的比例的调整过程就是你一开始可能从阅读就是阅读可能是现在最刚的一个需求之一然后它逐渐会变成就是你可能模型本身它有在很长的窗口内做推理和规划然后去执行多步的任务的能力比如说你今天可能想去
比如说去调研某一个话题或者说你甚至就是给了这个 AI 一个很明确的目标然后它就可以去执行这种多步的规划然后再调用不同的工具然后甚至有中间有些思考分析的过程我觉得它逐渐会往这个方向去演进当然就是说对于多模态来说肯定也很重要就比如说你如果今天想生成一个
很连续的这个视频比较长时间其实背后你可能也需要很好的这个长上下文技术所以我现在理解你为什么说其实叫长文本在接下来可能更接近长推理就本质上其实它不是一个传统译人我给他多少文本他怎么样实际上是他有多长的推理的能力能在多少信息下进行进一步的推理和创造这个事会变得更重要对对因为如果只有长的话本身它其实
然后你的脑子不够用其实没有什么太大的价值就是他肯定是要两个同时都做好蛮有启发的他会从一个产品的 feature 后台化成一种产品的能力就背后需要的能力然后进而他会产生更强大的 feature 对吧这可能是他的行进路线对而且这里面其实也有很多就是跟用户一起探索的过程因为比如说今天我们常常有很多场景
其实在我们 Day1 的时候我也没有预知到可能会有这样的场景就是比如说就是
即使说阅读这个事情本身吧那我们之前可能没有想到它其实可以被用来去比如说你可能很快速的去入门一个新的领域对吧然后像这种或者说在不同的行业里面它可能是这种不同的用法比如说像有的用户可能会用这个东西去做这种一些这个分析但是这个分析你如果不给他提供这个上文他可能分析的没那么好
但是当你给他提供这个上文之后他可能就会就会什么麦肯锡分析法就是他他就会分析的更好更更更有这种结构结构化对所以我觉得也是一个跟用户共创的过程吧就是就是会不断发现可能新的这个这个这个场景对嗯嗯
我们看着现在有就超时了但是我问一下大家我们再聊个十分钟到十五分钟你们愿意吗饿不饿愿意愿意我们就继续我们给直立那掌声我们多续他点时间大家要求再续一会好我再问一个问题其实在最近在学术界经常我们看到一些探讨
我们刚觉得这个 skilling law 包括 transformer 这件事可能通向未来然后我们看到一些我们非常信任的大神们包括学术的这个科学家们也会去说这件事其实他们没那么大信心他们认为其实要存在新的变化这件事其实让我们还是会作为外行人还是会有一点 confused 的
因为我觉得直林也是曾经作为年轻的学者然后到今天的创业者这种学者的世界观和创业者的世界观我相信会有所不同但我们如何去和谐地理解这两件事你会怎么看他们的一些观点和判断对 我觉得是这样就是说学术界它解决的是学术界解决的是寻找一个正确的第一性原理
这是他的 mission 是吧然后我觉得这个工业界是说基于一个第一心原理去做最好的执行但是执行的意思也不是说你完全是执行就是说他可能也需要很多的创新他是在不同的层级上创新就是你的第一心原理可能是在
就是最底层去创新所以学术界讨论就是说那你现在可能 scaling load 对不对然后你 next token prediction 对不对就是这样的问题我觉得这些问题都很有意义而且它确实应该被讨论它应该被挑战它应该有新的观点出来而且每个人有不同的想法然后在这个过程中因为比如说神经网络可能在三四十年前的时候或者甚至三十年前的时候
也没有太多人关注大家觉得这个不是一个好的技术路线然后所以我觉得这个是学术界最大的价值然后
工业界的价值或者说他要做的事情是说在一个技术路线或者在一个第一性原理的基础上你去解决这里面可能最重要的问题比如说 scaling law 那虽然说 scaling law 是第一性原理但是在这个过程中他可能还有很多问题没有解决比如说你怎么能够去很好的这个生成数据然后怎么能够做很好的多模态的模型怎么能够做很好的数据飞轮就这些问题可能都需要被解决
但是他永远不是说我去发明一个新的第一新原理所以他是在不同的层级上去工作不同的层级上去创新对所以我这个是我的理解所以学术界他可能就需要更多的辩论需要有人提出来很多新的挑战的想法但工业界我觉得就是怎么能够更快的去或者更好的去解决在第一新原理清楚的情况下可能第二层面的很多也是很大的技术挑战
但是可能你的技术路线可能是确定的但我觉得现在可能整体的冲突也没有那么大比如说像杨德昆他一直在讲的这个世界模型世界模型它本质上或者现在的大圆模型它其实也是世界模型的一个特例所以我觉得
也不衝突其實沒有那麼大的衝突對所以對我們來講我覺得就是在可能 scaling law 這個框架下面去探索智能的極限然後但是我覺得人類科技的發展它總是會有新的技術路線被提出來但我覺得這個更多的應該是可能學術或者說研究就純研究的這個 mission 對所以我覺得是不同的層級
对各有各的 mission 各有各的要做的努力对吧其实没有那么大的冲突啊
我再问一个比较具象的跟你工作相关的问题因为其实去年咱们在聊的时候我印象比较深刻的你提到了一点其实一个在大模型时代的创业公司它不光是技术产品的创新可能有可能组织也需要创新因为确实今天如果做产品跟以前做产品系统变量还是增加了很多有模型 有数据 有用户等等这些东西你觉得这一年
在组织的创新上有什么结果就是 grounding 的结果对 我觉得这个还是一个持续的过程就是因为组织它本身需要生长的时间对 我觉得其实很多时候我们看到一些美国公司它比我们跑得更快比如说它可能整体的 AI 能力它还是更好我觉得其实是
得益于他可能前面花了非常多的时间去搭建这个组织你不光是招最好的人可能形成了一套机制是说
这些人都能在这个范式下面去创新然后因为我觉得中国公司很多时候还是因为起步确实晚了一点那这里面会有两种不同的这个公司一种是说原来可能做别的业务然后我可能我现在去转而做这个新的业务那他新的业务其实需要的这个组织的方式可能跟原来不一样然后还有另外一种就是
也是从零到一的从零到一它可能会组织在会少一点但是你也需要去探索一个好的方式所以整体我觉得这个是需要一些时间对但我觉得我们现在可能有一些进展但是肯定还有非常大的空间对就是这是一个确定重要的事但它需要更长的时间来去研究对因为我是觉得就是说我们考虑可能技术这个事情它本质上就是说还是看
技术是怎么产生出来的对吧它其实靠人产生出来然后人搭配这个生产材料嘛所以如果你的人能够很好被组织起来所以人是技术的第一性或者说人的组织是那个技术背后的第一性对吧对 我觉得其实是这样的所以我们也会非常多很关注就是说你怎么能够去招聘最好的人才特别是技术方面的人才所以这些都是
就是你能做很好的技术的一个基础嘛所以你现在主要招你花招聘的精力是不是占比占比比较多对整体占比会比较高吧就是比较高因为这个还是我们核心的发发发展的这个燃料招什么样的人是你自己花时间最多的现在主要关注的还是可能技术方面的这个
技术方面的人才技术方面的人才对对对因为我觉得这个还是跟你的公司的这个 priority 或者说优先级相关的因为嗯
我觉得对我们来说可能最重要的还是把这个技术做好因为你只有技术做好了你才能够去解锁更多的产品的场景有更好的流程有更好的商业化就是我觉得所有的基础都是都是技术做得更好所以我们今天在这方面虽然我们已经有一些还不错的人但是我们肯定还要持续去就是去增强然后持续去有更多更好的人加入我们对
你过去这大半年有什么或者说过去从因为创业也一年多了就是从你这一年多里面有什么你觉得自己预料的对了的东西和你预料的错了的东西就可以分别说一个你印象比较深刻的就是你觉得有一个我当时预料对了还有一个我这个东西猜错了有没有这样的东西能给我们分享一下我觉得整体来说就是预测是一个很难的事情所以
我觉得其实更重要的一个点它反而是说反而是快速的调整因为 AI 的发展是很快的很多时候其实你都很难预测说比如说明年模型能做到什么样我觉得这个问题是非常难回答的你可能大概有一些认知有一些判断但是最重要的事情还是说根据可能新的变量这个新的变量有可能来自于市场有可能来自于你这个
做了很多实验之后的新的迭代有可能来自于用户的反馈然后我觉得非常快速的去做反应可能是最重要的然后如果一定要说这个预测的话我觉得我们可能有几个东西是
趋势上可能跟一开始想的差不多吧比如说像你的上下温长度一直在提升然后包括视频生成的能力能够有分钟级别的这种视频生成然后我觉得这个趋势可能跟我们想的差不多但是可能有一些在时间点上判断不一定那么准确比如说像 Sora 的推出可能要比我们想象中更早
但也有可能没有更早因为他实际要达到这个 product market fit 可能也需要反正我们现在没用过的因为还还没用到就是他可能有有有有有三号有一些也就是 chapking 的因素或者就是你增加达到 pmf 可能还还要一定的时间然后就是包括
就是这里面可能更多的现在智能提升是来自于比如说你基于 GPT-4 这一代模型然后你做更好的 Post Training 但是像 GPT-5 可能现在看起来这个时间表要比原来预测的要更晚我觉得这些可能都是在时间点上的一些准确的预测我觉得是很难的
总体我听起来意思就是不是太在意所谓远期的预测你认为其实换句话说那个预测更像不如变成一个更加持续连续的有效的推理快速的有效的推理每一个变量出了以后赶紧就下一步动作倒不是更远的动态快速的反应我觉得这个可能也是我们的就作为一个小的创业公司的一个
一个能做得更好的地方不是在遥远的地方去下一个大柱而是在路上方向上肯定要有一些判断我觉得基本上很重要是做到
长期的确定性长期的确定性和就很坚定的往这个目标去走然后短期应该是有很强的确定性因为它是关系到你的执行能不能做好但是比如说在几个月级别的这种维度的计划我觉得是可以允许有一些比较灵活的调整这样其实你犯错的概率会更小我最后问一个会
稍微有一点无厘头的问题我希望你用你的直觉先来回答然后我们再用先用 system1 再用 system2 好吧就是我说这个问题希望你先用你的直觉来回答你先不要直接 reasoning 这个东西你觉得你今天的工作你的创业状态是更像在爬山还是更像在航海这是特别好快一点快一点
我可能更像爬山好 说出来了就好了来我们再 reasoning 一下就是为什么更像在爬山我刚第一反应是爬山是因为我们之前一直觉得是要爬楼梯不是看风景我们内部一直在说的事情然后所以这个是一个第一反应但我觉得现在就说你如果说 system2 想一下的话就说
他开始 reasoning 了你们看这个模型开始 reasoning 我觉得就是因为航海就是我想象中啊因为我也没有真正航过海就是我我想象中就是你在一个海洋上然后其实你即使说走了比如几百公里但是你看到的东西基本上是一样的就是你目标还是很明确但是呢
你看到的进展不明确对或者在你没有很好的定位技术的情况下参照物不明确你可能对不是说那么明确能看到不一样的东西你反而看到周围的东西没有发生任何变化
所以你那个时候你的孤独感会更强但是登山的话就是你其实每一步你是能感受到自己在提升比如说你能感受到就是模型的能力好像确实比几个月前更好了一点对吧然后你的流程也比几个月前好像高了一点然后你看到的视野不太一样然后你去度量你跟目标之间的距离的时候你其实有
更好的这种感受所以我觉得它是一个进度更明确的东西所以我觉得这是一方面另一方面就是说我觉得 AI 的发展它也是个渐进式的这个过程就是一步一个台阶对吧就是你可能从这个 10 到 24 次方到 25 到 26 到 27 然后你甚至假设你都是 10 到 25 次方你的训练效率可能也可以持续提升你可以让每一分算力产出的智能更高
那就有点像你爬山的时候可能又多迈了几个台阶对 所以我觉得整体上会更像登山对我为什么问这个问题其实都不重要你的回答更重要我觉得今天非常感谢直林拿出时间来跟我们一起做在我们的社区里做分享我们也都期待你这个山越爬越开心然后看到更丰富的风景好 我们热烈的掌声送给直林谢谢好 感谢大家