cover of episode EP61 一期节目粉碎所有关于DeepSeek的谣言

EP61 一期节目粉碎所有关于DeepSeek的谣言

2025/2/7
logo of podcast 律人行

律人行

AI Deep Dive AI Chapters Transcript
People
庄明浩
张涛
张鹏
莉莉
Topics
@莉莉 : 我观察到DeepSeek R1的爆火引发了全球范围内的讨论,但同时也伴随着诸多质疑,包括监管方面的问题和技术方面的争议,例如模型蒸馏是否涉及知识产权侵犯等。 @庄明浩 : DeepSeek R1的出现对过去几年基于巨额AI基础设施投资的叙事提出了挑战,其低成本高性能引发了广泛关注和争议。 @张涛 : DeepSeek R1的成功,一部分原因在于其将推理模型与搜索功能相结合,为用户带来了前所未有的全新体验。此外,DeepSeek R1首次验证了ORM强化学习路径,并在算力受限的情况下实现了与GPT-4和Claude相当的性能。 @张鹏 : DeepSeek R1的爆火,一部分原因是由于美国主流媒体和学术界长期以来对中国AI发展的忽视,导致信息滞后,谣言四起。关于DeepSeek R1训练成本、芯片来源、模型蒸馏等问题,存在大量不实信息。

Deep Dive

Chapters

Shownotes Transcript

大家好 欢迎收听《绿人行》我是主播莉莉本期节目我们想讨论的是近期的大热点 Deep Seek R1

这个春节我觉得可以说是 Deep Seek 春节我想大家可能都有看到不管是在自己的朋友圈还是小红书 微博各个媒体都有看到关于 Deep Seek 的疯狂的讨论但是同时我看到国内狂欢的同时我也看到由这种爆火所带来的一些全球的挑战包括有监管方面的比如欧盟各国的对于 Deep Seek 的一些调查

还有关于美国方面的比如说会说到 Deep Seek 用的征流技术可能涉及到所谓的叫做偷盗美国的知识产权的问题那所以整个状况就是众说纷纭说他好的也有说他是骗子的都有所以这期节目呢我们邀请到了几位大咖来跟我们讨论一下关于这次的 Deep Seek IE 爆火的这个状况

我们这次邀请到了三位嘉宾第一位是《图龙之术》的主播庄明浩老师庄明浩老师一直是我们节目的老朋友了春节前庄老师还做了一期 132 页 PPT 解说 2024AI 这一年的节目那也是剧作那很多朋友可能也都听过所以这次也是邀请庄老师作为一线的 AI 行业的观察者来跟我们进行他的分享和讨论

然后其次我们是邀请到了 HiCloud 的张涛老师那张涛呢是 Monica 的产品合伙人也是在这个四十二张金和十字路口节目上都被称为叫做 AI 顶级产品经理这次也是想请张涛作为一线的创业者和产品经理的角度来跟我们进行他的视角的分享

那此外我们也请到了张鹏老师张鹏老师是公众号东北阿乔研究院的主理人作者

东北阿乔研究院一直以来在中美关系 地缘政治以及尤其是在科技领域相关的一些议题都有着非常深的研究也发出了很多很多的专业的文章包括之前我们节目有聊到的关于美国对华投资禁令的讨论关于中美数据脱钩的一些法案的讨论以及近期的关于 TIPSIC 引发

大多关于出口管制和中美人工智能脱钩法案的一些讨论都有非常非常专业的研究那我们先请三位嘉宾给我们打个招呼感谢李玉邀请我是同工之助主播庄明浩然后一直在关注 AI 行业的进展确实如李所说春节期间看到 DeepSick 有一个很大的感触是说得亏我的报告是在 12 月份做的

如果一月来说感觉有很大的篇幅要推翻重写张涛大家好确实就像莉莉讲的这个春节基本上是属于 DeepSick 的我今年没有选择在老家过年本来在外面玩但其实基本没怎么玩因为白天要跟国内的资讯晚上要跟美国那边的讨论所以基本上整个春节都交给 DeepSick 了

甚至我远程给我老爸拜年的时候我给我妈说完拜年的话然后我就听到我爸在旁边问说你问一下儿子梁文峰到底是不是真的那么厉害我当时就特别绝望就已经到这种程度了好的好的谢谢张涛张鹏老师大家好感谢文刘邀请很高兴参加这次交流我是微信公众号东部亚强研究院的主理人

自己也在做一些人工智能跟地缘政治跟法律和政策的交叉领域的一些研究也感谢大家关注我的公众号然后我自己现在是在英国所以在英国这边呢其实也感受比较强烈虽然我们这个中美两边其实聊得挺嗨的然后其实英国这边包括欧盟这边他们也很关注这个事件我儿子的那个小学里边同学和老师也都在聊所以确实是特别火

谢谢三位嘉宾的出介绍我第一个话题的话特别想聊聊从各位的视角其实作为一线人员的视角来简单评价一下 DeepSeek 这次的爆火的事件尤其可能是你们对于 DeepSeek 爆火的一个观察那我自己的观察下来是这样的因为我自己也是一线的在这个领域在看吧

我觉得最开始的时候 1 月 20 号的时候 Deep Seek 发布了这个 RE 的模型但是当时其实我觉得并没有引起一个特别特别特别广泛的关注有一些公众号上可能会再去聊这个事情但是说实话我觉得国内的很多公众号在一些

新的进展方面确实是有点过于激进吧经常会去取一些特别唬人的标题所以那个时候我其实并没有特别去注意到这个模型一直到有一件事情引起了我的注意是什么呢就是是

何彩头发了一篇文章就去专门去写 Deep Seek 给她带来的一个震撼然后第二个带给我的震撼是什么呢是我当时正好是可能是 25、6 号的时候我春节回家了嘛我姐姐一个接近 40 岁的中年人然后两耳不闻窗外是根本不懂 AI 的人她那天来问我好像现在网上都在讨论 Deep Seek

那个瞬间我就意识到好像这次是真的出圈了然后我也在小红书上有广泛的看到这次的爆火我不知道在你们看到的视角里面所观察到的情况是怎么样的我的感受跟文绿差不多

我的观察是实际上这个事呢是在春节前后那两天突然在国内火起来的爆火呢我理解有点出口转内销的意思就是说它实际上是在美国那边先有了很多的关注和讨论一两天之后吧很多国外的媒体的分析和评论的文章呢被国内的很多的公众号包括一些专家去引用突然在国内也开始火起来

我发现一个很奇怪的现象就是实际上呃他先发了 V3 嘛然后 V3 出来之后呢实际上没有引起太多的舆论的反响啊但事后呢很多人分析其实从 V3 发布开始呃就是一个比较大的突破了后边的 I1 呢实际上相当于这个 V3 的一个强化版当时我也很奇怪我还请教了很多美国方面的一些政策专家和观察者我说呃为什么这个 V3 发布了之后呃

包括阿姨发布之后的大概几天时间之内美国的主流媒体对这个都没有什么反应啊大概是在几天之后呃 New York Times 发了一篇文章啊后边才是铺天盖地的然后美国的朋友那边的解释是说呢呃因为 DeepSick 这事相对来说呃他比较技术性然后美国的媒体呢那两天呃因为呃别的一些事比如川普就任啊然后包括科技界发生了一些这个事情呃

实际上占据了他们的这个版面或者空间并不是说他没有关注到只是呢他还在理解这个事情到底意味着什么到底对美国 AI 产业具体带来什么冲击什么影响包括对中美人工智能竞争具体是什么影响后来呢我觉得是慢慢的他们开始发现这个事情确实是个大事

特别想听听张老师的观点作为一线的观察者我想你的观察是不是肯定是要找于我跟这个张鹏老师对就是很有意思就是其实 DeepSick 在 VR 的时候的版本大概是去年 9 月份的时候在整个开源社区跟技术学院讨论其实就蛮多了只不过那一波是还集中在核心圈然后

然后 V3 发布的时候其实就有一些更大范围的传播但那个时候还是相对集中在科技技术跟产品包括互联网这个圈子确实如张鹏老师所说 1 月 20 号川普上任那一周美国的媒体的关注热点确实全部在

特朗普上任这一波关于 DeepSick 的探讨的状态能到这个样子确实在第一步上有一定这个出口转内销的状态然后很有意思的是这样川普上任的第一天当天晚上我跟潘乱做了直播我们直播聊的是

川普上任对中美科技行业的影响我们两个完全不懂政治学的科技博主来聊这个话题因为当天现场那个白宫现场不是几个科技巨头的 CEO 都在然后我们就闲扯了一段时间第二天百度的那个直播运营又找到我说因为第二天川普跟 OpenAI 软银跟 Oracle 发布了一个所谓的新一指纹计划就是 5000 亿美金的 AI 基础设施的投资计划然后百度直播的运营说庄老师能不能针对这个问题再直播一次

所以我在第二天晚上又直播了一场就讲新一门这个计划包括跟人家行业的影响可能措施包括这个计划的一些细节那天晚上直播完的第二天我就把这期直播的音频剪辑好了做成了播客然后第三天我就上传到了小宇宙第四天这期节目就上了小宇宙的首页

然后我在那期节目当中有一小段涉及到了因为那个时候二一已经发了在美国那边其实关于 V3 以及二一尤其是在成本端跟架构端的创新这个层面对整个过去这两三年基于 AI 基础设施投资建设的这个巨大的宏大叙事结构的碰撞其实已经讨论非常多了所以我在那期音频的那个节目当中有一小段聊到了这个话题

就是我说这个事情被讨论到这个样子核心原因就在于或者最基础的原因在于无论中国还是美国去探讨过去两年在巨大的 KPS 投入基础上构建的这个以美股麦克 7 为代表 AI 浪潮的这个大浪这个主需结构是不是受到了巨大的挑战但是当时我没有想到这个事情会被推到这个状态那天我的节目上了首位之后的再一天我觉得有很核心的事件是 24 年可能中国有一个最火的创业者叫冯济

就是黑神话悟空的创始人黑神话悟空游戏科学的创始人在 1 月 26 号的晚上发了一篇微博是讲他怎么看 DeepSick 第一次提到了两个关键字叫国运他把 DeepSick 推到了这个 level 然后 1 月 26 号我没记错的应该是当天晚上 Media 大跌 17%

这个事情彻底引爆所有的事情然后 1 月 28 号上午一篇号称是 MV 的老黄的那部信在朋友圈疯狂转发但那份那部信是 AI 写的然后在那天的晚上号称是梁文峰回应冯记的一篇知乎的回答被无数人转发那篇回答也是 AI 写的

那个账号是一个虚假的账号那个账号的举报是我点的就我跟知乎队友说我说这个人一定是假的这篇文章一定是 AI 写的赶紧把它禁掉但是从那天晚上那篇文章开始那天我没记错的话应该是 24 年龙年的最后一天我跟我的太太我的儿子跟我的女儿在外面的酒店过着春节我看着无数的人转发那两篇文章无数人被 AI 所欺骗我跟无数的人的朋友圈底下评论说我说这是 AI 写的这是假的

我叫醒了无数的人但是当我大年初一早上睁眼睛看到很多人还在转然后又跟很多人去评论的时候我写了一条体课我说虽然我叫醒了很多被 AI 欺骗的人但是我又想到说 AI 发展到今天这个样子尤其是二一为代表的推理这一波的模型的进展跟演化出来的状态

已经越来越难分辨什么是人什么是 AI 当一个共识形成哪怕它是假的有很多人去相信的时候那它还是假的所以到那天开始这个事情就已经不可控制了后面的事情可能大家就都知道了

对你刚刚说的这个我也特别想分享一下因为你刚刚提到了梁文峰的那个回应我也看了我还在一个群里回复我说哇塞他写的这个好感人啊然后我紧接着就在朋友圈里面看到你说这个是假的我当时就震惊了我觉得那是我第一次真正的

感受到这一次真的跟之前是不一样的我确实没有从当然可能也是我水平有限就是我确实没有从那篇文章里面看到有特别特别明显的 AI 的痕迹我反而他还写得挺动人的

现在不光是在这个事情本身上在于它相关的一些政策和法律这些其实应当说对市场预期影响比较大的问题上也有很多的 AR 的小作文很多的假消息和误导性的文章出来

比如说前段时间我们政策圈子里一直在传的就是所谓的特朗普的 AI 沙皇 David Sachs 提出来就是为了应对 DeepSeek 对中国 AI 产业采取的五步绝杀每一步绝杀都很绝但是事后证明的那个好像是就是用 DeepSeek

AI 代写的但是确实看不出来很多人转发后来我也写了一篇文章把那个 David Sachs 整个的这个访谈的全文放上去了也是希望能够一正视听吧这个文律提到那个中美人工智能能力脱钩法案那个我看也还有很多的

最近突然冒出了很多说这个法案会导致每个下载 DeepSick 的人被罚一亿美元看到很多这种自媒体的标题这个确实匪夷所思他们肯定连这个法案的文本都没有看过也没有充分的去理解但是这种标题就非常耸人听闻传播的也特别快

我觉得张涛应该在这件事情上也很有发言权因为我也有看到你写了一篇文章是关于这方面的观点的对因为我们这边的话可能整个的观察会更靠前一点原因是因为那个因为我们直接做 C 端产品嘛

其实可能相比我们所谓的我们做业界的人但其实有一些比较资深的以及特别深度的这种 AI 用户其实他对于 AI 的敏感性对 AI 能力进化的敏感性其实比我有时候觉得我觉得是比我们从业者要高的

比如说我在这个里面可以大家讲一个非常有意思的话题就是我印象中那个应该是在 23 号的时候就是我们的用户群体里面有一些是那种比如说偏社区 KOL 或者说一些非常深度的用户

已经把它日常的很多的工作的 workflow 已经跟 AI 整合起来了所以说他们对于各种各样的新的 AI 技术新的模型他们都会积极去尝试然后看能不能改进他们的工作质量因为这个会显著的增加他们的工作效率和他们的工作产出

所以说在 23 号的时候不管是国内还是海外的用户就已经开始来找到我们说你们有没有接 DeepSick R1 的东西虽然说我们在 22 号接了但有部分用户他还是不知道然后我其实说实话我之前的时候不管是 V3 还是 R1 出来的时候我都会跟我们公司的首席科学家 Pick 我们会去聊因为我这帮读 paper 有很多不懂的东西都是他教我的

我对于 V3 的创新点我也了解对于 R1 这是做什么事情我也了解但是对于这个模型实际的能力我觉得我的第一手体验没有用过来的直接我是从 23 号开始就是有用户不断的跟我们反馈说他们需要接入这个 DeepSync R1 然后他们跟我讲他们在 R1 上实现了什么样子的一些 case 我在那个时候我突然感受到这可能不同于以前我们所有的其他的这个开源模型发布然后我们开始

投入精力去研究它然后呢就像那个我后来写一篇公众号专门去解释就是外界谣传的也是可能颇受攻击的一点就所谓的这个 600 万美元的这个训练成本是怎么样子一回事其实跟那个早期的那个火也是有特别大的关系的因为我自己日常在推特上的话我会有关注一些 AI 圈子的一个 KOL 我印象中在

春节前正是大火之前最早期的时候转发的 KOL 都是一些真的是 AI 圈子的比如说像这个 Hugging Face 的那个 AK 是吧就不是那个 OpenAI 的那个 Angio Capacity 是 Hugging Face 的那个 AK 它经常会转发各种各样的 paper 各种各样的新的模型都是限于你看啊就像在 Hugging Face 的这样一个很业内人士才会去关注的这种 KOL 上面所以说那个时候大家讨论的都是 V3 和 R1 的创新点然后训练方法呀或者是这个有什么样子的意义呀

从我的视角上我觉得在美国那边第一次真的大破圈是这个 Mark Andrewson 大家也知道 Mark Andrewson 其实传统意义上来说他是一个甚至是有点反华是吧有点那个对中国是有些对抗情绪的这样子的一个美国大 V 但是呢就是北京时间的这 24 号的时候 Mark Andrewson 开始转发 DeepSick R1 的这个消息

他开始是 reply 别人的这个这个 tweet 然后后来他很快的他就开始自己开始发开始发那个主推从一开始的什么这个东西确实很厉害但是我很坦白的告诉大家我并不为这个厉害感到开心这个还是跟他以前的立场是比较像的但是很快他自己发的主推就在一天的时间里面没有过很久他就已经变成了什么呢已经变成了 DeepSick R1 是这个给到我们人类世界的一个一个最好的一个理

你知道吧然后包括那个什么说 R1 是那个 AI 的那个斯普特里克 moment 这个东西其实很多都是 Mark Anderson 在 24 号到 27 号就是在春节前夕你会看到他的情绪的一个变化然后 Mark Anderson 在美国不管是科技界甚至说就是卖出科技界其实他的影响力都非常的大所以说呢就是我们会看到说其实早期我大概可能在 24 号之前更多还是圈内讨论

然后 24 号呢从我的这个观察的视角上来看以 Mark Andrewson 入场开始就在美国那边的话其实他已经完成了一个破圈所以说

于我个人的情绪而言其实我从 Mark Andrews 开始转发的时候我不得不承认我是有点心潮澎湃的就是你看到中国的一个这个工作就是受到了一个原来在立场上是比较跟中国对抗的这样的一个 KLO 的认可所以说一直到 26 号我看到冯济发的那一篇怎么说呢有一种呼应的感觉吧就觉得就是真的是成了

真的是厉害了而且再加上我自己因为也是一个黑神话的忠实粉丝所以说莉莉应该记得我那个那段时间就发了不少的帖子就是感觉自己欣赏的两个工作居然有这样子奇妙的连接所以我自己也是非常开心

冯契发那篇文的时候很多人在朋友圈都在说双厨狂喜对对对对然后我觉得张涛刚好把这个话题引入到我们接下来想讨论的方向啊就是我想可能也是很多人尤其像我这样的普通大众非常好奇的问题是

DeepSeek 的 RE 它到底在这次是有一些什么样的核心突破导致它出现了这么大的一个全球范围内的一个讨论度那这个方面的话要不先请张涛涛哥帮我们解释一下毕竟你是专业人士嘛

OK 如果说我们先就模型本身而言我觉得首先像刚刚那个林浩老师其实也已经提到就 V3 本身的创新点是非常强的 V3 那篇 paper 里面用了大量的工程和算法结合的很多的我这里说奇迹影巧是一个绝对褒义的词就是有大量的这种工程和算法结合的奇迹影巧使得这个 DeepSeek 能够在就是算力受限制的情况下

用一个就是我们在 paper 里面提到的 2048 张这个 H800 的卡也能够迅速 GBT4O 和 Cloud3.5 级别的这个 base model 那这个事情本身的创意很多但我觉得可能因为那 V3Paper 它的技术细节我觉得可能不是很适合在我们今天这个里面分享

但它即使如此但对于整个业界来说那你无非就是 just anotherGPT-4Ojust another cloud 我觉得它不会带来那么显著的 impact 就是到现在这样子的普遍的程度那 R1 当然是在这个上面更推波助澜就是它第一次验证了说

业界之前在复刻 O1 的那个方向上大家去走的那个所谓的 PIM 它是强化学习的一种方法是通过激励那个过程的方法就证明这个路走完了是吧那我们应该用一种更直接的方法走 OIM 那这两个背后呢可能也有很多的技术细节但大家可能就是作为非搞技术的同学一个 take away 的话就是这个方向之前很多人想过但是没有人能想到怎么把它做出来

然后呢 DeepSeek 呢是第一个当然还有些人说 OpenAI 可能才是第一个但是你知道在学术和开源的世界里面你如果不发 paper 你不放出你的这个模型的权重那我们就等于你没有对所以说在这个真实的这个学术和开源的世界里面 DeepSeek 是第一个把这个 ORM 的这种强化学习的方法讨通的这个场上并且把它

开放的出来但是呢我个人觉得哈即使是这两个点它对于我们产业内部来说影响非常的大

但是也不足以形成就是后面破圈的整个一层一层的过程我自己呢就是从 22 号我们开始自己接 R1 的 API 开始然后我们看 Twitter 上面的这个用户的 feedback 全球各地的这个用户大家会截图嘛就是自己在用这个 DeepSync 的过程当中觉得用的特别爽的点觉得那个哇为什么世界上有这么好的东西它比 10GPT 好它比 Cloud 好

然后我们这个时候在推特上去看那些全球各地的用户截图的时候就发现了一个特别有意思的一个点就是我们发现说 DeepSeek R1 好的 case 里面有 80%如果你去看它的截图它都是打开了 search 的

所以说我觉得这可能是大众舆论在讨论的时候很容易忽略的一个点大家认为这是 R1 很厉害但是事实上我们认为说这一次 R1 其实它是打了一个非常好的一个时间差这个时间差什么时间差呢就是在此之前 reasoning model 就是我们所谓的这种有思维过程的这样子的 model 就是类似于 GBT 的这个 O1

它其实在全世界范围之内即使是在已经用了 AY 的用户里面真的用过 O1 的用户是少数的因为 O1 是一个相对比较贵它需要买这个 ChatGPT 的这个不管是 Plus 还是 Pro 这样子的这个高级会员 20 到 200 刀才能使用这个就使得其实在 DeepSync R1 他们把它模型和产品同时发布之前在这个世界上真的用过 Reasoning Model 的人是少数

然后在这少部分用过 O1 的用户当中又会有另外一个问题就是 O1 在这之前他没有接 search 也就是说如果你在那个 checkgpt 里面用 O1 的时候他是只能自己 reasoning 的他没有办法去获取到这个世界实时的通过搜索的这个方法去获得实时的知识

那么 DeepSick R1 除了本身的这个技术很厉害并且开源以外我觉得它破圈还有一个非常重要的一个点就在于它在全世界范围之内第一次提供了一个既有 Reasoning Model

又可以通过搜索获取现实知识不断的结合反思的这样子的一个产品你要记得这是一个产品这不是一个模型而这样子的体验就是 reasoning model 去调度 search 的这样子的体验在这个发布之前是不存在的所以说有大量的这个自来水用户是在接触了一个完全全新的没有体验过的

高质量的体验之后自己变成自来水的这是我自己在观察这个推特上面的整个舆论我觉得一个非常重要的一点我觉得也是我们在讨论的时候我们不能永远都是说因为它开源因为它什么我是觉得如果能形成那么广泛的这个货圈的讨论一定有很多核心的自来水是来自于这个产品本身的体验本身而我们在这个其中的话抓到的一个很关键的点其实就是 R1 加 Search 这样子的一个组合

所以我们甚至判断如果当时只发了 R1 没有把 Search 人家加上的话也许不一定会后面破圈破得这么厉害这是我们的一个观察我挨托一下涛哥的这个说法就是 DeepSick 在之前是没有 APP 他的 APP 应该是 1 月十几号才上线上线起初他的 APP 里面底下就有两个按钮一个是 R1 一个是联网搜索在他最开始的版本里那两个按钮是不能同时点的

你要么用联网搜索然后搜索的反馈的结果类似于今天这个时间点我们用各种各样的 AI 搜索跟 chat 的结果你要么用二万但是二万的那个不联网的内容的这个信息的数据源应该截止到二三年十二月份所以在那个时间点确实没有达到爆点的前提准备但是就是在

这一波浪潮开始之后可能也就是七八天之后吧 APP 的两个按钮可以同时点因为当时我在最开始 DeepSync 发 APP 的时候我就装了然后两个功能我都试了但是就是觉得确实没有达到那个让用户 wow 的那个状态但是当那两个按钮同时可以被点的时候这个事情就出现了变化

这个我也确实我作为一个普通的用户我也特别的有感受因为不管是之前一直以来最头部的这个 OpenAI 的 Plus 的账户还是 Cloud 的那个一直以来在写作方面最优秀的这种模型我其实都试过但确实都没有我在使用尤其是刚开始 DeepSeek 那个时候还没有被各种

天亮的用布料给冲垮导致各种服务器发忙的时候那个时候还是很流畅我试用的时候我觉得我所得到的那种体验和他给我的答案是从来没有过任何一个

AI 的应用所给我的当然今天我从这个涛哥的序幅当中我终于理解了是为什么确实就是那个你讲到的这个推理模型和搜索的结合所带来的体验为什么我有这个感受呢是因为我这几天就明显的发现我在问类似的问题的话他给我的答案我觉得是没有最早的时候我使用的好的那我自己发现的里头有一个核心的区别就是他的那个联网搜索是不能用的那我就发现这两个

答案上的质量是有一些明显的区别的那然后我们要不再聊聊说其他一些可能在这个 Deep Seek 的核心突破上可能一些比较有争议性的一些观点尤其刚刚其实涛哥有讲到的关于那个极大的节约了成本 600 万美金的那个事情这个事情我看到不管是国内尤其是美国那边对这个事情的质疑真的是非常非常多我不知道你怎么看这个事情

那我就先讲吧因为这个我专门写了一篇文章我在那个观察 R1 就是大概在春节应该就是除夕吧就是截止到除夕的时候我就有一种很明显的感受就是美国主流的媒体包括美国的学界其实对于中国的整个的这个

AI 其实是一个长期是冷落或者是说很刻意的去忽视的一个环境所以至于说我们突然有个东西火了之后你会发现他们想来了解我们的时候他们的英语世界的信息是极度落后的极度滞后的甚至会有很多的这个 fake news 比如说好像我的一篇文章里面我提到当时因为阿旺火了嘛

那你也知道如果你作为国外的 KOL 或者作为主流媒体那你要去写这么一篇新闻你肯定就会去调查这个 DeepSeek 是个什么样子的公司对吧所以这个时候呢就出现了三个比较出名的谣言甚至到今天你在 Twitter 上面如果你去搜 DeepSeek 英文世界的话这三个谣言还在继续流传

第一个呢就是关于那个罗弗利对吧罗弗利其实大家在搜索的时候很容易搜出来他因为是一个女生而且很年轻也是那个 V2 模型时候的一个研究员啊然后很多的这个 KOL 就去推罗弗利但是其实你是在中文世界里搜索的话你就会发现罗弗利其实有很多的报道比如说他已经去小米了呀已经不在 DeepSeg 了呀有很多很多这样子的一些事情但你可以想象在英文世界可能这个消息是比较滞后的啊

即使到今天也有很多人把它描绘成就罗弗里斯 DeepSeek 背后的秘密武器第二个呢就是关于说觉得 DeepSeek 是就是 R1 这个东西是我们中国的一个量化基金的一个 side project 他们特别强调这个 side project 就说好像描述的那个叙事就是中国有个量化基金主业是做量化然后呢一不小心干那个 side project 就干到全球第一了

但是你知道这种感受在我们国内只要是在从事这个行业的人我相信绝对不会有哪个人会觉得 DeepSeek 是一个 side project 我们肯定是很认真的在对待这家公司的但是这样子的叙事在英文世界可以流行其实就是因为你也理解他长期以来对整个中国的这个观察是非常缺失的

然后到了第三个最经典的谣言就是说这个 DeepSick 这个 R1 训练成本只要 600 万美元其实相比起我们的这个 Meta 动不动要上亿美元那这个完全就把 NVIDIA 的叙事给打垮了我们 Meta 随便一个这个 Fair 的那个那个 Director 他的个

年薪可能都有 600 万美元反正就越传越广但这个过程当中为什么我们讲这个训练成本 600 万美元我要讲这三个谣言是因为我觉得训练成本这个谣言的背后是来自于就是长期的就是他们对这个中国这个整个的这个 AI 的学术界的不关注以道之说初期传播的时候就没有一个很正确的声音或者是说一个很好的信息来源的去了解

那么这是一个背景那具体到这个 600 万美元这个事情的时候呢我的观点一直是这个样子的就如果你要去攻击一个对象那么我们首先要看你攻击了这个对象他最原始的表达是什么那这个训练成本 600 万美元他最初的这个根源甚至都不是来自于 R1 他是来自于

飞三也就是说 R1 的这个去做强化学习的这个 base model 飞三的技术报告里面它里面有提到说他们总共的这个训练时长是在用了差不多应该是 280 万 H800 的这个 GPU 小时

如果说按照这个每个小时两美刀的成本去计算的话就是这个租金去计算的话那么差不多就是五六百万左右吧好像是五百五十多万我记不太清楚了反正我们就忽略一个算个六百万吧那么首先是 DeepSeek 在他的那个表格里面非常清晰的告诉了你整个的这五百五十万的成本它的构成是什么样子的

pre-training 花了多少钱然后呢去做这个 context 的这个扩展的时候花多少钱 post-train 部分花了多少钱它的模型的这个整个的这个参数的这个尺寸它用来训练的数据量全部都是在报告里面是清晰的数字那么如果是业内人士你根据这个模型的尺寸和激活的参数量再加上这个训练的这个数据量

那么你最后的这个训练时长是完全是一个公式是可以算出来的那么这样子的成本的话其实对于行业内来说大家是不会有任何的质疑的就会觉得 OK 那如果你是做成这样子的一个 MOE 的架构用这样子的数据上的训练那么就是这个样子的成本

这个其实是没有任何的那个疑问的并且 DeepSick 在自己的技术报告里面也非常清楚的就在那个表格的下面有很长的一段来讲说我们这个地方提到的训练成本只是指的是 DeepSick V3 最后一轮的训练的这个成本那么在这个之前所有的研究成本所有做实验的成本所有去做那些算法研究结构研究数据准备清洗相关的这些成本

都没有算进去那么作为我一个第三方的一个观察者来说我觉得他给出了一个在

数学上是绝对可以被证明的成本并且他也没有刻意去忽略说其他成本还存在只是我没有列在这里那么所以我首先不会去 blame 不会去怪这个 DeepSick 那么我们看到当时在推特上整个这个舆论发展的过程大概是什么样子呢其实也就是在我刚刚提到的说在 Mark Andrewson 介入之前也就是说还停留在比如说像 Hugging Face 的 AK 他们这个讨论之前

那么大家就说 DeepSeek 用 600 万干了这个 Meta 的这个 Lama 模型几千万的活那么这个我觉得是一个完全正常的对比因为这个事实上就是我们指的单次模型的训练成本就是 600 万对几千万这个首先它确实是有优势的就它真的是节省了很多但是这个节省也就是 600 万和几千万就是单次训练成本的这样子一个对比这个讨论是完全没有问题的

但是呢我印象中差不多就是在 Mark Andrewson 介入之后然后呢有更多的 KOL 和那个传统媒体因为他们不太了解这个技术很快的就把这个 600 万的这个单次训练成本背后的信息给忽略掉了然后把它直接拿去跟

比如说 Meta 在 Lama 上的整体投入比如说多次训练甚至把整个团队的投入都算上去这个时候就已经开始变得已经有点离谱了就是说他把上下游的人员工资各种 Infra 的开销都算进去这个时候就已经有点偏离了

然后到最后呢就是到那个更多的媒体接触之后这个 600 万就甚至都不是跟这个蓄模型相关了直接去跟那个 Cloud 比如这个公司的融资规模甚至它的股值规模去对比那这个时候就完全已经变成了一个神话了然后这个时候你知道一旦变成神话之后就会有人开心的攻击你对吧说你这个是骗子

但是我们想一想首先这个事情最开始的时候 DeepSick 压根就没想过骗而所有中间的编出来的所有的这些发展过程全部绝大部分都是英语世界的 KOL 和媒体就是不懂这个行业的 KOL 和媒体所产生的所以说我觉得在

整个这个过程当中屁股决定脑袋吧就到最后的话它已经完全演变成了一个跟技术没有关系纯粹是一个地缘政治或者是说对于企业管理思路对于产业发展路线的这样一个辩论但它跟 Deep Saker 一开始最原始的表达是什么已经毫无关系了所以我自己对于这个的观察差不多就这个样子

明浩老师要不也来分享一下因为你这个对不管是中国还是美国的各个创业企业尤其是 OpenAI 包括你之前也提到的那个新基智们这些计划都非常的熟悉我想在这方面你应该也有很多的想法对就是也是爱口张涛涛哥的这个说法就是

560 万美金仅仅是一次训练模型的成本这跟整个换方或者 DeepSick 在 AI 大模型的投入完全不能相比但是

因为在美国的主流的 AI 这波叙事里面关于各家巨头包括 NPI 暗扫北格的头我的 PPT 之间其实有一页是非常明显我那页的标题是特别简单是一个我很喜欢的主播大猛说的一句话说在成年人的世界里面钱是最简单的标准依据整个 24 年的情况来说大概他会把整个 AI 相关的公司分成三类第一

第一类叫科技巨头什么叫科技巨头就是科技巨头每年在 AI 上的相关的投入尤其是以 KPS 为主的投入是以百亿美金为单位计算的

那正好这一周是这几家巨头发新的一年财报不约而同的 Meta Google 微软 Amazon 都公布了明年在 AI 相关的技术设施的投入都是大几百亿美金没错的话微软是 800Meta 是 650 样讯是 750 昨天晚上 Google 应该是 700 这个叫推巨头也就是说主流的媒体跟

主流的比如美国的这 KOL 的认知里面 AI 相关的大的家伙们每年在这件事情上投入是几百亿美金计的然后第二类公司叫 AI 的主要的参与者是以 OpenAI Anthopic Cloud 包括 XAI 为代表的这些公司他们的计量单位是 10 亿美金 OpenAI 去年应该亏了 50 亿美金 Anthopic 应该也是小几十亿美金然后 XAI 去年大概也容得几十亿美金就是说这些公司在 AI 相关领域的投入

那这个投入包括硬件数据中心也包括人员包括 infra 所有这些可能是几十亿美金来计的这类公司叫主要的参与者是几十亿美金第三类公司叫挑战者

那就简单就是几亿美金为计的比如说 Meet Journey 什么 Carry.ai 这种公司所以在主流的媒体叙事里面钱的计量单位我刚才讲过是亿美金十亿美金跟几百亿美金的体量甚至如果把科技巨头所有的 KPS 加起来整个去年美国的前六大科技巨头在 AI 的相关基础设施的 KPS 图应该是 2300 亿美金左右

然后今年预计可能会涨到 3000 甚至 4000 如果再算上新一正本计划的 1000 亿美金这个数字就更大所以你发现我刚才讲所有数字最小是亿美金盘锋追的是 10 亿美金百亿美金千亿美金这些数字偏偏出现在所有的媒体跟所有的讨论当中然后

然后突然间有人告诉你我这边只需要 600 万美金这个的落差之大对吧就我不需要再去解释别的任何事情就是任何一个哪怕不懂这个行业的人他也知道这之间的差别是几个零的差别所以当这个事情被演绎到一个神话跟大家已经不去探讨那个细节的时候这个事情就已经没办法但是过程中其实也是有清醒的人像那 Anthopec CEO 在接受一次这个过程中采访也提到是说

就跟刚才涛哥讲的逻辑是一样就是他确实 560 万到 600 万美金的一次学生成本确实是一个成本很低工程上有非常多创新的方式但是我们这边可能常规的比如说是一个比如 2000 3000 万美金的这个体量本质来讲不是一个遥不可及的数量级的差别但是没办法这个故事被演化到这个程度之后这个事情的演绎跟推演就不可控了就出现了后面未来的大跌大家去探讨这个行业的乱七八糟的事情

我其实完全同意前面张涛老师跟明浩老师的分析就是这些数字本身我理解实际上它有些时候是超越了事实添加了很多的情绪尤其是双方的民族主义情绪包括中美 AR 竞争的一些争论在里边科技竞争因为从技术社区之外的普通人的角度理解我理解普通人对直观的认知可能就是两点一个是

它用最低的成本实现了几乎比肩 OpenAR 的这种模型性能然后再一个就是说它在更低端的硬件这个更低端的 GPU 让它实现了高级推理我觉得普通人可能

更加倾向于从这些方面去理解吧然后从中美两边呢实际上民间其实都有一些动力去夸大 DeepSick 的这种它怎么省钱这方面然后包括也去质疑美国的这些 OpenAI 这些 AR 的科技巨头为什么花了这么高的成本但好像没有跟中国模型拉开

多大的差距因为我理解在美国国内实际上对 OpenAI 对这些领先的这种 AR 的巨头一直是有一些质疑的就是说政府对他们的支持非常多不管是政策工具 出口管制然后包括国内的一些资本的投入其实支持是非常大的

然后突然又冒出来一个好像一直是比你要落后的你看不起的这个中国的大模型出来然后人家花这么少的钱给你实现了同样多的效果我觉得肯定毫无疑问会极大的加剧了对他的这个进一步的质疑然后从中国国内本身呢这肯定对我们来说是一个突破性特别大的事情所以我觉得两边其实都掺杂了很多的情绪这个时候呢事实反而不是特别重要的

也就是我为什么前段时间一直在说这个讨论需要适当的降一下温然后需要有更多的这个产业界和技术社区的人们来去澄清一些基本的事实对这件事情我也特别想问一个问题就是这个 DeepSeek 这次的模型我们也有观察到这一次最近 DeepSeek 爆火之后其实那个规纪流动和华为云他们联合合作在这个华为的生腾

的这个技术基础上也去提供了这个 DeepSick R1 的服务包括前面我们最早的时候有讲到 DeepSick R1 爆火之后因为它其实暴跌 17%尤其前面我想涛哥也有提到说 DeepSick 的这一次 R1 包括

V3 的很多创新其实都是因为他们只面临了有限的资源情况下做了很多工程上的创新技术上的创新其实我觉得他揭示了一个问题之前美国包括国内的有一些 AI 行业的人吧也在说其实是有一点这个 AI 算法

历门槛论的也就是刚刚庄老师说的你必须要有几十上百亿美金的投入你才有资格去做大模型包括前面一月底的时候这个离开副老师的这个林万物的退出训练大模型这件事情其实也对这个事情也是一个注脚吧我其实特别想叮叮几威在这件事情上的看法也就是 DeepSeek 在这种资源匮乏的情况下所做出的这种创新以及它可能

对当前的这种包括这个芯片啊英伟达这些造成的冲击方面包括它可能运用到国内的生腾就华为的芯片上的一些运用它所带来的打破的一些传统的叙事这方面的观点

我的感受是我觉得都是细节第一个细节是国内的这一波做 infra 的厂商跟做 chatbox 的厂商可能因为 deep-seek 的爆火但是 deep-seek 本身没有那么强的面对这种大流量的运营的能力导致的用户蜂拥的寻找所谓的本地部署跟云端部署的 TF 案导致的用户增长是一个巨大的促进作用就这个促进作用本身是所有人未曾预期过的

举个最简单的例子就是估计流动的 CEO 袁老师其实之前在极客朋友圈也写就之前 DeepSick V3 上线的时候他也没有特别就跟涛哥的 Monica 差不多大家觉得一个开源模型技术能力不错也没有想特别多也没有最快的做兼容包括 R1 但是当事情火了之后他们马上跟进之后无数的人注册估计流动然后开始做自己的 API 然后做调用做部署

包括我看好几个 KOL 都用那个自己规流动的这个邀请的注册码因为他们现在邀请是每个人如果你用我的邀请的话注册成功之后会有 14 块钱的那个奖励我看已经有 KOL site 它的奖励已经这个数字已经很庞大然后小红书那些评论下面全都是这个邀请码 B 站上今天应该

在首页应该有不下三个教大家怎么在本地跟在云端部署 DeepSeek 的视频我点击看都是一万人同时在线在看这一步对于这个生态的促进跟影响的长远性可能是今天这个时间我们没法预估的因为在这之前所有这些厂商的知名度也好影响力也好包括他们做的事情他们的业务

他们能做什么不能做什么怎么跟上游结合所有这些事情对于一些非行业内资深人员是完全未知完全陌生的但这一波之后很多事情大家都知道这是第一个第二个就是当 DMC 出现之后包括我们跟我们前面在探讨的这个成本的问题所以市场的最直接的第一反应就是杂案为点

但是你要知道就是股票市场本质来讲它是一个多方博弈的过程出现一个巨大的下跌一定是有一些

别样的因素导致它不是一个单纯的因素它可能是本来空头就比较多然后呢积压情绪已经到了需要一个时间点的引爆那这个事情彻底就把它点着了我反正在之前写那个年度报告的时候有一张图用的是这个 Amedia 的过去一年的股价变化然后旁边有一张复图是标普 500 的公司一天的涨跌幅的排名然后涨幅前十跟跌幅前十这 20 个选项里面应该有 16 个到 17 个都是 Amedia 贡献的

为什么是这样因为就是我有说法叫盈亏同源就是他既是这波大模型的最大的受益者然后他又是七巨头之一他的波动当然就是最大的

关于它的增重也是最多所以当天跌了 17%这跌了之后更多的反面的探讨开始出现大家会觉得如果真的出现了一些更低成本的方式的话那是不是对未来的我们期待中的无论是应用层的爆发还是 A 站的爆发还是个人使用门槛的降低有了更多的促进也就是说它把需求的门槛降得更低了是不是能带来整个生态的更大的繁荣这个观点引发的讨论是说那如果是这样的话那其实

对于芯片也好对于上海油的厂商的需求也好应该是一个长期看上去更多的更好的事情所以这两方的观点在过去这一两周的时间也疯狂的做对冲谁也很难说服谁两方的观点疯狂的在各家这个几个头部公司的股价上都对抗又很巧合的是这几家公司这几天都在发财报昨

昨天晚上应该是 Google 发的然后 Google 非常激进的在明年的 AI 的这个相关技术设施的投入应该是预期要涨百分之多少百分之四十还是百分之几然后但是即便是这样即便是 Jimny 最近一段时间的表现很好但是财报发完 Google 也跌了百分之八吧 NVIDIA 大跌那天 Apple 没有跌大家会认为对端层模型可能是一个好处包括这两天港股开盘之后联想涨得很好

联想的长的逻辑就是认为端层模型对于有端的厂商而言是一个好事情包括小米也是这个逻辑所以你会发现同样的一个信息至少在我们所熟悉的二级市场跟股票市场里面对于不同公司的不同解读影响了这一波短期的操作

明白涛哥有什么不同吗我觉得对于算力的这块影响其实它就是分成短期情绪和中长期的看法我记得春节期间的话我和曾各基金的宇生我们有个交流然后宇生跟我提到一个特别有趣的观点他说他看身边的朋友比如说美国那边的朋友西岸的都在买

西岸的都在买 NVIDIA 东岸的都在卖 NVIDIA 其实就是说西岸的都是产业界都是这个 AI 产业界的大家都觉得像 R1 这种开源社区的这种新的技术的突破和发布它一定是会带来整个行业的更加繁荣造成未来的这个不管是推理还是训练的需求量都会大大上涨但是

但是呢那个东边呢就是华尔街搞金融的大家短期的这种情绪都会觉得说这是个重大利空我要赶紧卖我觉得之所以会出现这个分叉点的一个很大的原因就是大家对于未来的看法以及说股票市场其实和

长期的产业发展它不一定在任何时间段之内都是完全是同趋势同向的但我自己毕竟不是个专业的金融人士我自己只是一个从业者但在我的视角上来看的话我肯定对于未来的这个

算力需求是有非常乐观的预期不仅仅是因为 R1 还有很多其他的方面的一些原因我整体上我会觉得比如说我会很乐观的看到可能也就是不需要三到五年我觉得太长远了

我觉得可能就是三年之内整个推理的算力需求会比现在扩大 100 倍就不是 10 倍是 100 倍所以说站在我这样的观点前面来看的话我就会觉得整个的算力需求一定是会大大上涨的但是呢对于 NVIDIA 来说这个叙事最大的变化是推理需求

上涨了但是不是都有 NVIDIA 来吃掉这个推理需求我觉得这可能是关于未来叙事最大的一个变化就像最近大家也看到华为的 910c 是吧轨迹流动已经部署上开始来推理 R1 了大家也会去想说你华为能行我是不是其他的那些厂家也能行我觉得这一次可能是因为开源世界之前一直没有一个真的能够跟

一线避怨模型能打的模型所以说呢大家去大规模去部署开源模型的动力并没有那么强这是第一次产生了这样子的一个时刻然后呢当大家真的有这个实际的部署需求的时候大家突然发现好像不用 NV 也行我觉得这个是造成这个这个叙事一个特别大的一个变化但如果从整体的大的推理需求量来说的话我自己是非常看多算力需求的

明白,这里我其实特别想引入接下来的一个话题,就是其实有一些人我看到对这次的事情的评价,就是认为其实美国一直以来的这种芯片出口的管制政策并没有真正的限制中国的 AI 技术的发展,反而导致了很多的技术上的创新。

这方面的话我其实想先听一下张鹏老师的观点因为你也一直有在关注美国方面对 DeepSeek 这次尤其是他们政府方面对这次 DeepSeek R1 爆火的一个反馈 DeepSeek 这块我理解美国那边从一开始它的一个非常重要的关注点就是一些涉及到芯片相关的一些事

事实的问题比如说就是它到底有没有最开始大家流传的那个五万块的 S100 的芯片因为这个事情呢最先源起的实际上是 2024 年 11 月那个时候那个也是美国一个半导体 AI 产业界的一个非常著名的一个观察家他自己也运行一些这个 newsletter

叫 Dylan Patel 他实际上在去年 11 月份的时候他好像发过一条推文其中提到呢 DeepSync 有超过 5 万个 Hopper GPU 他没有说是 S100 实际上当时当时他说的是 5 万个 Hopper GPUS800 肯定也是 Hopper 嘛对吧只是说因为美国制裁他们的内存带宽比这个 S100 受到更多的限制

实际上属于一种阉割版后来这个阉割版也被美国经营过的出国管制

然后后来呢实际上是在达沃斯论坛期间那个 SkillAR 的首席执行官 Alexander Wang 他接受采访就谈 DeepSync 这个事情包括他的这个算力的供应这块直接就说 DeepSync 有五万块的这个 S100 的芯片然后他理解了这违法了美国的出口管制而且那个 DeepSync 不敢对外去说所以这个事情我觉得在美国的商务部啊包括这些主管部门是

我觉得引起他们非常大的关注包括白宫国安会因为我们都知道 S100 是美国严格出入管制对大陆禁运的芯片那么你这五万块到底怎么来的你是不是通过这个走私过来的

所以说后来我们看到媒体放出来的消息白宫国安会等于说牵头成立了一个类似的这种调查机制实际上我理解现在这个调查仍然在进行当中这肯定是他需要去搞清楚的一个问题我觉得现在大家普遍的理解就是说他这个五万块的 S100 应该是一个假消息他应该主要还是依赖了那个 S800

包括我们前面张涛老师跟明浩老师提到的 DeepSig 它主要的创新点我理解也都是围绕着 S800 克服它内存带宽不足的问题来产生多余的计算能力因为我看到有很多分析说 DeepSig 实际上是在每一块的 S800 的 132 个处理单元中专门编成了 20 个用于管理它的跨芯片的通信

那么这在 CUDA 的架构当中实际上是很难做到的所以很多分析也指出来 DeepSeq 的工程师实际上是使用了另外一种叫做 PTX 的指令集实际上是跟 CUDA 是不太一样的也就是说只有你在使用 S800 的这种情况之下你这种通过

工程化的这种优化它才是有意义的但是这个事情确实毫无疑问的激发了美国那边的非常密切的关注对这个问题是有两派一派是有人认为正是因为美国前期的过于严格的出口管制所以对中国公司产生了一种倒逼的效应逼得它在工程方面就像 DeepSeek 一样去做到了极致然后才开发出了现在的这种 DeepSeek 的 R1 的

微酸的模型实际上这是美国出口管制所导致的一个恶果属于自食其果另一种观点认为说你看 DeepSig 还是在依赖你的英伟达的芯片去做出来这个模型还是用的 S800 你当初就不应该放 S800 你应该把 S800 一块管了

包括它的等效的一些芯片所以现在前几天彭博吧我记得也传出来说美国政府正在考虑进一步的管制目前还合规的英伟达的阉割版 S20 我理解目前国内呢其实对 S20 这种芯片还是有一定的依赖如果管制了之后呢肯定会产生相应的影响目前的走势来说我理解 S20 可能大概率的会被管制

明白 这方面也想听一下庄老师和涛哥的想法尤其是关于 DeepSeek 的芯片来源这件事情我还蛮好奇的 DeepSeek 的论文当中他其实有明确的提到他是用的 H800 然后我记得其实爱永有一篇文章这个梁文峰他也是明确有提到说他们其实很多都是老卡而不是真正的现在最先进的卡

然后但是我也有记得有一个新闻其实是我印象里面 DeepSeek 第一次出圈的一个新闻其实是当时说 DeepSeek 换方是国内唯一一家拥有一万张 A100 还是 H100 那个芯片的新闻这个是当时我记得换方出圈的一个很重要的事件不知道这个 John 老师怎么看

对就第一波关于 AI 的基础设施投入跟买卡的讨论的时候大家就在探讨中国的哪些巨头的卡的数量比较多那换方是做量化的量化说简单一点就是用机器的方式炒股那它的整个运作方式就是推理计算分析总结整理整个过程听起来跟大模型一模一样对吧就是所以在人家做换方做炒股的时候的卡就有了

所以在那一波在美国还没有完全出明确的禁令之前换方这个集团公司里就有不少的卡所以那个时候有一波新闻是说中国可能除了字节跟腾讯在那个时间点之外运用万卡的只有换方那换方在那个时候用万卡的原因是因为他是坐量化但是那个时候其实换方已经开始做大门型联发了

就这两件事情是那个时候他在相当于在并行在做然后后期当国管制限制出来之后至少在今天我们看到的 V3 和 RE 的一些论文和 paper 上来讲已经是合规的但是你要知道其实中国的公司有非常多的方式想用到那个被管制的卡还是可以用到无论是租用然后海外公司实体还是从新加坡转移到各种各样的方式其实有很多非常多

超哥这件事情怎么看你作为这个一线的 AI 领域的创业者和产品经理这个感觉好像也不是什么该我们看的事情因为这个方面可能那个我最信誓的来源就还是那个 Semi Analysis 上周他们发的那篇报告吧就是说六万张吧一万张 100 一万张 H100 一万张 H800 三万张 H20 这个数字应该是一个比较可信的数字而且我讲真啊就是

如果真的是把他们的那个 V2 和 V3 那两篇 paper 从头读到尾当然我也是因为有我们公司首席科学家陪读啊就是那个读的过程中你就会不断的问自己就是但凡他们手上如果真的是那种如 Alexander Wang 所说啊有那么好的五万张卡我觉得他们都不会去做那些事情就是你在那个 V2 和 V3 的 paper 里面读着读着就会有一种为什么要干这个呢

就是他为了去那个解决一些那种卡件互联的带宽上的问题为了解决那个传输量和运算量的问题他用了很多的一些偏 hack 的一些方式如果说他们不是受限于这个卡的话我觉得他们根本就不会去干这些事情

所以说我觉得真的是认真读过 VR V3 那个报告的人都会可能跟我们产生一样的疑问并且得出一样的结论就他们是真没卡或者是就是真没那个满血的那么多的 H100 的卡像 Alexander Wang 说我们有五万张我觉得如果真有这种的话他们就不会去干 VR V3 里面提到的很多的一些工程上的一些优化了

明白另外我特别想讨论一个问题就是关于其实也是一直以来尤其是美国那边对这一次 DeepSeek R1 的一个非常主要的抨击就是关于那个蒸馏的问题有时候到 DeepSeek R1 可能是用了 CHI GPT 模型的一些模型的技术来进行蒸馏那由此就涉及到一个可能侵犯到美国的领先知识产权的一个问题那这个问题我可能想请你

那个涛哥帮我们先简单的介绍一下什么是蒸馏 OK 好就是 Dissolation 它在积学型领域里面其实早期的时候是一个更加有确定性的这样子的一个用语就是说比如说你已经训练出来了一个大 size 的一个模型比如说你训练一个 70B 的对吧

然后呢这个时候呢你把这个 70 币的模型给它一些 prompt 开始疯狂的输出一些数据然后这个时候你把这个 70 币的模型中间的某些层给抽掉只留下比如说以前我可能有个 200 层是吧我抽掉之后剩下 100 层那这样子我模型参数变小了层数也变少了这个整个网络结构是变简单了然后呢我用前面那个 70 币满血的那个版本的输出去调教它

试图让之后的这个更小的这个 size 比如这个 32B 的这个 size 的模型也能够表现的尽可能的跟他的这个 teacher model 这个 70B 的一样那这个叫 distillation 那么最严格的这个 distillation 的定义里面它一定是同样的一个模型同源对吧就同样的模型我抽掉一些层这个叫真流

那后来呢这个东西相对来说被泛化一点啊就是说我也不要求那个模型是一样的了啊我就是用一个更大的模型让他的那个输出来调教我的一个 student model 这个 student model 可能在架构上对我可能跟那个 teacher model 不一样

但是它最终的目的都是希望通过一个 teacher model 的 output 输出来引导 student model 能尽可能的它的整个的输出能够跟 teacher model 一样但是这个里面有一些限制首先就是蒸馏是大尺寸模型对小尺寸模型其实就是 student model 理论上来说它是不可能强过 teacher model 的这是关于蒸馏的一个基本的概念

那正流这一个问题也是我看到美国那边好多的 KOL 都在讲我们是偷了他们的这个领先的技术但是我也其实有看到说 OpenAI 的它的有一个研究员他是自己在那边承认说认为这个 DeepSeek R1 的一些发现是独立于 OpenAI 的

这一点上我不知道你怎么看包括你怎么看认为因为我听说蒸馏技术应该在 AI 行业里面其实都是一个非常非常普遍运用的技术包括其实之前有新闻就当时应该是美国已经是限制了一些中国的企业去使用 Tri-GBT 的模型但是当时应该是有一个新闻是说

字节还仍然在通过 API 使用的方式在征流 GDP 的模型等等有这样的一些新闻对这些方面我不知道你们怎么看那个涛哥要不你还是先说首先征流在行业里面是绝对普遍当然就是美加都不会承认但这个事情就是真实存在中美我觉得都有这个关起门来说大家都是认的但是公开来说就没有人会认

其次呢就是说大家不要把蒸馏想得那么厉害蒸馏这个词是因为大家有时候对蒸馏原理不了解所以说就觉得蒸馏好像就是跟我们那个做汤做饭一样是吧就是把水分熬干剩下的精华就是蒸馏就大家这样子就会觉得好像是一个剽窃是一个过程但是如果说你真的去看那个 V3 的整个的训练过程包括 R1 的那个训练过程你就会发现

所谓的这个针流即使存在它在这个里面能够影响的点是一个非常小的这样子的一个点好然后呢这是首先一个前提条件那么其次我们再来看说针流这个话题一开始是怎么产生的就我们讨论任何一个事情我们都要看它最开始是怎么产生的因为不能说把这个原因这个起始点给抛开我们就空对空的来说针流有没有存在不存在其实你会发现真的在美国那边这个舆论发酵起来

包括也有一些华人在质疑这个事情就都是来自于大家一些截图就是说你去问 DeepSeek 的官方的应用的时候他有时候会出现自我身份认知的错误他会说 I am chat GPT 或者是说在他的 R1 的 reasoning token 里面就是他的思考过程里面他会提到作为 OpenAI 的一个 chat GPT 我不能怎么样

然后大家以此截图传播说他果然是那个剽窃了 OpenAI 最夸张的就是说这个是一个 OpenAI 的套壳这个就有点过分了这个我们就不去回应他了但更多的是说这个是使用了针流技术但是我是觉得所有拿这种 case 来说的人其实他本质上是对于这个现代的这个模型训练过程包括说这个 LM 的这种模型的基本原理能力他其实是不太了解的

所以他只能够通过这个最后的输出的这一句话来做这个判断那我们来简单分析一下首先任何一个语言模型

他都不知道自己是谁就是我们在做 pre-train 的时候我们真的在预训练一个模型的时候用全世界所有的语料把这个数据各种各样处理的时候大家对 AI 因为也不太了解总有一些比较偏玄学的想象就觉得 AI 好像真的是一个人他有个自我认知所以说我问他的时候他就说 Hey I'm Chad GPT 但事实上在做 pre-train 的时候通常不会去训这个

而是在做 posturing 做后训练的时候会专门有一个对齐过程对齐有很多方向偏安全的偏那个有害性的是吧偏各种各样的其中有一个方向就叫 self-cognition 就是自我认知那么在那个部分的对齐里面就会通过大量的这个 instruction 就是这个指令集去训练一个模型让这个模型知道我是谁

也就是说大家理解吗就一个模型它本身它在训练的过程当中其实它是没有一个所谓的自我认知的它的自我认知是通过后期的对齐的方式来实现的这是一个前提之一那么 R1 呢中间有一个比较 tricky 的一个地方是在于说至少行业里面有不少的同学会觉得 R1

它是通过少做对齐来实现了在模型能力上的一些提升因为大家要知道所有的这种我们所谓的这个对齐的部分不管是偏安全的偏什么方面的对齐都会通俗意义上来讲会让模型降质它的质力会降低比如说如果你仔细去看那个 R1 的那个 paper 里面他会提到他们在最终一轮的 SFT 里面引入了那个 Humless 的那个数据集那是一个就是有害信息的那个

事实上如果不加那个有害性的那个对齐的过程的话其实在有一个 benchmark 上他们还能再提升七八个点但为了去对齐那个那也牺牲了一些能力上面

那所以说呢其实 R1 我们大家一致比较认可的就是他少交了很多的那个像 OpenAI 和 Cloud 他们要交的所谓的叫 alignment tax 就是对齐税就是说很多的这个商用模型啊他最后为了符合各种各样的法规包括那个社会价值是吧公众的这个这个意义他要去做很多的安全对齐那这个过程当中其实他会损失很多的智力那 self cognition 就是自我认知也是这个后对齐的一部分他上也会丧失这个

那 R1 不得不说在这个方面做的比较少所以说他能力很强但是呢造成的另外一个问题呢就是他对自己的自我认知其实不是那么的这个强现在这个互联网上不管中文还是英文互联网上充斥着大量的语料那些语料里面各种地方都有 Mchat GPT 什么什么什么的那么他在做 progression 训练的时候数据机里面不小心混淆进去这样的数据首先这个是一个非常正常的事情好

好那我先解释这一点那么另外一个点呢就是大家对于针流这个事情的理解还不太对的一个点是什么呢就是如果说假如说你真的要去做针流真的做针流是怎么做呢首先现在做不了真正的针流了因为真正的针流的话是需要那个 teacher model 他在输出每一个 token 预测的时候不仅要输出概率最高的一个

也还要输出比如说 Lily 曾经是一个律师那么推理到那个一个的时候除了要输出那个律那个律师这个 token 我们就假设这是一个 token 哈

就律师可能是 99%的概率那可能有 95%的是一个女生是吧女生可能 95%的概率也就是说在每次推理的时候其实 next token 它的是一个概率分布是有很多很多个可能性的那么我们真的要针流的话其实是每一次 next token prediction 的时候要把完整的这个每一个词的概率分布都拿出来

这样子针流学习才可以学到真东西但是 OpenAI 早在一年多之前就在自己的 API 里面把每一步推理的时候的所有的可能性 token 包括概率的数值都已经屏蔽掉了所以说首先其实你现在做不了真正的针流你想靠这种方式就是想靠他们线上的有的业绩来做针流学不到什么特别多的东西其次如果你真的要做针流大家想一下你会去怎么构建那个 prompt

难道你勾进了 prompt 会说你输出的每一句话都要以 imchatgbt 开头吗就如果你真的要去让那个 teacher model 教你你肯定不会让他开头输出 imchatgbt 对不对比如你可能就是说那个你教我 5 加 5 等于几直接输出答案那那个 API 就只会输出一个 10 那你学到的就是这个 10 你不会学到那个 imchatgbt

所以说现在网上所有那些拿那个 DeepSeek 的那个官方应用回答里面的那个他的表达说 M7GBT 或者说作为一个 OpenAI 的 AI 这个东西来说它是真流的其实在我们从业者看来其实都不是特别懂行对大概就是这样子一个背景吧

明白明白张鹏老师也特别想问问你的看法因为我记得你在这个问题上应该也是有发一篇文章来讲的就是关于美国那边可能认为我们通过争流啊去所谓的叫偷窃他们的领先技术和侵犯他们的知识产权这一点上是我理解的这个事情就是美国那边呢其实有一些情绪化的表达比如说你刚才说的这个偷窃美国模型的问题啊

我们要严格的从法律上去分析的话实际上你要从知识产权法的角度去分析对吧因为我们通常说如果说存在一个偷窃模型的情况那什么情况属于偷窃模型我觉得无外乎这么几点一个就是说你这个设法获取了别人无意间公开或者共享的模型是吧

既可以是在物理意义上你去窃取了存储模型的设备也可以说你是在破解他人在终端设备或者模型接口上实施的一些安全保护从而去获得了这个模型要不就是说你通过网络入侵的手段你获得了模型总之这些都是没有争议的所谓的偷窃模型的行为你不仅可能因为违反一些相关的协议而承担民事责任

同时呢还有可能因为你违反那个网络安全保护相关的法律法规需要承担行政和刑事责任这个是中美其实在这方面我觉得是没有什么差异的

然后再一个就是说套壳的行为是吧套壳我们大家也知道尤其是前期 AI 发展起来的时候国内还是比较多的也就是说你那个模型是合法获取的但是你既没有引入新的数据或者模型的架构你也没有在训练代码微调对齐或者推理生成上去引入任何的

实质性的修改你实际上就是把别人研发共享的模型说谎说成是自己研发的这个我觉得整体上也是没有争议它属于一种偷窃的行为并且很可能会构成知识产权法上所谓的对这个助纣权的版权的侵害包括一些这个欺诈违反开源协议的这种行为

再就是说你虽然这个模型呢你是自己研发的但是呢你在一些关键的环节比如说在数据的配比架构设计或者其他一些这个非常对你这个模型的性能提升非常重要的优化的环节呢你用的一些参数是吧实际上不是你自己的你是不知道什么渠道从别人那拿来的那么也有可能会有这个侵害商业秘密的风险

但说模型蒸馏这个我理解是非常非常复杂的而且这个事情实际上之前呢大家在讨论这个 AR 相关知识产权版权问题的时候呢很少有人会提到这个蒸馏的问题所以说下一步呢肯定是这个 AR 知识产权法领域呢需要去研究的一个问题那我的理解是说

目前的情况是这样的增留不是说当然的去它是违法的或者违法了那个协议的很多的应用场景就像那个张涛老师和米豪老师提到的其实都有这个合法增留的这个需要包括一些行业里边大家都在做的一些事情

那么什么情况下的你去针溜他人的模型属于说的窃取我理解这个要求应该是非常严格的而且应该是有非常明确的双方之间的这种使用协议或者其他类型的合同的规定并且它一般情况下来说呢

我觉得不应当是构成知识产权法上的一个侵权行为而更多的可能会构成一些违法合同法导致违约责任的这个行为但是目前我们看从美国方向来说实际上把这个事情呢就简单的有很多人简单定性为一个偷窃的模型所以我理解很多这个时候他其实已经不再仅仅是从这个法律上去说这个事情像

像 David Sachs 我理解就是说他作为这个特朗普任命的 AR 沙皇未来在 AR 监管方面包括对于 AR 竞争这块应该是有比较大的话语权的我就注意到呢他已经连续三次提到了这个模型征流他认为是侵犯知识产权的行为我认为

我认为这是一个非常值得引起大家警惕的信号蔚来根据他的说法他理解美国的 OpenAI 这些币源的模型企业会采取更多的措施来防止中国企业去增留它的模型至于说他怎么去防止怎么做到这个技术上我其实我不是特别懂我不知道他是不是真正能够做到但实际上我理解他是有这个意识

还有人在讨论呢未来美国是不是会出台相关的这个领域的监管的法规比如说要求托管 B&M 模型的这些美国的云服商履行一种所谓的像我们银行业反洗钱的这种了解你的客户的禁制调查规则 Know your customers 就是必须去监测中国企业去征留美国模型的这种行为然后采取相应的这个报告或者预防的措施但是 again 就是在技术上

他到底能不能做到这个我觉得要打一个问号能不能做到这一点上涛哥有补充吗有没有这方面的研究啊你是说就是他有没有什么方法来防止我们吗对对对是的我觉得这个很难说实话如果是只是大家现在在讨论的那个针流层面因为只要你的模型是一个开放出来让大家用的那么你就避免不了这件事情

同意同意同意我其实就这个争流包括美国那边认为我们所谓的叫偷窃他们技术的这个问题我有一点自己的小小的看法就是我认为他们这件事情上真是非常非常的商标你 OpenAI 你其他 GTT 当年训练的时候

八遍全网的数据包括其实很多人可能关注爱的人之前也有记得一个事情就是他们当年的那个 CTO 在有一次主流媒体的采访的时候有人问到说他们是不是有去在未经授权的情况下去下载 YouTube 的视频来进行训练他也是装

在这件事情上,包括我觉得 AI 的这一波的大语言模型的发展上,其实大家也都知道,我们都一直在说,其实数据一直都是我们的瓶颈,全网的数据已经都耗光了,所以大家这种互联网的数据一直以来,说实话就是吃短一点讲,就是被侵犯的,那其中的最大的犯罪者,我觉得就是 OpenAI,就是 XGBT,但他们反而是被侵犯的,

反而来在这一件事情上来指责我们就一个行业通行的征流的技术来指责我们我觉得他们在这件事情上真是非常非常的双标不知道周老师怎么看对 我也就是这个事呢其实它是一个不同的问题就是你刚才说的

他使用这个训练数据包括这个很多的训练数据实际上是一些本身有版权的这个文本图像他没有在获得版权人许可的情况之下去使用这些数据进行的模型训练这个现在实际上是关于大模型领域知识产权争端的一些主要的问题

比如说训练数据的爬取是不是构成侵犯版权 AR 生成内容的版权归属 APR 滥用是不是违反服务条款等等这些实际上中国和美国法院的司法实践当中都有一些比较有名的案例

但是这个跟美国人他说的这个模型增留知识增留的问题它实际上是不同的问题因为你前面说的那些实际上涉及到他在获取训练数据过程当中一些侵犯知识产权的行为等于说是输入端的从输入端他认为的一种侵权行为那么这个模型增留实际上我理解的它实际上是使用了美国的前沿模型它输出的一些数据所以

所以这其实是不同的问题美国人之所以这么敏感呢他就认为说吧虽然是这个大家都在其实都在搞知识蒸馏就你说的 OpenAI AnthropicGoogle 他们这些其实都在做这种事情但是他们可能觉得呢因为你是在蒸馏我的模型而我的这个模型呢我现在把它迅出来呢实际上前面呢我承担了大量的这个

包括训练在内的全部的成本你这个征留我的模型实际上是某种程度上去搭了我的便车我觉得是不公平的就是说它有一种所谓的不公平的这种 sense 但是这个到底是不是一种违反知识产权法的行为这个在法律上它是两回事林浩老师在这方面有补充吗

我基本没什么补充因为这个话题从蒸馏到什么是蒸馏到大模型行业大家常见的对数据获取跟数据操作的处理再到中美两国之间对于数据的敏感跟安全的考量命题一步一步被放大到不可解释

对吧就是最可解释的是最前面的那些问题但是到后面很多问题其实就没办法解释了都不是技术问题了对吧所以能发展到这个样子必然是后面那些最大的命题导致的那既然已经不可解释你就让它存在着吧包括其实对

最近在 Deep Seek 的爆火这件事情上他们也面临到欧洲欧盟那边的意大利 爱尔兰 法国 比利时这些国家的一些监管的挑战包括在美国这边刚刚我们提及的一些挑战我觉得这个议题上本质上它其实涉及到的一个问题并不是仅仅属于 Deep Seek 这次的一个问题我觉得它实际面临的一个问题是在一个有着很大潜力的

技术发展与我们既有的一些规则体系之间的矛盾包括其实我们前面也有提到说 AI 的发展这一波对本来对知识产权就是一个极大的挑战前面也说了他们可能拔了全网的数据来进行各种各样的训练等等这本质上就是一个核心的

其实我觉得各国包括各个产业界各方面其实都还在这方面去进行一些探索和摸索其实都没有去定论我觉得这个问题甚至可以聚焦到今天这个时间点欧盟美国包括我看上午澳大利亚他们的集中点如果详细来看是集中在这个 APP 本身的

问题上,可能更多是关注数据安全的隐私,那确实实话实说,DeepSick 这家公司在产品端运营端,包括安全端的投入肯定是不如国内那些大厂的,他们在这些事上的经验应该也没有很丰富,所以一定是有一些双引号的瑕疵的。

但是这件问题我觉得他们怎么讲很双标的问题是在于第一 DeepSig 是一个创业公司它可能整个成立就是一年多的时间那对于一个创业公司来讲它本身的任务就是去开发最有创新性的技术而这就是它目前所做到的事情但是所有人却在指责它在监管合规上面的一些没有做好的地方但明明这方面根本就不是人家的主要任务甚至都排不上次要任务这一点而

与此同时其实全世界有各种各样的网站也好供应商也好其实都在这方面有着巨大的问题但是他们就偏偏枪打出头鸟要挑 DeepSick 来讲这个问题对所以我觉得引发的新闻就是我们把这个话题延展就无限的开脑洞第一就这个事情可能跟 TikTok 事件又有些关系类似的对吧

那 APP 层面的无论是推荐算法隐私数据然后再一个你看这两天 Sam 在亚洲他先去日本去跟软银成立了合资公司相当于在日本软银来负责 OpenAI 的落地那当然软银会付给 OpenAI 很多的钱那这个双引号的落地在解决的问题你可以理解就是刚才我们说的这些问题那他去完日本 Sam 马上去了韩国

OpenAI 跟卡靠就是韩国的微信成立合资公司卡靠负责 OpenAI 在韩国的落地这个落地又是刚才我们讲的问题那这个又想到比如说类似我们云上贵州对吧就是你会发现在今天这个世界的地缘政治环境下任何一个

高科技相关的头部的应用跟服务跟技术在当地落地都不是一件简单的事情都非常的复杂就是刚刚张老师提到的这一点上我其实特别想聊的一个问题也是可能张鹏老师主要的一个研究方向尤其是中美之间的这种地缘政治科技方面的一个竞争然后包括其实之前我觉得您可以就是把

好多个议题带到一起来跟我们分享一下尤其之前的那个美国对外投资禁令然后这个数据脱钩的法案还有现在正在讲的这个中美的人工智能脱钩法案等等的这些东西那我觉得它是可以去印证一个话题就是庄老师刚刚讲到的这种地缘政治上的问题然后这个也可以依靠到您之前写的那篇特朗普 20 年时代的中美科技战争这一方面的那这个也想请你们跟我们分享一下

对这个当然是一个比较大的一个一个问题就是毫无疑问的就是 AI 这个领域现在肯定是中美地缘政治竞争中美科技竞争一个核心的议题我们其实看到那个嗯拜登政府时期呢其实呃对华科技竞争主要是围绕 AI 的是吧呃

它实际上是从几个角度去对中国进行的限制首先是算力方面严格控制高端 GPU 包括能够生产制造高端 GPU 的这种半导体制造设备的包括它的上游的零部件原材料的这种出国管制这个是非常严格的实际上是贯穿它整个四年任期的一条主线我们国内对此进行大量的研究

然后再从数据方面其实在他任期的末尾也出台了切断美国人敏感数据跨境向中国流动的一些法规虽然他有意的实际上为了照顾美国公司的商业利益他对敏感数据的去做了一个定义就是还是希望能够线索在特定领域的数据但是实践中操作起来的话仍然会感觉到非常的宽泛

这个由斯瓦布发布的联邦法规应该下个月就会生效我理解呢这对中美双边的数据跨境流动实际上会产生比较大的这个限制的作用那么此外呢在这个人物智能发展高度依赖的另外一些其他的要素比如说资本人才方面它也有相应的这个限制措施资本方面呢就是那个刚才 Lily 提的比较多的这个

反向投资审查它实际上是框定了三个领域先进半导体量子计算和这个先进 AI 三个领域去限制美国资本支持中国这个这些产业的发展在 AI 方面呢它

整体上也是设定了一些这个标准和参数吧核心的理念就是说美国的钱不能用来支持和帮助中国去发展能够跟美国 AI 公司去竞争的这种前沿大模型

反向投资审查的这个规则是已经生效了当然川普时期呢理论上来说他仍然是有足够的工具去修改甚至是彻底推翻这个法规的但是主要的问题就是说他这么做的理由是什么我理解实际上跟他在美国内部的一些政策辩论包括中美下一阶段围绕贸易问题川普最关心的问题关税的问题嗯

整个的中美双边关系中的其他的敏感问题这个应该是放在一个大盘子里去进行谈判和沟通的所以未来的发展呢其实还是很难说但是这个法规是已经生效了此外在人才方面呢我理解川普政府呢有可能会出台相应的一些限制措施可能会主要的对标这个首先是中国企业在美国的公司去招聘当地的人才

然后包括这个持有中国护照的中国工程师在美国参与相关的这个 AR 模型的研发活动等等我们也得到过一些消息吧就是说其实这个本届政府是在从这个签证政策和移民政策的考虑去研究出台一些对中国的限制的措施核心就是说美国的 AR 人才不能去支持中国的这个

前沿 AR 产业的发展那么它整个的背后大的战略逻辑我理解就是因为首先它美国政府呢把这个 AR 模型尤其是谁能够先实现所谓的通用人工智能它作为一个影响到中美双边战略稳定的类似于核武器的这么一个东西它要确保美国首先实现这个 AGR

至少不能让中国先实现所以他实际上采取了两步走吧就是一个是我自己拼命的去发展是吧我通过资金的扶持产业的补贴我自己去发展包括前面有嘉宾提到的星际之门的这个计划这个实际上都是怎么让自己跑得更快的一种路径

然后另外一个就是拜登政府实期实施的我怎么来尽量的拖慢中国 AI 发展的步伐确保中国要始终比美国要落下一级至少不能先实现 AGR 那么其实为什么 DeepThink 这个事出来之后对美国政府的冲击会这么大我理解也是他们有非常大的紧迫感就觉得前期的一些限制措施

让美国公司跑得更快的一些措施似乎没有起到应有的效果中国模型公司还是很快的去追赶上来并且甚至有一定前途的可能去超越美国公司所以我理解他们内部现在也是有点慌的肯定是在通盘的研判和考虑怎么去在本届政府继续限制中国的 AI 公司的发展怎么让美国公司的竞争力变得更强

因为前期这个他任期头三个月头一百天呢是非常关键的是他整个的这个对华 AI 竞争政策顶层设计的一个过程所以目前我们没有看到太多的公开的信息但毫无疑问呢像美国商务部国务院财政部

包括白宫国安会这些部门肯定是在密集的去研究准备向川普去提交一个报告里边包含下一步要实施的对华的具体的限制政策我觉得

我觉得这三个月中间他的政治讨论的过程还是非常值得关注的同时呢我理解 Deep SIG 这个事呢对美国对华 AR 竞争这块整体是一个负面的我是说对美国的对华 AR 政府来说它整体是一个负面就是它突然

更前所未有的感觉到了中国扑面而来的在人工智能领域对美国形成的竞争压力同而也可能会促使它出台更多的一些激烈的过度的回应和反制的措施比如说我们前段时间谈到美国国会参院的情报委员会主席 Josh Hawley 他提出的中美人工智能能力脱钩法案

这个方案是非常极端的基本上要实现中美在人工智能技术和知识产权人工智能研发包括人工智能领域的资本流动三个方面的完全的脱钩这也代表了某种程度上代表了美国国内对这个事的一些情绪和反应吧

就是对于这些做出海的优势可能是以北美市场为目标的这些中国的创业企业来讲你刚刚提到的这个数据脱钩的法案包括一些人才流动方面的包括整个特朗普 2.0 时代他们的一个政策的倾向这些东西肯定对他们的影响会非常非常大我理解对吧

对对对是这肯定是影响非常大的实际上一直以来我觉得对中国的还不是说 AI 企业整个科技企业在美国的出海应该说全球范围内压力是最大的因为从欧洲方向我们其实也看到一些不利的动作但是我理解欧盟

它对中国这个科技企业比如说前段时间实际上是对社交媒体平台的这种监管它本质上还是怎么说呢就事论事是吧关注具体的这个数据内容方面的合规问题

还没有整体上把它上升到国家安全包括对中国的这个科技竞争的这么一个高度所以说整个的来说我在欧洲的感觉是整体上还是一个比较偏向理性和客观的一个态度吧它的强监管呢也有一些自己的这个竞争性的考虑包括很多人说实际上像 GDPR 啊包括那个数字市场法数字服务法这些法案实际上是一种变相的监管税它通过这种监管税

高额的合规要求包括天价的一些这个罚单实际上变相的达到了这个收钱和收税的这么一个目的川普我记得在那个达沃斯论坛期间他发表了一个视频讲话也是非常直白的批评了这个欧盟的这种做法说你这个这种强奸管实际上是在变相的收税那从美国的角度来说就是完全不同的情况

美国是认为呢中国的这个在美国发展的科技企业呢整体上构成了对美国的一种国家安全威胁所以呢我理解是实际上从川普第一任期开始就在有意识的推动这个领域的这个脱钩

比如说首先是从社交媒体领域的 APP 我们看到它其实相关的国内的监管的法规是在不断完善的在信息通信技术和服务领域它有商务部的一套规则在财政部这个方向也有关于投资和资本流动的一些限制规则再就是说在司法部司法部作为现在美国政府可以说在国家安全领域的一个主要的负责部门之一吧

实际上这几年的动作是非常频繁那么比较具有标志性影响力非常大的一个动作就是说在双向的数据流动这个领域实际上是它通过卡住这个中美双向的这个数据流动变相的希望去实现把中国的 APP 中国的这个科技公司排除出美国市场的这么一个效果

我理解现在实际上是从硬件开始最后慢慢蔓延到软件应用程序那么现在毫无疑问 AI 的应用比如说像现在在美国商店商家的 DeepSeek 这些 AI 的应用未来会成为一个重点的打击的目标它可能会出台单独的针对 AI 的监管法规因为我们理解其实从大模型从 AI 的角度来说

如果说讨论国家安全风险的时候美国很多人国会议员也好政府的官员也好他会认为比社交媒体要带来的风险要更大一些而且是更加底层的深层的涉及到中美在人工智能领域的竞争这个主线

好的好的好的谢谢张鹏老师非常全面的解释张老师和涛哥我特别想问一下听了刚刚这个张鹏老师说的这一段我不知道你们两位的感想如何有没有一种焦虑

还行吧还行吧对于做应用方向来说比如说我们也不是去模型嘛然后本来那个莫里卡我们整个的这个面向也是面向全球市场绝大部分的模型调用都还是 OpenAI 和 Cloud 这边的所以我觉得整体对我们影响没有那么大对当然如果你说最终那个对立程度到了那种程度之后那再跟你说但

就是创业这个事情永远都是你要去解决那种不确定性嘛然后有什么问题解决什么问题你现在焦虑也没用还得看那个最后到底动作是什么庄老师怎么看这个命题对吧连接我们之前讨论的很多次的命题放弃幻想嘛对吧冰来酱糖水来土烟嘛创业不就是这样吗对吧就是我们能改变的是我们可以改但我们改变不了那就是环境啊对吧环境呢就是适者生存嘛对吧

我觉得这里面有一个最大的问题以及最大的不确定性其实我最担心的是什么呢就是有点像 TikTok 这个事情上就是如果说你像欧盟那样的你只是说出台一些法规要求那没有问题我可以去做出努力来满足

足你的要求包括我们可以看到 OpenAI 在欧盟其实也是这样的做法因为他们前段时间也被意大利罚了 1500 万美元然后他后续就采取了一些措施去做这样的一些符合欧盟监管规定的一些动作但是我最害怕的是像 TikTok 这样的情况就是它其实就是想搞你

你做再多的合规动作可能都是没有用的因为我们其实也知道 TikTok 在这几年跟美国政府的这个长期的交战当中已经做了非常非常多的合规化的措施他们的那个合规监管的程度我所知道的就是他们在这方面的不管是人力上的成本经济上的以及经济上的成本都是巨大的但是他们现在仍然去面临着这样的问题所以我最担心的反而是这个就是他是不是在某种程度上说明了

即使你尽做了努力但是我最后还是面临的是一个不好的结果这可能是我最担心的问题

略微有点悲观了我们可能就先放在这里我们这个且走且看吧然后我们进入到节目的最后一盘就是我其实特别想跟你们讨论一下就是在狂欢之后我们特别想来看一下 DeepSick R1 的出现给我们的行业带来的一些深远的影响那第一个部分我其实特别想讨论的是这次的 DeepSick R1 的出现对于

尤其是国内的这些大模型公司的一些影响可能大家有可能都在说的这些大模型公司的护城河到底在哪里因为就像我前面也有提到豆包其实可能是做了一年多的投放才投出来 2000 万的日活而另外的一个当红炸鸡 Kimi 其实从来都没有到达过 1000 万的日活但是 DeepSick R1 可以说是在十几天的时间内就已经超过了这个程度的日活了

那所以很多人就认为其实大模型公司的护城河到底在哪里这个事情是很难去判断的那不知道张老师在这个问题上怎么看我觉得就是他其实验证了一个字节在去年年底的结论就是 Chatbot 这个产品形态本身并不是一个

特别理想的形态它可能是一个中间态或者是一个在现阶段各方都能接受的一个 OK 的自由键战略重心不应该放在这个形态的产品上这是字节在去年年底

内部的一次类似战略探讨上得出的结论我觉得这个结论本身其实跟我们今天看到这个结果是匹配的就是字节也好 Kimi 也好其他几家也好货多少砸了那么多钱砸出来的这个数据本身其实并不代表任何事情

今天我看那个 AI 产品的新榜又发了一月份的数据大家的留存时长还不是特别理想依然不是特别理想所以这个形态本身可能确实就不太适合用这样的方式去做衡量那反过来讲 DeepSick 从来也没有想过是说我要做多大的 DAU 跟 MU 我觉得他们内部是没有这个 KPI 的

就是又回到我们原来去年录那些播客就是我们原来那些熟悉的云互联网的所谓的 KPI 跟叙事结构可能真的不太适合 AI 这一波的叙事了超哥怎么看你作为一线的这个同学者你可能也接触到更多的用户的这个信息和他们的需求你怎么看这个问题其实春节期间的时候美国那边的舆论已经发生了很大的变化就是我不知道莉莉有没有注意到有人开始说

也许到了最后我们发现最大的护城河不是模型是套壳对其实一个很重要的原因就是因为之前虽然开源也一直都有在往前面涨进我们国内也有很多然后美国也有不同的这种开源模型的方向但不得不说不管你各种 benchmark 刷的飞起

但是在用户的实际体感上相比 Cloud 相比 GPT-4 是比较明显的差距你可以理解成说这是开源世界不叫超越叫第一次真的赶上了这个币源模型的这样子的那么在这样子的情况下的话其实对于应用这边来说有

无限的想象力就包括说那个像 OpenAI 前两天刚刚发布了那个 OpenAI 自己的这个 deep research 这样子的一个一个产品那很快大家就用那个 R1 加上一些开源的 agent framework 就复制了一个一个 deep research 出来

对那么这种东西你在之前是无法想象的就你之前做这种功能你一定要依赖 OpenAI 自己的这个最新的模型那有很多功能它如果不开放 API 出来你都没法做那现在很多事情变成了可能性那我自己会认为说这个事情在中期的影响就是说在今年一年的这个之类的影响其实会非常大就是会有很多新的应用场景诞生出来

那像那个前两天我们在另外一个交流的时候我有提到过我说就包括像我们今天这个分享开始我提到的我说这次 DeepSync 之所以能火出圈有一个很大的原因是 R1 加 Search 它其实本质上是构造了一种新的应用场景那 R1 并不是只能加 Search 它还可以加很多东西

那据我了解的话现在不管是在美国还是在国内这种 R1 加另外一个一个东西比如说就是我 R1 加 reg 这个 reg 可以是 search 可以是那个 document 可以是很多很多东西它都能实现不同的场景所以我觉得今年在这个事情上的应用还会再爆发一波我是比较乐观的

明白 可不可以浅浅的对这一次 DeepStick R1 的这个爆火对于国内的 AI60 小龙尤其是其中可能比较知名的几家的影响对于他们来说整体是一个利好还是一个费面的信息我们可能稍微做一些分析庄老师来做这个分析可以吗那个涛哥毕竟从业人士可能不好讲啊

我觉得从大面上来讲对于所谓的绿小龙而言其实也分有几家其实在之前已经做过选择的就还好就是直接点名比如说对于 01 跟百川而言就还好因为他们之前已经做了选择 01 把 infra 跟训练的团队跟阿里去走了然后自己专心做方案的实施做一家 2B 的技术方案商

然后百川去做医疗方向的探索那这俩所谓的大明星厂商在这件事情上的我觉得影响是有限的对于剩下的四家当中我觉得质朴的影响稍微可能是最小的就是说因为质朴其实在 OPI 之前或者说跟 OPI 差不多时间就有自己内部对于技术路线的比较明确的实施的节奏

接月呢我觉得可能接月对大家对接月的手续程度没有那么深接月成立时间也比较短在这件事情上我不太好评价 Kimi 跟 mini max 是值得多聊两嘴的在 DeepSync 刚刚发完 23 的时候 Kimi 也发了一个类似的推理模型其实效果也很好也保留了整个推理的这个过程你在 Kimi 现在的产品里面是可以直接体验到的

你说存存体验端有那么大的差距吗我觉得是没有但是问题在于 Kimi 现在是避远的它是一个商业化的产品它没有开源 Kimi 的考验就变成了如果继续坚持技术的这条路线往下走的话是否要跟进比如说跟进开源还是跟进什么其他的事情同时商业化那条路到底怎么办

同样的问题也交给了 minimax 但 minimax 很巧的是他的 CEO 在这段时间不是接受了晚点一个采访吗明天感觉 minimax 已经内部有了一个比较明确的结论是说还是继续要往技术这条线去走那如果去走的话同样的问题就像那次采访闫玉洁说了一句话是说他应该最早在 minimax 最起初就应该开源他也是看到 deep seek 的这一轮的成功所以那对于这两家公司而言

过去两年的很多的战略的实施本账来讲是浪费了时间跟浪费了钱浪费了人那未来的一段时间竞争会更加加剧如果任准的依然要往技术那个高峰去走的话怎么去跟 DeepSick 以及阿里的同意之间做竞争怎么去衡量开源闭源商业化这些事情变成了一个非常非常重要的事情所以对于这两家公司的 CEO 而言挑战会非常大

这里我想问一个特别小白的问题就是我其实没有特别的理解说做开源的话那他们的商业化怎么办那他们又怎么去获得这个利益呢尤其这几天因为我看到 DeepSeek 他们官方

其实很多时候都是在当机都是服务繁忙但是像这个微软 AWS 各个平台还有国内的各个云服务商其实都自己上线了托管在他们自己服务器上的 DeepSync 的模型那我一直没有搞明白的是像 DeepSync 他们这样的一个完全公开的开源的包括他们的一些技术细节还有他们的模型的参数等等这些东西完全去公开出去之后

然后怎么去盈利呢包括你刚刚提到的像比如说 Kimi 啊 Minimax 啊这些其实已经是一些在这个大模型的竞技场上已经是存活了一段时间也做了一些商业化尝试的一些这些公司他们如果再去转向开源的话那他们又如何去做这种商业化呢我其实没有太理解这里面的问题所以说这件事情又回报了所有讨论 DeepSick 最原始的这个起初的一个节点 DeepSick 没有外部的投资人

DeepSeek 的母公司换方有绝对强的资金实力支持这个类似科研的机构继续往下走他甚至在这点上比 OpenAI 还要强 OpenAI 已经拿了融资并且绑定了那么多商业的关系他一定要考虑商业化的问题但 DeepSeek 可以任性的在可见的我觉得至少两三年内不用太考虑商业化的问题

明白那这个涛哥我其实也想听听你的观点我不知道你了解开源生态的这个问题就是他们这种东西是怎么去赚钱的呢他到底能从比如说他如果是完全开源的话他到底能从中获得什么样的利益呢

这个可能就分啊因为开源其实也分很多协议比如说像那个在大木屏这边的话比方有一些开源模式这个样子就它本身开源然后呢那个权重开放出来你自己有机器你可以去雇你去跑我也不管你但是呢如果你是这个商业化的使用的话

那么你就必须要找我来买 license 这个典型的比如说像那个 step diffusion 是吧对那样子一些模型包括那个千问它全系列模型虽然大部分是那个 MIT 的但是也有一部分的是他们千问专有的一个 license 那个是商用的话是需要授权的

但是这个东西在 deep think 这个上面它不太适合因为 deep think 它本身是一个完全 MIT 的协议所以说理论上来说比如说规矩流动如果他要去部署然后买钱的话这个也没有什么所以说你如果让我想说这个长期怎么赚钱我说实话我是意思办法我是真想不明白但是作为就是在行业里面就是实际上创业我们做事情的时候我一直有一个观点就是

你只要一直在创造价值你在做出真的有价值的工作这个价值最终它一定会以某种形式进行一个变现但这个变现打引号的变现它可能有很多种方式我讲一个最具有能力的方式大家比方说 DeepSeek 是国内我们第一个真的把 AGI 给实现了

这个 AGI 可以帮助我们国家的科研可以帮助我们国家的治理各种各样的东西那你想就这个组织它的这个它的这个杂质变现的方式可能不一定非是货币化的形式它可能有有很多种方式所以我觉得这个取决于这个创始人他本身的初心和他的这个组织结构到底什么样子的所以这个点我很想 echo 一下刚刚那个明浩老师提到的我觉得目前全世界范围之内比较神奇的感觉最适合做这个事情的反倒是在我们中国的这个团队呵呵

我觉得在这一次的事情当中我自己一个比较明显的感受也是我觉得技术才是第一生产力像 DeepSig 这样的在技术上在某种程度上可以比肩行业第一的模型的能力的这样的产品出来之后就迅速的造成了一个全球的蜂蜜那与此相比较的不管是豆包也好还是 Kimi 也好还是其他的一些产品也好他们其实在花费了那么多的资金和投放的成本

之后都仍然没有取得这样的成绩那我觉得它由此带来的一个问题就是其实也是庄老师刚刚提到的一个就是你怎么去问你现在的投资人交代第二就是你如何说服你的投资人你还能

继续在这方面去投入因为觉得一个比较显而易见的状况就是如果你没有做到非常头部的水准的话看起来你的用户更换你的这个产品就是没有替换成本的那你的用户就是会在一夜之间去跑光的我觉得这个可能是现在仍然在坚持做大模型的公司可能需要去面对的一个问题我觉得用一句站着说话不腰疼的这个评论是说就对于大模型的投资

本来就是一个高风险的投资选择就是你要玩这场赌局就要承担这个风险只不过今天这个时间点这个牌桌上出现了一个异类这个异类的打法策略他的出身他看中什么他拥有什么跟这个牌桌上的其他选手完全不同

并且在这个时间点来看他可能是那个最适合做这件事情的技术向投入的人就这个结论在这个时间点出现对于所有其他的参与这场排桌的选手而言是一个最大的挑战就是你的策略要不要改要不要跟还是说调整还是说继续坚持你的策略因为即便是我们看上去这个时间点评判他可能是最适合但是最后是不是他也无人知道

明白最后我其实特别想 echo 一下你这个也想 echo 一下我们前面几期的节目也是我觉得在这一件事情上特别有意思的一件事情就是在去年三四月份的时候当时其实有爆发过一个业内的一个冲突就是当时朱孝虎说他这些大模型公司一个都看不上一个都不投他要去投真正有商业化能力的公司那当时大家对对

朱孝福的观点还是一种质疑大多数人都对他都是质疑但是在这个今年一月份左右这个时间内包括像 01 的这个的变化还有 Kimi 还有很多包括 Minimax 他们也提到了这些商用化的问题其实还有这个豆包通过投放拿到了一个特别高的其他产品都没有拿到的一个日活这种成绩的情况下

就有更多的人就要开始从根本上接受了朱孝虎的观点认为朱孝虎这是某种程度上朱孝虎的胜利但是在这一次其实也就是隔了不到一个月的时间 DeepSick 阿姨的出现之后我看到有人说是朱孝虎自己发的一个朋友圈说这是技术理想主义者的胜利我感觉这个口碑完成了三重反转我觉得这件事情真的是特别有意思

我还想问一问就是你们两位在 DeepSeek R1 的出现可能带来的其他一些应用以及这个行业本身的发展方面有没有一些其他的补充

应用方面的话其实我觉得就像我刚刚说的我觉得 resonate model 对于绝大部分的用户和从业者来说其实都是一个新东西啊虽然说欧万那个也已经出来了两个多月了但是我相信还有很多打扮是从业者也没有真的很深度的去用过这个就是欧系列的那个所有的模型所以说在应用角度上怎么去驾驭这个 resonate model 跟那个找到更适合他的这个应用场景上我觉得大家现在并没有一些 best practice

那么在用户的角度上来说比如说怎么去 prompt 这个 reasoning model 现在大家也还在探索的过程中这个非常像那个 20 底 ChaiGPT 刚出来头那三个月大家各种特别有热情的去探索它包括现在在 R1 上我也看到很多有意思的探索包括把 R1 跟 CloudR1 跟那个 GPT 结合起来使用的一些各种各样的一些 case 包括把 R1 跟一些工具吧跟 cursor 直接结合起来

所以我自己会觉得现在去说未来还有一点太早了可能还需要给用户给那个从业者们一些一个季度这个探索的这个过程吧我对这个未来是非常感到这个乐观的尤其是 R1 这次提出来的这个 R2 这个思路它其实只是打了个样就是说这个方向是可做的那如果我们回过头去看就是每一次在这种方向

范式上的这种创新它出来之后那么接下去大家会接着这个范式去卷出各种各样的花样出来那也就是说其实整个 Resonate Model 它的整个包括这种训练方法对于 Base Model 的这个能力提升还远远没有到这个顶呢

我觉得接下来半年可能大家在这个方面卷出来的很多的一些新的能力也会打破之前的一些限制那么在应用上也会开阔出更多的一些可能性所以我们肯定是保持着一种积极乐观然后那个时时刻刻去看到底有什么新的能力有什么新的应用场景可以解锁这样子的心态来面对

我会觉得第一个让我感触就是我们最开头说的就是它对这一波的 infra 的厂商的促进是一个会影响很长时间的过程的事情这个影响在今天我们还没有看到或者它需要很长时间去发酵第二点就是其实 OpenAI 发布了一个它认为从零开始到 AGI 的所谓的 L1 到 L5 的这个类似自动驾驶的这个步骤

那他会认为 I O E 就是我们看到的像 GPT 这样的 chatbot

L2 就是推理模型他认为他的 O1 以及今天我们看到的 L1 就是达到了推理他认定义的 L3 就是 agent 他会觉得今天这个时间点的业界的领先的公司在从 L2 到 L3 的过程中所以反而讲这个技术路线的实施也符合如果他定义好的这个 L5 的这个节奏是对的话那今天 L1 的出现其实也符合这个路径那 L3 是 agent

那为什么这么多人认为 25 年会是 A 阵的年也是这个逻辑就是说当大母星本身解决了初始的问答开始有了自己的推理能力之后他要做的事情是真正的去解决那些任务

那包括 OpenAI 自己也发了他的那个 agent 的东西只不过今天这个时间我们看到这些东西还处于一个比较早期的状态在 20 多年我们当然希望看到更多真正以上双引号的 agent 会落地到企业个人开发者的整个生态当中当然以上的这段话可能有一定的

自圆其说或者自欺欺人但是如果在 25 年初这个时间点一定要对 25 年德亚行业有一定期待的话那大家的期待或者就是说既然推理模型的这个样子已经打好了那我们应该就往下走吧

明白我最后一个小的疑问就是在现在的这种尤其是 AI 的技术发展最明显的就是 DeepSick R1 的这一波里面我自己有一个比较明显的感受就是如果说是对于一些不是真正的大模型 AI 应用的所谓的原生应用的一些创业公司而是一些它可能是实力的

包括尤其是比如说我们律师行业或者是一些实体的企业这样子我的一个疑问其实是在于说我到底应该什么时候去投入才是一个可能比较好的时机为什么有这个问题呢因为我发现说其实你看最开始这个 CHI LGBT 模型出来的时候包括那个 LAMA 最开始开源的时候他们的成本然后包括模型的参数各方面其实都是非常非常高的

然后模型的能力其实相比于现在已经是有非常非常大的差距而这个时间其实不过也就是不到两年而已就这个技术还在一个超级快速发展的过程当中那我如果说作为一个实体的企业我应该什么时候去做这些方面的投入我觉得我可能有一个强烈的不确定性的问题在

就是有没有可能我如果现在就像当时说实话我们法律行业里面就有很多这样子的当时这个 CHIAC 这一波出来的时候各种各样的企业都说自己训了法律大模型怎么样但是我想这些模型距离现在 Depthic R1 现在一流的这个开阅模型的能力已经是有非常非常大的差距了从现在的角度来看他们那些投入可能很多都是

白白花掉的钱那所以我不知道在这方面你们是怎么看的那抛哥要不先说

我觉得就是不要去投做 pre-train 了 pre-train 这个已经不需要再讨论了 pre-train 就是长期来看它就是会变成一个 commodity 就是上游的一个商品然后你去买它就行了你就用各种 post-train 的这个后训练的这种 best practice 去做后训练就行甚至在绝大部分场景里面甚至连那个后训练都不需要做只需要解决好 reg 的问题我觉得可能就够了

那像他们去考虑做那种就是私有化部署啊等等这些呢私有化部署阿万也可以私有化部署啊他 MIT 协议反正你拿来商用了也是完全合规的那你也可以私有化部署啊对不对明白庄老师有什么补充吗

这个我们今年开年会的时候我们老大说了这样一个事情就是我们老大是一个参加了几乎所有市面上主流的比如说混沌啊什么蚂蚁啊什么青藤的这些商学院的这个这个一位 CEO 然后他的这个同学们很多嘛各种各样都有然后大家讨论话题当然会涉及到 AI 然后很多人的这个尤其是偏传统一点的行业的 CEO 们会觉得

还看不清楚还想等一等还想让这个子弹飞一会儿再去介入 AI 的这个浪潮但是我们老大会说鉴于过去这两年整个 AI 行业的迅速的变化如果今天这个时间点还不肉身去深度参与这件事情的话就可能没有机会了所以他就是这样一个状态他就是需要

笃定的认可跟坚定的看好这个方向并且去实施去做该做的事情才有可能得到不错的正反馈好的好的好的我这边可能再是没有别的问题了看看两位还有没有什么补充你们可能看到的一些市面上比较多的一些谣言然后我们可能没有聊到的或者你们特别想发表的一些观点

就是那个在 DeepSick 被各种访问量冲击的不行的时候有一条谣言被很多人转发是那个什么中国的几大安全厂商给他提供了各种各样的帮助哈哈

这个事情完全就是一个我一直疼其实真的假的巨大的谣言完全完全是假的特别想笑不是你知道吗我第一次看到的时候是从一个什么小红书上一个号码它看起来反正不是官方的它看起来

他写了那么多什么 360 啊什么华为云啊还有腾讯啊什么这些企业我看我心想怎么可能就觉得有点离谱我又看到好像是小萌书上 DeepSeek 有点像不知道是不是他们的官方号反正名字就只有 DeepSeek 也发了一个这么的东西我就好像有一点点偏向于相信这个我今天开始之前我还在想说要不要问问你们这个问题呢结果它是完全不存在的是吗这个 Photolite 一点点都不存在

我搞过一段时间安全这件事情完全就是战狼跟小粉红们引发的一场符合情绪的谣言某种程度上是缓解了我们这些人用不上第一次这个一种焦虑情绪你知道吗因为我老师他那个服务不在线嘛就去小红书上去搜然后就搜到了这个东西我还感觉好像提供了一点合理的解释包括

看看有没有什么补充的吗我就想讲一个也是我最近这一周在很多群里面反复解释反复解释的一个也不要谣言吧就是一个伪概念就是在你的本地设备上运行 R1 对就大家如果你现在在那个小红书啊抖音

很多地方你都会刷到教你甚至还要收费教程教你怎么在你的设备上跑 R1 怎么在你的手机上跑 R1 如果你真的去看的时候你会发现其实他们跑的都是 R1 的蒸馏版 R1 蒸馏的千文的 32B 7B 甚至还有蒸馏的千文的 1.5B 首先要告诉大家它那个模型的完整命名叫做 DeepSeek R1 DeSteel 就蒸馏千文

Coin 是吧 32 币 7 币你要记得一个词组他分组语和定语

最后面的是主语他再怎么弄他也是一个千万他也是一个拉玛前面的定语是 DEEP 是一个 R1 去 distill 他去针流他就是把 R1 作为 teacher model 去教那个 steal model 那么首先你手机上跑的你电脑上跑的不是一个真正的 R1 他跑的是一个千万跑的是一个拉玛这个首先就是一个很不对的一个概念那其次呢就是如果你真的去看那个 R1 那个 paper 你会发现

之所以 DeepSick 这次放出模型的时候要顺便放出了几个蒸馏版本它主要是为了证明就是在他们那样子的这个训练方法下我对其他的模型这样子也是生效的但是如果你仔细去看它那个蒸馏过程它根本就没有用上 RL 就是强化学习它只是用 R1 深层的 SFT 的数据去对这个千问和拉姆模型进行了一下微调

也就是说如果你真的要体验 R1 那么 R1 我们前面有提到它离不开两个点一个是它的强大的机座模型 V3 其次是它的那个强化学习的训练过程那么大家现在在那些各种各样的教程里面运行的所谓的在你的设备上运行的这个 R1D steel 的千问或者是 Lama 那么

那么他们 base model 既不是 V3 他们也没有经过这个强化学习就他真的是一个伪的不能再伪的概念所以大家千万不要在这个上面去花钱了当然如果说你是一个从来没有在电脑上部署过大模型运行过的人接着这样子一个契机去学习一下我觉得是 OK 的但是千万不要预期这个东西跟那个全尺寸的满血版的 R1 能有同样的效果那就差十万八千里这是我最近一个星期反复批了的一个东西

好的好的好的那我们这期节目可能暂时就聊到这里再次感谢几位嘉宾我们反正也会继续关注 AI 领域的相关的发展吧期待后续再还能再请到两位来跟我们分享好感谢感谢好感谢丽丽老姐感谢跟郑老师交流拜拜拜拜拜拜