Elon Musk accuses OpenAI of anti-competitive behavior, including discouraging investment in competitors like XAI, misusing sensitive information, and engaging in self-dealing, which he claims are violations of antitrust rules.
Amazon's Nova family includes four text-generating models (Micro, Lite, Pro, Premiere) and multimodal models for image and video generation. These models are significantly cheaper than competitors like Claude and Anthropic, making them attractive for many use cases, especially for tasks that don't require top-tier performance.
Llama 3.3 is a 70 billion parameter model that performs on par with the larger 405 billion parameter Llama 3.1 model while being much smaller and cheaper. Meta achieved this through post-training techniques, showcasing significant progress in condensing model performance.
Adding ads to ChatGPT could help OpenAI monetize its large user base (300 million weekly active users) more effectively. However, it may also lead to concerns about censorship and prioritizing advertiser interests over user satisfaction, similar to criticisms faced by social media platforms.
Tenstorrent's main challenge is competing with NVIDIA, which has an annual release cadence for new GPUs. Tenstorrent is still on a two-year cadence, making it harder to keep up with NVIDIA's rapid innovation in the AI chip market.
Genie 2.0 is an AI model capable of generating interactive 3D worlds from a single image and text description. It differs from Genie 1, which generated 2D video game-like environments. Genie 2.0 can create consistent worlds with different perspectives and simulate interactions like bursting balloons or opening doors.
AI safety researchers like Rosie Campbell and Miles Brundage are leaving OpenAI due to concerns about the company's trajectory and focus on building AGI without sufficient emphasis on ensuring its safety and alignment with human values.
The Densing Law of LLMs introduces 'capacity density' as a metric to evaluate the quality of LLMs. It shows that open-source LLMs have been improving, with smaller models achieving better performance relative to their size, indicating progress in efficient model training and compression techniques.
The MONET model uses a mixture of monosemantic experts, where each expert corresponds to a specific concept (e.g., chemical compounds, programming languages). This approach improves interpretability by allowing researchers to identify and isolate specific concepts within the model, making it easier to understand how the model processes information.
China's export restrictions on critical minerals like gallium and germanium could impact U.S. semiconductor manufacturing, as these minerals are essential for components like power delivery systems and high-speed communication interfaces in AI chips. The U.S. is heavily dependent on Chinese supplies for these materials.
所以
您好,欢迎收听《人工智能的过去一周》播客,在这里您可以听到我们聊聊人工智能领域正在发生的事情。和往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻。和以往一样,您可以访问lastweekin.ai查看包含更多新闻的文本通讯,以及我们讨论过的所有新闻故事的链接,这些链接也都在节目说明中。我是
我是你们的其中一位主持人,Andrey Karenkov。我在研究生院学习人工智能,现在我在一家初创公司工作。我们再次请到了Jeremy作为我们的常驻联合主持人。我回来了。是的。事情远非一成不变。我一直在……
出差和各种事情。我也在搬家。所以我现在在我哥哥家。向他和他的妻子以及他们刚出生的女儿致敬……他们实际上现在和我刚出生的女儿一起在楼上,因为他们是冠军。总之,设置有点不同。我也没有我的麦克风。所以Andre将尝试在后端施展一些魔法,让我听起来像是有着浑厚的男中音。
嗯,是的,无论如何,我非常兴奋地深入探讨,因为本周非常疯狂。嗯,上周某个时候,呃,也许我能够谈谈我上周在做什么。嗯,那里可能也有一件公开的文物。无论如何,所以,这么多疯狂的事情,嗯,在那方面,以及在一般的人工智能世界中,就像,是的。
老兄,我不知道我们如何在两个小时内完成这个任务,但我们将尝试一下。我们将尝试一下。是的,我们将跳过我们对本期听众评论的通常回应,因为只是为了给你们一个快速的预览,工具和应用程序。
新的GPT订阅层级,来自亚马逊的新内容,应用程序业务,更多Elon Musk和OpenAI的戏剧,以及更多亚马逊和Fropic的新闻,项目和开源,Llama 3.3,以及一个开源O1,研究和进展。我们有来自DeepMind的Genie 2。我们有一些非常酷的新缩放定律。
然后是政策和安全,一如既往,关于中国和美国以及出口限制的更多发展。有很多内容需要处理,我们将尝试有效地完成它。但在我们进入新闻之前,还有一件事。我们需要感谢我们的赞助商,
其中一个像往常一样是The Generator,Babson学院专注于创业人工智能的跨学科人工智能实验室。Babson是美国30多年来排名第一的创业学校。去年秋天,来自大学各地的教授与学生合作启动了The Generator,这是一个拥有多个小组的实验室,人工智能创业和商业创新,人工智能伦理与社会,以及更多项目
这样的单元。他们正在进行同行培训,也许是在教师中。他们很快就会在大学范围内达到80%。是的,这是一个非常酷的倡议。他们正在开展许多旨在促进人工智能创业和创造力的倡议。
还有一个,然后我们将进入新闻。我们还得到了引人入胜的人工智能安全书籍《失控》的作者Darren McKee的支持。Max Tegmark说,《失控》是一本引人入胜、平衡且非常及时的关于我们时代最重要问题的书籍,那就是人工智能带来的危险。它探讨了不确定性、控制和风险的关键主题,向我们展示了有充分理由担心人工智能。
但这并不是一本悲观主义的书。它为人工智能安全以及我们可以做些什么提供了一个合理的理由,我认为这也是我们在本播客中喜欢做的事情。对于那些对人工智能安全感兴趣的人来说,它可能是一份不错的节日礼物。因此,您可以在亚马逊或Audible上搜索并查看它。
这就是赞助商的全部内容。让我们直接进入工具和应用程序。首先,我们有OpenAI确认了一个名为ChatGPT Pro的200美元月度订阅。
因此,这将主要包括高级O1推理模型。到目前为止,我们已经有了O1预览版和O1 Mini版,它们在使用方面都有一些限制。而且似乎OpenAI押注于完整的O1,根据WEM基准测试,它甚至比我们之前看到的任何O1都要好,
人们会为此支付相当大的一笔钱,每月200美元,是普通订阅的10倍,以获得访问权限。这仅仅是个开始。OpenAI确实表示,他们有类似于“圣诞节十二天”的订阅
类似的事情,还有更多功能公告。您可能在接下来的两集中会更多地谈论OpenAI。是的,所以围绕着一些重要的问题,顺便说一下,我认为他们称之为“圣诞节十二天”。它被称为
好吧,因为Sam Altman,不,我的意思是,这是一个有趣的问题,即具体会包含什么。他们说,O1推理模型将成为您在此获得的软件包的一部分。显然,O1,O1的完整版本,刚刚由OpenAI发布。显然不是。因此,O1的完整版本将以每月20美元的价格在chat GPT上提供。所以,您不必每月支付200美元才能访问完整的O1,但是
该模型在服务于您的查询时所使用和消耗的推理计算量将在每月200美元的层级上更高。声称您绝大多数用例不需要每月200美元的层级。大多数人会对每月20美元的层级感到满意。这就是说法。我认为这方面非常有趣,以及OpenAI O1模型卡,
已经发布。这是我在过去一天半里一直在解析的东西。这非常有趣。显然,你知道,这在某种程度上只是对一次预览的增量改进。关于这将有多大的影响有很多讨论?这将是,你知道,GPT-5类型的东西还是这些东西会如何发展?坦率地说,我的意思是,在
我认为我对完整的O1与一次预览相比有多么增量感到非常惊讶。它似乎并没有突破性进展。你看评估。实际上,它在像sweep bench verified这样的事情上并没有显著地改变局面。对。所以这是经典的软件工程能力基准测试。
我们并没有看到比一次预览有显著的改进。值得注意的是,OpenAI正在根据sweep bench verified基准测试绘制其相对于所有O1系列模型以及GPT 4的性能图表。他们没有在他们的论文中展示cloud 3.5 sonnet新的性能在同一个基准测试上。这是一个非常好非常好的基准测试。
顺便说一下,该性能为49%,对吧?所以cloud 3.5 sonnet明显优于所有O1,即使是完整版本的O1也只有40%,41%。呃,对我来说,这实际上非常令人惊讶。嗯,我认为这表明,正如一些人推测的那样,OpenAI可能遇到了一些麻烦,呃,与
后期训练,让事情发挥作用,以从柠檬中榨出更多汁液。但当然,该模型的总体能力令人印象深刻。有很多东西,非常有趣的东西,我认为我们可能下周应该讨论
仅仅是因为这里有很多故事,但关于自主性和某种程度上,你知道,就像某种自主性评估,这非常了不起,以及令人印象深刻的说服能力。所以我们可能会在下周讨论这个问题。我知道这不在官方的待办事项清单上。当我们四处走动时,我们试图决定要包含哪些故事。它没有成功。我们下周将报道它。但只是为了说明这一点,不清楚,你知道,完整的O1模型存在巨大的差异。
没错。是的,我们可能会回到对我们所获得的许多细节进行深入探讨。这更多的是工具方面。OpenAI确实突出了一些我认为看起来更好的基准测试。例如,在博士级科学问题GPQA Diamond上,O1的可靠性为67%,404。O1 Pro模式为74%。
所以差距并不大,但更好。01预览版在该方面的性能为58%。在竞赛代码方面,它也更好。但是,是的,特别是您获得了这个01 Pro模式,正如您所说,它与01相比分配了更多的推理时间计算。而01已经非常接近01 Pro了。
是的,这似乎是一个相当昂贵的订阅,我认为OpenAI并不期望很多人为此付费。好吧,谁知道呢?是的,我的感觉是他们一直以来的宣传方式是,您将获得下一代模型的早期访问权限。所以在这里想想GPT 4.5,据说很快就会推出,可能是在这“圣诞节十二天”成形的时候。
而且,你知道,另一部分也是,我们最近一直在谈论很多,但需要考虑的是,你要为特定用例使用哪些模型,对吧?O1模型不是你想要用来为你写诗的模型。而GPT-4.0不是你想要用来审查你的整个代码库并提出更改的模型。如果你考虑O1系列模型的训练方式,至少我们之前在播客上的推测是,它是专门针对
或在可以量化验证的任务上进行强化学习,对吧?所以你想想编码,想想数学,想想科学类型的问题,尤其是物理学。这意味着该模型非常擅长将推理时间计算用于此方向。
它不会在它能写出的最好的诗歌方面做得很好。把这个留给GPT-4.0。把这个留给,你知道,也许是Opus系列的模型。但是如果你正在寻找逻辑推理方面的东西,那就是quad 3.5 Sonnet U闪耀的地方。这就是OpenAI O1具有差异化优势的地方。无论如何,至少就目前而言,这就是我们所看到的景象。
接下来是下一个故事,对我来说更令人惊讶一些。亚马逊宣布了Nova,一个新的多模态人工智能模型系列。这是在他们的reInvent大会上宣布的各种事情之一。这可能是亮点之一。
他们有四个文本生成模型,Micro、Lite、Pro和Premiere,所有这些模型都具有与您在Cloud、Haiku、Sonnet和Opus中看到的类似功能。
这些模型的重点是,它们似乎并不像您所看到的那么强大,但它们现在可以使用,而且非常便宜。与例如Anthropic的Claude相比,它们便宜了大约一个数量级。
他们说,除了这些文本模型之外,他们还推出了用于图像生成的Nova Convice和用于视频生成的Nova Reel。我相信最大的模型Premiere尚未推出,但所有其他模型都可以使用了。他们还在未来承诺发布语音到语音模型和任意到任意模型。
并继续构建这个Nova系列产品线。是的,亚马逊在他们自己大型主要人工智能模型方面一直比较安静。这似乎是他们进入该领域的尝试。
是的,我们今天晚些时候将从数据中心足迹方面、人工智能硬件足迹方面谈论亚马逊。他们肯定试图弥补失去的时间。我的意思是,在整个生成式人工智能热潮中,他们在整个人工智能领域都显得迟缓。看,他们遵循了现在已经成为趋势的做法,即公司发布大约三个不同规模的模型,用于不同的用例。所以这很有意义。Nova Light,30万个令牌上下文,对于小型模型来说非常令人印象深刻。
显然,它也是多模态的,对吧?所以它可以在单个请求中查看图像、多个图像,最多30分钟的视频。这确实非常突出。它还支持文本和多模态微调。所以非常灵活,特别是对于小型模型而言。当您查看他们共享的基准测试中的性能时,这是一个差异化的……
相当不错的模型,对吧?就像,与Gemini 1.5 Flash(80亿参数模型)相比,它看起来更有优势。Llama 3.1,80亿。在各方面也优于它们,对吧?所以跨越,你知道,GSM 8K,那个著名的基本数学基准测试。VMAF基准测试,
基准测试以及Dan Hendricks数学基准测试。所以很多这些逻辑推理基准测试,以及语言理解,诸如此类的事情,比如MMLU。所以,非常强大的模型,特别是对于它的规模和灵活度而言。我希望它能获得,你知道,不错的采用率,看起来很有竞争力。我没有,
完全披露,显然,我还没有使用过它,所以我将保留我的判断。但就目前而言,至少从基准测试的角度来看,看起来非常强大。Nova Pro,一种中端模型,上下文窗口也有30万个令牌。在这里,他们更多地关注这种中端,基本上就像
在定价方面处于中间位置,在能力方面处于中间位置等等。他们说,它也可以用作教师模型,来提取亚马逊Nova Micro和Lite的自定义变体。这很有趣,因为它就是,你知道,
它将用于微调这些东西。这不一定是你想要为每个查询都使用完整的专业版模型,或者想要便宜的答案。这反映了亚马逊对这些东西产品化的承诺。也许不太关注真正的前沿能力,因为这个专业版模型,你知道,我说它是一种中端模型。这是因为它,
它并不完全具备我们所看到的真正前沿模型的相同功能。如果您查看各种评估、基准测试,即使是他们共享的基准测试,您也会发现Claude 3.5 Sonnet V2基本上在几乎所有基准测试中都击败了它。有一些指令遵循基准测试并非如此,但您必须非常挑剔才能找到它优于
GPT-4.0、Gemini 1.5 Pro和Claude的地方。所以,你知道,也许不是领先的模型,但亚马逊肯定开始展示它的实力,并说,嘿,我们将专注于产品化方面。而且,无论如何,我认为这很有趣,因为,
高端规模以及他们的Nova Premier模型,故事大致相同。所以我们将看看情况如何发展,但亚马逊肯定已经进入地图了。随着他们购买越来越多的计算能力,你知道,他们致力于扩展的想法。所以我们将看看结果如何。绝对的。我认为价格差异足够大,以至于他们将大放异彩,这是我的印象。你知道,即使它不是顶级模型,它们也足够有竞争力。对于许多任务而言,
实际上,领先的模型已经相当过剩了。所以是的,我们将非常有兴趣看看这将被采用多少。显然,对于AWS来说,让人们使用他们的Bedrock API非常有利,其中也包括许多其他模型,包括我认为的Anthropic。
关于这个画布和卷轴,只是快速说明一下。所以图像生成基本上是我们已经习惯的东西,老实说。我不确定我们是否能说得太多。视频生成更有趣一些。他们将其限制为6秒钟的视频,大约需要3分钟才能生成。
只是看看这篇文章,保真度非常高,看起来非常好,尽管显然这与Luma等更实时竞争对手相比相对较慢。但无论如何,这是他们的第一次尝试,所以结果也相当令人印象深刻,老实说。
他们还在做我们之前讨论过的有趣的事情,那就是提供赔偿政策。所以如果有人使用他们的模型并因版权问题而被起诉,他们就像微软一样,就像几乎所有人一样,尽管我不记得Anthropic的情况,他们会保护你,并说我们将承担法律费用。当然,Adobe也以这种方式闻名。所以这是另一个有趣的说明。
好了,这些都是一些重要的故事。我们将快速介绍几个较小的故事。首先,我们有11 Labs 推出 GenFM,将用户内容转换为 AI 驱动的播客。所以我们看到 Notebook LM 在几个月前变得非常流行,我认为现在不值得尝试。我的意思是,你不会,事情是这样的,你会错过两位联合主持人的无与伦比的有机内容
呃,呃,可爱之处。你知道我的意思吗?这只是,你不能。是的。无论如何,甚至,我会说,甚至不要尝试。是的。不要把我们所有的文章提要都输入到一个凳子上,看看它是否真的更好、更短,而且不需要两个小时才能看完。绝对不值得。对。不,绝对不值得。呃,你无法做得比这更好,但是是的,
11 Labs确实引入了GenFM,它非常类似于Notebook.LM。你提供一些输入,它可以生成类似播客的东西来涵盖它的细节。它有点像一个相当健谈的对话主题。许多人发现这对于了解PDF的内容很有帮助,如果你需要了解一个新主题的话。
对于某些人来说,收听播客类型的媒体比在屏幕上阅读要容易得多。所以是的,我认为这是一个对Notebook LM的竞争对手相当快速的发布。他们还支持32种语言,包括英语、印地语和西班牙语。
所以11 labs最近以其发布新内容的速度给我留下了深刻的印象。我们肯定经常谈论他们。所以这是一个明确的指标。我认为这里的一个主要区别在于多语言支持,对吧?我认为这旨在扩大产品的覆盖面,我认为,你知道,如果你说的是一种……
我不,不要引用我说的话,但我认为Notebook LM实际上并没有像印地语和许多非英语语言那样的选项。所以,你知道,如果你说法语,如果你说西班牙语,这可能是你最好的选择,也是11 Labs进入市场的好方法。但由此得出的一个有趣的结论是
它实际上是一种相当可复制的方法。我不记得谷歌是否一开始就说明了他们对Notebook LM的架构选择。如果他们没有,那么这是11 Labs非常令人印象深刻的复制举动。这是一件非常困难的技术难题,他们似乎做得很好。对。就背景而言,我想我忘了提到11 Labs通常是领先的文本到语音软件提供商。
所以他们已经拥有生成非常人性化语音的模型,这就是他们的全部产品。所以在某种程度上,毫不奇怪,还有其他人可以复制它,或者至少接近它。
但这绝对是我对Notebook Alarm印象深刻的一点,一种非常人性化的对话语气和流程,你大概在这里也能得到。还有一个关于谷歌的故事。他们正在扩展其VO生成式人工智能视频模型的访问权限。所以现在企业可以将其集成到他们的内容创作流程中,并
通过Vertex AI平台上的预览版。我认为我们很久以前就看到了VLO的公告,几个月前。
它与Sora大致相同。你提供文本或图像提示,它会给你非常好看的高清视频。当然,在这个公告中也发布了一些不错的示例。他们还将Imagine Free文本到图像生成器的访问权限扩展到所有Google Cloud客户。所以是的,谷歌仍然在竞争中。他们有很多工具,很多功能,
而且我不会感到惊讶,很多人只是使用谷歌,因为这已经在他们的工具集中了。是的,它也与Imagine 3一起发布,我想你刚才说过了。其结果之一是,他们包含了这个synth ID技术,对吧?谷歌一直在谈论的这两种产品线中的数字水印。所以不仅仅是静态图像,还有视频。这很有趣。另一部分是生成的视频长度不是……
表面上它并不局限于之前Vio宣传的大约一分钟的长度。所以这可能是他们可以做的更长的视频生成,这有很多原因,其中一个我们稍后会谈到,这个想法是你可以拥有
一个生成的视频,在很长一段时间内保持连贯性,这意味着你有一个强大的世界模型,有些人有时称之为世界模拟器,对吧?这个模型本身的物理模型、物理引擎。所以为了让这些视频持续很长时间并保持连贯性,你必须有一个足够了解物理学的模型,以防止事情偏离轨道。
对。为了防止球突然飞到空中并变成我不知道,一场五彩纸屑雨之类的。这就是必须吸收的东西。如果你能做到这一点,那么你就可以开始考虑诸如,好吧,让我们使用这些作为模拟器来训练。
自主代理来导航复杂的环境并进行长期规划。这些看起来可能在非常根本的方面是不同的线索。它们不是。随着您看到视频技术特别是进步,我认为您将看到相应世界模型上训练的代理的本质上长期规划能力的同步提高。所以我们稍后会更多地讨论这个问题,但我只是认为这是谷歌非常有趣的发展。正如你所说,仍然非常有竞争力。我的意思是,他们采取的方法与OpenAI不同,他们更专注于特定类型的目标进步,而不是OpenAI的那种规模化方法,看看会产生哪些通用能力。没错。在图像生成方面,我想我们之前讨论过Imagine。
上一集,他们强调的一点是,它非常准确地响应提示。你可以给它一段包含很多细节的文字,图像会忠实地反映这些细节。所以除了看起来非常好之外,Imagine Free在这方面也相当先进。你可以非常控制你得到什么。
我们确实知道OpenAI,我想传闻是它将推出Sora,也许是批量发布。这可能是我们很快就会得到的东西之一。所以很有趣的是看看这将如何与之相比。
进入应用程序和业务,我们将继续讨论Elon Musk与OpenAI之间的纠纷。在上期节目中,我们讨论了泄露的电子邮件,这些电子邮件展示了他们早期合作的历史以及他们是如何分手的。
这一次,我们有关于他们之间法律斗争进展的新闻。Elon Musk已经申请禁令,以阻止OpenAI向营利性组织过渡。所以这里的论点是存在反竞争行为,OpenAI将……
他们向营利性实体的转变,正如我们之前讨论过的,这似乎正在进行中,而且他们在最近一轮融资中基本上向投资者承诺过,他们获得了多少资金,大概是60亿美元,这使得OpenAI的估值达到1500亿美元。所以这相当重要。Musk指责OpenAI阻止对XAI等竞争对手的投资。
并滥用敏感信息,从事自我交易,这些说法是反竞争的。是的,当然。我的意思是,规则在后期会发生变化,但是,你知道,在早期创业的背景下,当然,告诉人们不要投资另一家公司,这将被认为是一种非常糟糕的策略。但在这种情况下,你知道,非常不同
非常不同的世界。顺便说一下,Sam Altman确实对此发表了评论。所以说法是,或者一般来说,我们听到过这种说法,你知道,OpenAI告诉人们,好吧,如果你投资我们,你可以投资Anthropic,这个想法,他们甚至可能对NVIDIA和其他公司说过,在OpenAI最近一轮融资中。Sam Altman现在声称情况并非如此,他说,看,你可以投资任何你想要投资的公司,
我们所做的只是,如果你投资竞争对手,我们将停止向你发送我们的产品路线图。我们将停止向你发送我们的研究路线图,这更符合标准做法。所以现在,我们似乎根据你问谁得到了两个截然不同的故事。所以我想时间会证明一切。但我认为这是一个重要的澄清点,说明人们究竟在抱怨什么。
当然,也有人指控OpenAI和微软之间存在不正当的信息共享,或许存在反竞争行为。这主要围绕几件事展开,包括LinkedIn的联合创始人里德·霍夫曼,他是前PayPal黑帮成员,与彼得·蒂尔等人一起。因此,里德·霍夫曼同时担任微软和OpenAI的董事会成员,同时也是Greylock的合伙人。
因此,马斯克的律师声称这让他能够特权地了解这些公司及其交易。还有迪·坦普尔顿,她是微软任命的OpenAI无投票权董事会观察员。你可能还记得。所以,他们经历了一个阶段,他们有一个
一位不能投票的观察员。而埃隆在此提出的说法是,她有能力,引用,“促成微软和OpenAI之间违反反垄断法的协议”。所以这个洋葱有好几层。但底线是,论点是,从非营利组织向营利组织的转变显然是一个问题。对于那些不懂法律术语的人来说,禁令仅仅是法院出来说的,或者我认为是法官出来说的,你知道的,
提前告诉你,你不能做这件事。所以这是一种预期性规定
预防措施,理论上可以阻止一方做另一方担心他们可能会做的事情,而不是他们已经做的事情。所以是的,再次继续,可能以更严肃的方式,因为关于,我忘了我们开始时确切的法律案件是什么,但是在这里,如果
即使没有赢得官司,仅仅是将OpenAI束缚住,而无法从非营利组织转变为营利组织,这也会非常有害,而且,你知道的,可能会让OpenAI更难以筹集更多资金,这是
他们很可能需要做的。所以是的,非常好奇接下来会发生什么。显然,在一封电子邮件声明中,OpenAI的一位发言人表示,埃隆的第四次尝试,再次重复了同样的毫无根据的抱怨,仍然完全没有道理。他们之前曾驳斥过马斯克的非法行为,称其为夸夸其谈和毫无根据的。所以是的。
是的,呃,不好的氛围越来越糟了,我想。是的,我的意思是,这有点动机。我认为其中一些问题是,嗯,我认为是《纽约时报》或交易书籍峰会之类的,无论是什么,呃,呃,你知道的,上帝,我忘了他的名字,但是那个
那个著名的CNBC主播还是什么的,他正在和萨姆·阿尔特曼谈话,他问,你看,你是否担心埃隆从外部如此密切地参与管理,看起来就是这样。所有这一切都在幕后,对吧?这个想法
你知道的,诉讼,以及,你知道的,它如何与,无论如何,埃隆在白宫的影响力以及所有这些东西互动。OpenAI在很多方面都被埃隆逼到了墙角。我认为萨姆出来说,听着,我不担心。埃隆不太可能利用国家权力来打击OpenAI等等。但他到底相信多少。
我认为我们将留给读者作为练习。无论如何,是的,埃隆和萨姆之间没有爱,这是肯定的。我喜欢我们的商业版块在近几个月里也变成了法律剧版块。接下来,我们在过去几个月里另一个共同的主题是数据中心。看起来亚马逊正在与Anthropic一起构建一个大型AI超级计算机。
他们说他们将建造世界上功能最强大的AI超级计算机之一,预计将比Anthropic当前顶级模型使用的集群大五倍。这将是Rainier项目的一部分,并将拥有数十万个亚马逊的Tranium-2芯片。
并且在完工后,似乎将成为报道中最大的AI机器集群,我想,在数十万个方面,你击败了XAI最近似乎上线的10万、20万个。所以再次,我想这是行业整体趋势的一部分,亚马逊试图在这里产生重大影响也就不足为奇了。
是的,文章中没有提到。我的意思是,你看到比用于训练最新Claude系列模型的规模大五倍。我听说过大约40万个H100的数字。所以你的H100等效物,比方说,来自这里的Tranium 2芯片。所以是的,我们将拭目以待。我想知道我是否只是快速搜索了一下,看看是否有官方数字。什么也没找到。也许有。当然,希望听众会让我们知道。所以
是的,这里的一个主要说法是,新的AWS集群比那些采用英伟达GPU的集群便宜30%到40%。所以这将是另一件大事,对吧?在这个领域中,你寻找的一件大事是你在哪里获得你的利润,对吧?你的利润将来自哪里?因为越来越多的,像语言模型本身一样,它是先发制人的。
竞争非常激烈,对吧?安德烈,你指出了这一点,但大多数应用程序不需要那种全力以赴的,就像在能力边缘构建的超级规模前沿模型。他们中的大多数都对某种普通的,比如,你知道的,
无论如何,就像一个较小的规模,80亿参数模型或其他什么。因此,鉴于此,当你看到大约80亿参数模型的范围时,突然之间,更重要的是你能以多低的成本提供性能?这是AWS确实非常有优势的一个领域。Anthropic需要这个,因为他们有,你知道的,他们是
与亚马逊越来越紧密地联系在一起。这笔最新交易肯定更进一步。它使亚马逊对Anthropic的总投资达到80亿美元。这是Anthropic军火库中很大的一部分。
无论如何,我们顺便也了解到,根据同一篇文章,下一代芯片即将问世,Tranium 3。这是亚马逊推出的,嗯,Tranium 2之后的东西。它将于2025年末上市。所以真的要与Blackwell竞争了。它最好很好,对吧?这就是这意味着什么。你将大规模生产这些东西。这是亚马逊的Blackwell级别,Blackwell一代。
当然,他们将与Anthropic密切合作开发这些芯片,或改进Tranium系列。我相信这将成为亚马逊依赖于在硬件方面保持竞争力的反馈循环的一部分。
对。由于我们正在,我想,从他们的公告中补充其余的背景信息,还值得简要提及的是,除了这些公告之外,还有一些其他工具,其中一个是Bedrock Agents。因此,他们现在使人们能够构建这些代理系统,可能与Anthropic Agents并不完全相同,
对不起,Anthropic计算机使用API。在这里,你将能够通过连接AWS中的不同数据源和API来自动化客户支持、订单处理和分析等任务。
正如我们之前所说,模型蒸馏也是一项功能,你可以利用它来获取更大的模型,并使其更小、更便宜、更快。他们还有一个自动推理工具,这是一个验证工具。它可以获取模型的输出,然后进行一些逻辑推理,似乎,我想,对输出进行推理,看看它是否错误或可以改进。
与01有点一致。所以在这次reInvent活动中,有一整套相当强大的工具和公告。进入闪电轮,回到OpenAI,我们还有一个更具推测性的故事。标题是,听起来很像OpenAI正在向ChatGPT添加广告。这是基于来自科技公司的专业人员的招聘广告
像谷歌和Meta这样的公司,对广告支持的模式可能有兴趣。首席财务官莎拉·弗莱尔也发表了一些评论,似乎他们正在评估是否转向那里,并且他们将仔细考虑何时以及如何去做。后来,她撤回了说法,并表示他们对我们目前的模式感到满意。
商业模式。所以也许并不完全令人惊讶,而且仍然远未得到证实,但肯定暗示广告可能是OpenAI潜在的收入来源。是的,那里的沟通团队将会非常生气。是的,收回或收回,我的意思是,老实说,如果他们最终没有朝那个方向走,我会感到惊讶。这样做有优点和缺点。文章对此进行了一些讨论,但只是当你去做广告时,它会
它会让你更专注于满足你的广告客户,并且可能更加谨慎。我们已经看到对社交媒体的批评是基于这个基础的,即像以前的Twitter、Meta和Instagram这样的公司,如此依赖广告商,以至于他们更有可能审查内容。这是一个常见的论调。但另一方面……
我认为仅仅根据他们已经运营的规模,实际上,不,最近OpenAI宣布的每周活跃用户数量为3亿。你达到了这样的规模,要接触到这些人,你不能向他们收费,你知道的,就像,
每月20美元或其他什么来访问你的技术,并充分利用将这些用户留在你的平台上的价值,广告开始变得非常重要。我们显然也看到Perplexity也朝着这个方向发展。另一件让他们的否认看起来有点奇怪的事情是,他们正在考虑或开始致力于这个方向,是因为我们知道他们实际上一直在招聘广告人才。所以在5月份,他们聘请了,所以我甚至不会尝试发音。我会尝试。我会失败的。Shiva Kumar Venkataraman。非常好。希望如此,是的。听起来很合理。
好的。好的。所以我们的听众,那些知道这个名字应该是什么的人,肯定现在正在评论。谢谢,请。嗯,无论如何,所以他之前担任谷歌搜索广告团队的副总裁。所以,你知道的,这是一个非常重量级的招聘,你知道的,为了,为了,为了没有特别的理由这样做。而且,嗯,
而且,实际上,你知道的,莎拉·弗莱尔也指出,听着,我们有这些优秀的,嗯,这些优秀的领导,呃,来自在Nextdoor、Square、Salesforce工作过的人,他们在广告领域做过很多事情。凯文·韦尔,呃,他是OpenAI的首席产品官,也拥有这样的背景等等。所以有很多关于他们广告血统的宣传,而且,呃,
对。
对。我的意思是,如果他们至少没有考虑一下,我会感到惊讶。显然,他们最近推出了搜索,作为网络搜索的一部分,作为ChatGPT的一部分。我们一个月前,在11月初看到Perplexity表示他们正在将广告引入他们的搜索流程。在那之前的一段时间里,他们只想基于订阅。现在他们确实有赞助广告。
在搜索某些内容后出现的后续提示。所以当你进行网络搜索时,当你进行实时信息搜索时,这肯定是一件
考虑它作为印钞机非常有吸引力。接下来,我们又有一个关于融资的故事,这次是关于Black Forest Labs。他们似乎正在与A16Z进行谈判,进行2亿美元的融资,这将使他们的估值超过10亿美元。
这仍然是一个讨论点。显然,这里有一些私人信息。这是来自熟悉计划的人。但是,你知道的,我认为这是合理的,考虑到我们在Grok、X上推出Flux时,以及在包括Mistral在内的各种平台上拥有Grex,也看到了他们的快速进展,对不起,他们的Flux工具。他们是……
在该领域中肯定是一个越来越重要的参与者。是的。理论上,这一轮将由Andreessen Horowitz领导,并将是一轮独角兽融资。所以我们看到的估值超过10亿美元,你知道的,这很重要。这也很有趣,因为这是一个如此专业的团队,对吧?就像他们正在关注那种
图像、视频、多媒体类型的生成,而不是AGI游戏。所以这很有趣。这显然是Black Forest Labs和X之间合作的结果,在他们与埃隆和X合作之前,这吸引了硅谷所有人的注意力,关注这个之前真正鲜为人知的初创公司。但他们显然也在……
对不起,这是来自之前的几轮。他们已经在他们的资本表上拥有Gary Tan,他是Y Combinator的负责人。Andreessen之前投资了3100万美元的种子轮。顺便说一句,种子轮,这太疯狂了。我年纪够大了,还记得种子轮是50万美元的时候,3100万美元。他们显然在8月份筹集了资金。我相信我们当时已经报道过了,但我只是看着这个数字,就像,该死,这是一个非常漂亮的资本表。无论如何,我认为
我认为一个大问题,他们在这里标记了这个问题,如果你筹集的资金太多,太快,对吧,或者你的估值过高,而你还没有证明事情是正确的,你没有明确的收入,其中一个挑战是你如果无法达到这个估值,可能会进行下轮融资,比如无法达到预期。你知道的,下次你必须筹集资金时,你可能会在估值上减价,这就像,
就像那样,那样,对于初创公司来说,这通常是致命的,对吧?它会对资本表造成不良影响,而且通常只是一个非常糟糕的迹象。所以他们显然试图稍微保守一点,也许不是,你知道的,全力以赴地进行这次融资。看看它是否真的会结束将会很有趣。
但是是的,创始人在这里采取了可以理解的、非常成熟的做法,说,等等,我们需要更多地适应这个估值。我们将拭目以待。我的意思是,A16Z,让他们加倍投资也不错。还有一个关于融资的故事。这次是关于一家芯片初创公司Tenstorrent,它正在获得杰夫·贝佐斯和三星等公司的投资。
他们获得了7亿美元。这将使他们的估值达到26亿美元。他们的全部使命是挑战英伟达,通过使用开源技术并避免英伟达使用的一些昂贵组件和VA来创建更具成本效益的AI芯片,例如高带宽内存。
他们已经做了一段时间了。他们确实有一些收入。他们签订的合同价值近1.5亿美元。但当然,看看他们是否能够竞争将会很有趣。这种大规模投资似乎是对信心的一种很好的展示。
确实如此。Tenstorrent是一家非常有趣的公司。我们之前讨论过它。他们正在采用一种不同寻常的芯片设计方法。这里的一个关键部分是,正如你提到的,高带宽内存,HBM。我们将在硬件剧集中讨论这个问题,顺便说一句,我们将要推出,对吧?我们对此有计划,不是吗?
我们有云的概念。看,我认为我们至少达成了协议。我们会做到的。好的,我们会做到的。但无论如何,我们应该很快录制它。但是高带宽内存,HBM,是当今所有在AI领域做任何有价值的事情的GPU的通用组件。基本上,它只是内存,你可以非常快速地提取大量数据,因此是高带宽内存。
这正是你训练这些非常大的模型所需要的。高带宽内存的问题是它没有改进。如果你考虑摩尔定律,它并没有像逻辑那样快速改进,像实际计算那样,像为这些GPU提供动力的逻辑芯片那样。
因此,当你将你的计划与HBM联系起来时,你并没有乘坐同样的浪潮,就像你可能在其他方向上那样。这就是Tenstorrent在这里所做的。他们试图利用增长速度稍快一些的趋势,这可能会让他们在HBM增长速度较慢的情况下超越对手。HBM增长缓慢的原因是我们也将在我们的硬件剧集中讨论的内容。它本身就很有趣。Tenstorrent的另一个优势是他们一直是
这基本上是一种使用RISC-V的新型逻辑处理器,RISC-V是一种指令集体系结构的开放标准。基本上,这是处理器实际理解的语言。从某种意义上说,它是硬件和软件之间的机器级代码接口……
你会称之为?在基岩上,本质上。所以RISC-V是开源方案,它是ARM Holdings闭源产品的竞争对手。ARM以其ISA,其指令集体系结构而闻名。Tenstorrent基本上是在说,嘿,听着,我们押注HBM失败,我们押注开源RISC-V指令集体系结构,人们可以更容易地对其进行迭代。所以无论如何……
无论如何,他们刚刚产生了1.5亿美元的已签署合同。所以这不足以证明估值是合理的,除非你相信未来可能会出现巨大的增长。Tenstorrent面临的另一个挑战是,当你是一家小型芯片设计公司时,
你无法像大公司那样进行设计。英伟达最近更新了他们的节奏,他们每年都会发布一种新的GPU设计。他们有一个每年的发布节奏。过去是每两年一次,而Tenstorrent仍然保持每两年的节奏。所以……
我认为他们面前有一场艰苦的战斗。每个人都是如此。但是,这个市场看起来真的很好。顺便说一句,腾讯也刚刚转向台积电。他们之前与格芯合作,格芯是一家更挣扎的芯片制造公司。当然,台积电……
我们经常谈论的纯晶圆代工厂。他们现在将开始使用台积电的2纳米制造工艺。所以真正的,你知道的,尖端工艺,嗯,我们将看看他们是否能够很好地使用它。接下来是项目和开源,我们确实有一些非常令人兴奋的故事。我们从所有故事中最令人兴奋的一个开始。我们又有了Meta发布的另一个Llama模型。
最近,我们有了Llama 3.2,最近才发布,这是Llama的多模型版本。现在我们有了Llama 3.3 70B,这是一个新的版本,它似乎与Llama 3.1 405B(更大的模型)不相上下,同时体积更小,成本也相对较低。他们发布了在各种平台上的基准测试结果
例如IF、eval、human eval、math等等。分数大致相同,而成本与他们之前的70B模型相同。
远小于更大的4050亿个模型。所以这真正展示了我们在能够压缩大型模型并真正发挥性能能力方面取得了很大进展
添加较小的尺寸。这就是他们在这里所说的。他们已经使用了训练后技术来实现这一点。是的,我认为越来越多地看到这一点,你有很多AI可以帮助完成的大型任务,显然。而且越来越多地,绝大多数都属于相对简单的自动化任务。较小的模型逐渐
逐渐提高性能,正如我们所看到的,服务成本要低得多,对吧?你实际上可能想要过度训练一个小型模型。所以它不一定是,你知道的,你可以用相同数量的计算来获得一个性能更好的大型模型。但是,相反,你采用这部分计算,将其应用于较小的模型,因为它进行推理、提供服务的成本要低得多。所以,你知道的,这就是我们从Meta的4050亿参数
Llama 3大型模型转向这里的700亿参数模型的理念。这是一个非常明智的下一步策略。我在这里发现的一件非常有趣的事情是,Llama模型和由Llama驱动的Meta AI Assistant的使用,Llama模型有6.5亿次下载,我的意思是,我会
押注任何机器学习模型的下载量不会这么多。我不知道你在哪里获得数百万次下载,也许是从服务器部署中获得的,你在那里有无服务器或其他什么,你有很多初创公司使用它并在AWS上部署它,或者类似的东西,你可能有一个自动化类型的过程。那是
一定是这样。显然,并非有6.5亿人知道这个模型到底是什么。但底线是,是的,它被广泛使用。是的。
而且,呃,当然,我们已经讨论过这里的许可限制,超过7亿月活跃用户的平台需要特殊的许可。所以基本上,他们只是向,呃,谷歌和OpenAI等等竖起了中指。嗯,关于月活跃用户,我认为这很有趣。我们刚刚谈到OpenAI达到了3亿,嗯,每周活跃用户。我们不知道他们的月活跃用户是多少,或者至少在本周我查看的内容中没有提到。嗯,
Meta AI Assistant有6亿月活跃用户。如果属实,这是一个相当大的回归,对吧?我的意思是,对于一个直到大约,比如说,两年前才真正存在的有意义的平台来说,它的使用量基本上与ChatGPT相当。相对于OpenAI大约有两年的延迟。所以非常令人印象深刻。显然,我们也在播客中讨论过这个问题,分发,分发,分发。
微软团队胜过Slack的原因是微软拥有更好的分发渠道。他们一开始就在每个人的电脑里。好吧,Meta的助手之所以增长如此之快,是因为每个人都在使用Instagram、Facebook或WhatsApp的某种组合,或者其他什么。所以他们在这里拥有巨大的优势,他们将试图花钱来……
以某种方式将这种优势货币化,对吧?所有这些活动也受到他们在这一方向上的大力推动而激励。路易斯安那州价值100亿美元的AI数据中心,文章中是这样称呼的,即将到来。超过10万个
呃,H100 GPU。呃,还有B系列,他们很快就会上线。所以非常,呃,非常酷。非常酷。接下来,我们还有一家大型公司开源了一个模型。这次是阿里巴巴,他们正在发布一个对OpenAI的o1推理模型的开放式挑战者。所以这个模型叫做QWQ。我认为,呃,在X上,对如何发音有一个解释。我认为是Q。呃,
我不确定。但无论如何,这是一个320亿参数的模型。他们将其作为Dash预览模型发布,并使用Apache 2.0许可证。这是非常宽松的。你可以将其用于商业用途。正如我们上周看到的那样,我们报道了另一个内置推理的开源模型,R1 light预览版来自DeepSeek,这个模型同样针对进行类似于R1的推理进行了优化,当你问它问题时,它会输出并让你看到某种推理轨迹
或多或少地讨论这个问题,然后输出答案。和以前一样,在某些任务上,它的性能实际上比那些没有针对该任务进行优化的模型要好得多。
是的,我必须说博客,因为关于这个模型的信息不多。我们知道它有320亿个参数,正如你所说。我们知道它来自Quinn团队。好的东西。顺便说一句,QWQ显然代表着带有问题的Quinn。这个想法是它是一种类似于反思的模型,对吧?我想指出,我的意思是,博客文章,这是我见过的最奇怪的事情之一。
我见过的最奇怪的文章之一。所以我想把它提出来,对吧?所以这只是来自博客文章。很难不带着烟斗在嘴里阅读它。那么,思考、质疑、理解意味着什么?
无论如何,它继续……
它继续,它继续,它会谈论所有智慧的寻求者和废话。它不会告诉你关于该死的架构的任何信息。所以就是这样。不过它很快就会开源。所以我们将得到这些答案。我只是想,我想看看谁,好的,那篇博客文章,因为那是我很久以来看到的一些最有趣的东西。是的。标题是QWQ深刻地反思未知的界限。是的。
非常诗意,对吧。我的意思是,该死。现在,我要说这又是另一个迹象,当然,我们看到的是一种激增,包括进入开源领域,包括中国公司的一些可能非常令人印象深刻的。我的意思是,R1就是这样。Quinn with questions的表现如何还有待观察,但这是一个非常令人印象深刻的进步。
推理时间计算策略很快就复制了OpenAI的做法。我要冒昧地说,目前这种情况中存在工业间谍行为的可能性比人们普遍认为的要大。OpenAI将被彻底渗透。这只是……
你知道,如果你对国家安全有一点了解,就会很清楚地知道这种情况会发生。因此,就中国从事为这类事情挑选国家冠军并分享情报而言,这可能是一个途径。就像,有可能。但另一件事是,至少R1团队是,就像,很厉害。像DeepSeek,那些人真的,真的很好。所以他们可能只是那么好,他们做到了。
在这种情况下,你会想到出口管制,你会想到与系统控制相关的各种事情。是的,我认为我们也可能看到这类推理模型的低垂果实时代,我们或多或少地应用一组众所周知的合理技术来获得相对快速的进展。这可能是每个人都只是对……
同时做或多或少众所周知的想法。它们只是非常有效,因为还没有在这方面投入太多努力。在这些基准测试中,他们看到的成绩并不完全像O1预览版那么好,但与O1 Mini不相上下,当然比4.0或Cloud 3.5或Command 2.5 72B更接近。所以……
你知道,不会击败OpenAI的顶级模型,但与非推理型模型相比,它已经非常接近了。是的,它是一个开放模型。根据你的观点,我的意思是,我认为关于出口管制问题的要点绝对是正确的,对吧?每次你对一个范式进行转变时,在这种情况下,是推理时间计算,但最终会是其他事情。你会有这种悬而未决的事情。
突然之间,一大群以前无法竞争的人现在也许可以竞争了。因此,我认为这是一个非常重要的,比方说,需要学习的政策教训,事情可能会发生变化,你不想制定过于依赖纯粹的训练范式或其他任何东西的政策。
下一个,也是中国巨头的一个开源模型。这次是腾讯,他们正在推出Hunyuan Video,这是一个用于文本到视频生成的130亿参数开源AI模型。
这是一个我们没有看到太多大型开源模型的领域。事实上,这将是开源领域中同类模型中最大的一个。它有一些功能,显然包括视频到音频合成。你可以使用各种输入,例如语音、面部表情和身体姿势。总的来说,它似乎是一个非常有用的模型,可以用于有趣的事情。
是的。我想反映一下这里的中国血统,他们确实专注于扩展方法来降低计算成本。嗯,他们的技术最终使他们相对于过去可比系统节省了大约80%的成本。这是一个相当庞大的模型。我的意思是,130亿个参数。是的。还不错。还不错。嗯,相当耗费计算资源。所以,嗯,是的。呃,
我们将看看它最终是否会被采用和使用,但对于文本到视频的开源领域来说,拥有一个领先的模型是很有趣的,它也使中国能够在这个维度上展现一些力量。没错。是的。现在正在查看剪辑,我将尝试在YouTube视频中剪辑它们,它们非常好。它们不是顶级的。仍然有一些AI伪影,但令人印象深刻。只是……
是开源的,这可能会产生一些影响。接下来,我们有一篇论文,不是一个开源模型,它是……
DEMO,解耦动量优化。这是一种新的优化方法,它解耦动量更新以减少对高速互连的需求,从而使分布式训练成为可能。这是杰里米更喜欢和了解的领域,所以我让你接管并详细介绍一下。
是的,是的,当然。所以这既引人入胜,我认为也很重要,并且是我认为我们想总体上指出的趋势的一部分。首先,这是来自Noose Research或New Research的另一项研究。我不知道他们是否想……
以某种方式发音。所以他们是Cosmo Kramer,如果你是一个Seinfeld的粉丝,在AI世界,在AI开源世界。非常像对从AI意识到去中心化计算重要性的所有事情都有非常神秘的观点。这就是这个。所以这个大问题是,我们如何……
在某种程度上推动这一目标的意识形态问题是,我们如何建立这些大型分布式训练基础设施,这些基础设施将难以控制,因为它将是去中心化的,它将利用你这里或那里闲置的少量计算资源。这是一种长期目标,这种方法的远大目标。
从根本上说,他们在这里关注的是,我们如何首先减少所有这些节点之间所需的通信量?因为如果你有很多不同的节点,你将不得不进行大量的通信。他们提出了一堆非常有趣的猜想,我本来以为这些猜想毫无意义,但后来却在经验上行之有效。所以
首先,当我们进行训练时,我们使用优化器。这些优化器本质上是允许你在每一轮训练后决定如何精确更新模型参数的东西,对吧?所以你的优化器是,它可以以不同的方式设置。
一种方法是考虑动量。例如,如果你发现某些参数在多次更新后不断朝着相同的方向移动,对吧?所以在一批之后,它们在一个方向上移动。在另一批之后,它们在这个方向上移动得更多。那么,也许这表明你的下一批训练,它们可能会再次在这个相同的方向上移动,对吧?所以你可能想利用某种动量的概念……
这些更新。就像如果你注意到过去的更新一直倾向于,换句话说,在某个方向上具有动量,也许你可以记住它,并利用它来对你的参数值应该演变的方向做出更明智的猜测。所以他们在本论文中所做的实际上是说,好吧,呃,
我想知道模型中参数的不同组成部分是否有一些参数簇倾向于更快地演变,因此在某种意义上具有较大的动量值,而另一些参数则具有更零星的变化,其中你具有具有较高时间方差的较快变化,基本上。它们不太可预测。
事实证明,这实际上是正确的,存在可识别的参数包,我在这里非常宽松地使用“簇”这个词,因为无论如何,他们以不同的有趣方式识别它们。如果你在信号分析中,他们使用傅里叶变换,余弦变换来识别快速移动的组件,慢速移动的组件,他们说,好吧,你知道吗?如果我们有一些组件具有这种可预测性,具有高动量,对吧?也许我们不需要经常更新它们。所以也许我们可以……
基本上只选择更新哪些参数在更频繁的更新中,并将其余参数留给更稀疏的更新。这使我们能够在训练期间减少节点之间的通信量。通过这样做,他们能够在最佳情况下将带宽或通信需求减少 20 倍以上。这太疯狂了,对吧?这确实,确实,确实会影响你的训练效率。所以
我觉得这非常,非常了不起。嗯,呃,无论如何,有很多原因。我的意思是,我觉得我们可以做一个完整的节目来解释为什么这如此奇怪和出乎意料。这至少告诉我,我对这些系统的动态以及为什么会出现这些模式有很多不了解的地方。就像他们甚至没有试图为它辩护。他们只是说,或者他们在这篇论文中还没有证明为什么存在这种模式。他们似乎承认这很奇怪,但在经验上,这似乎是真的。这是一件令人惊奇的事情。我可以想象这会对规模化去中心化训练产生一些影响。对。我相信我们在一个月或两个月前报道了他们的公告,他们发布了……
他们有这种新方法的公告,他们只是展示了一些结果,这似乎是他们承诺的更详细的论文。是的,它似乎确实有效,这有点疯狂。是的,这更像是新闻研究的Cosmo Kramer风格。他们发表了那篇论文,你是对的,对吧?他们只是说,嘿,我们做了一些很酷的事情。
看看这个疯狂的结果,但我们不会告诉你我们是怎么做的。所以即使他们告诉你他们是怎么做的,你仍然会觉得,但这说不通。这是我见过的最精神分裂的训练想法。但它却有效。所以Cosmo Kramer,伙计。关于去中心化训练的话题,最后一个故事是关于Prime Intellect发布Intellect One。
第一个在全球范围内协同训练的100亿参数语言模型。所以我刚刚在10月11日查了一下,他们发布了Intellect One博客文章,启动了第一个100亿参数模型的去中心化训练,我们当时报道过。
所以,大约两个月后,他们又发布了一篇博客文章,IntellectOne发布了第一个全球训练的100亿参数模型。他们在这里详细介绍了各种细节。他们用来训练的万亿个标记由不同的开放数据集组成。他们确实说他们在三个大陆上进行了训练,我相信。
这里的“训练”一词有点宽松,我想。它们与旧模型相比具有竞争力。因此,他们与LAMA 2 7B和LAMA 2 13B、Falcon 7B、MTB 7、CHAT进行了比较。与今年的100亿和数十亿参数模型相比,它不在那个范围内。但是
但尽管如此,它仍然是一个性能相当好、规模较小的语言模型。考虑到进行训练非常困难,尤其是在这种去中心化水平上,这是一个相当大的成就。是的,我认为这比根据模型的性能看起来要令人印象深刻得多。B,对政策的影响非常大,包括能源政策。所以这是……
正如你所说,我的意思是,它在三个不同的洲进行了训练,最多有14个并发节点。换句话说,他们最多有14个并发计算组被聚合在一起,来自30个不同的计算提供商的贡献。所以你的人员会动态地加入和离开训练过程等等。我想提请你注意几个数字,实际上可能是一个数字,为了节省时间。所以
Flops利用率,对吧?所以这就是你在实践中能够让你的GPU保持忙碌的程度。在实践中,当你实际训练模型时,会有大量的停机时间,因为你必须在事物之间来回移动数据。GPU处于空闲状态,在等待时摆弄手指。当你进行流水线并行时,会形成气泡,等等。底线是他们达到了36%到41%的微观指标。
模型Flops利用率。这真的很令人印象深刻。因此,通常在H100 GPU上,Frontier Labs的Flops利用率约为35%,
可能高达40%。这是来自Semi Analysis的。他们对此进行了相当多的讨论,但对于某种万亿参数训练运行而言。因此,随着你的规模越来越大,你往往能够在Flops利用率方面做得更好。你可以将其视为对广义理解的规模经济的结果。但底线是他们在保持GPU方面做得非常好
忙碌,让他们的逻辑引擎忙碌。当你进行这样的分布式训练时,这是一个关键的关键因素。你想确保,是的,你的东西正在不断地,不断地生产产品,如果你愿意的话,随着时间的推移非常有效率。所以
所以这里有两件事。一个是当你考虑美国目前在人工智能领域占据主导地位的主要障碍时,能源是迄今为止排名第一的。我们基本上拥有所有我们想要的芯片。我们没有所有我们想要的电力。反过来,这意味着如果你是一家人工智能公司,你正在寻找在任何可以获得的地方大规模建设数据中心……
电力,任何你可以获得备用电网容量的地方。现在,实验室正在关注大约2026年左右的千兆瓦范围,试图创建千兆瓦计算集群。问题是,没有备用的千兆瓦基载电力,或者只是……
在任何地方的电网上可用。你必须从不同的地理位置将其拼凑起来。如果你要这样做,那么突然之间你就在从事分布式训练的业务。
现在,突然之间,你需要提出真正有效的训练方法,使你能够将这种计算能力汇集到地理位置分散的区域。谷歌已经在相对靠近的园区中这样做,但他们没有在全国范围内这样做。这正是IntellectOne在这里所做的。他们真的在挑战极限,不是模型能力,而是这种训练可以有多分散?我们可以使用你周围闲置的膝上型电脑……
让它在这个方向上做一些工作。这正是这件事的重点。他们有这个完整的Prime框架,它使用DeLoco。我们在上一集节目中讨论过DeLoco。所以如果你感兴趣,请查看一下。然后他们有这个完整的弹性设备网格,这真的很酷。这是……
正如你所想象的那样,如果你进行这样的分布式训练,你必须有办法在训练时动态地允许新的节点加入和离开系统。并且必须优雅地处理该退出和该进入。你需要容错能力。你需要欢迎新节点来贡献计算新GPU的方法,而不会失败。对吧?
对吧?不会让自己手忙脚乱。无论如何,这是他们在这里正在做的一大部分工作。所以,非常,非常有趣的论文。如果你对硬件方面感兴趣,如果你对政策感兴趣,你将不得不学习如何使用这种语言。如果你想预测这个领域的未来,你将不得不学习如何使用这种语言,因为能源越来越成为制约因素。这就是事情将要发生的方向。
至于那篇论文,他们确实发布了一份相当详细的技术报告,长达15页,详细介绍了数据集和参与人员。他们在美国和欧洲都有很多人,在亚洲的一些地方,例如印度和新加坡,也有一些人。
所以,那里有很多细节,他们确实在Apache 2.0许可下发布了一个模型。非常宽松。你可以将其用于任何你想要的目的。大型,你知道,对开源的良好贡献。你还可以使用他们用于训练的代码以及模型的细节。所以是的,
总的来说,是的,如果你对开源感兴趣,如果你对去中心化训练感兴趣,这是一个非常令人兴奋的发布。关于研究和进展,我们又回到了DeepMind的Genie 2.0的世界模型的概念。
我不记得是什么时候了,但我认为是在今年,我们谈到了Genie 1,这是一篇研究论文和一项研究工作,它能够让你玩一个二维视频游戏,广义上来说,它完全是由AI生成的。
所以它看起来像你那种典型的平台游戏。你可以四处移动角色,你可以跳跃,但除了一个正在生成视频流的大型神经网络之外,没有代码在运行它。所以现在我们得到了Genie 2,这是一个能够根据单个图像和文本描述生成交互式3D世界的AI模型。
你会得到你在视频游戏中通常会得到的那种东西。你可以有一个角色,你可以在沙漠般的环境中奔跑,你可以跳跃。你可以拥有一辆赛车或一艘船,你可以在湖上游泳,而且几乎是……
几乎是实时的。它显然可以生成具有不同视角的一致世界,长达一分钟。我们还展示了记忆,当你从场景的一部分移开视线再看回来时,你实际上确实保留了存在的世界的各个方面。这是我们在不久前报道的一些Minecraft模拟中看到的东西。有一件事是,如果你做一个360度旋转,
你面前看到的东西与你在开始旋转之前看到的东西不一样。而在这里,他们至少有一些例子,即使你移开视线,细节也会保留下来,这告诉你存在某种世界模型的概念,正如杰里米所说。所以非常酷的努力,非常酷的视频。我将尝试将其包含在YouTube版本中。是的,同样,这可能是这些例子中的一个……
更安静的趋势,但正如我们所说,从Sora开始,甚至更早,许多人都对世界模型感到兴奋,并朝着这个方向努力,即使它对大多数人没有那么大的影响。是的,这是另一个。所以有一位研究人员
我一直在关注他的作品有一段时间了。所以是Tim Hochdeschel,他现在在GDM,并且参与了这项研究,参与了Genie One的研究。根据你的观点,在Sora之前,他正在从事这类工作。在这个方向上有很多努力。他们最初是在游戏环境的程序生成方面。基本上,就像,我们可以……
我们可以创建这样的游戏,你通过遵循简单的规则来生成新的游戏环境,这样你就可以自主地为训练AI模型和代理生成这些非分布式设置?我认为,这确实是认识到我们实际上可以通过不进行程序生成,而只是像……
深度神经网络生成的環境,Genie 2和Genie 1之间的一个重大飞跃是我们现在从2D转向3D。所以再次,当你考虑代理在现实世界中导航时,这是一件大事。我们不知道Genie 2的参数数量。事实上,我们没有那么多技术细节。这是这里有趣的事情之一。Genie 1,我们有一篇完整的论文。我们花了一段时间来仔细研究它。我们有一个110亿参数的模型。我们知道他们……
训练它。我猜这里有很多相似之处,不仅是因为命名约定,还因为模型的设置方式及其功能。他们使用Imagine 3根据文本提示生成……
然后他们将该图像转换成你刚才描述的那种可导航环境。说到这些东西是世界模型,对吧?这东西可以做的一些事情是模拟互动,例如爆破气球,开门,射击爆炸桶。你可以看到很多东西,你知道,定向照明,草在吹,你知道,所有这些东西都表明这东西捕捉到了关于世界运作方式的一些有趣而有意义的东西。
关于幕后发生的事情,我们只能根据我们对Genie 1的了解来推测。在那里,关键实际上是,两个关键是潜在动作模型……
基本上,他们训练这个模型将之前的视频帧和即将到来的帧作为输入,然后预测,好吧,是什么动作将我们从这些早期帧带到了下一帧?从本质上讲,是什么因果事件将这些过去的帧与未来的帧联系起来?这是系统学习推断哪些动作会导致环境中状态转换的一部分。
这是一部分。这是潜在动作模型。从本质上讲,你可以将其视为像反向工程刚刚发生的事情的物理学,对吧?所以如果我向你展示一辆沿着道路行驶的汽车的一张图像,然后在下一张图像中,我向你展示一辆汽车,我不知道,停放着或者其他什么,你可以推断出,好吧,司机可能,你知道,在某个时候踩了刹车或者其他什么,你正在做所有这些工作。这就是潜在动作模型。这就是学习世界中许多因果关系的东西。另外,还有一个动态模型,你可以在其中输入……
一堆之前的帧,你输入一个动作,然后你的工作是预测下一帧。
这是一个本质上会说,好吧,这是系统的过去历史,这是我要给它的推动,然后从那里会发生什么。正是这两个模型的集成方式,潜在动作模型和动态模型,共同为你提供了至少Genie 1中获得的那种沉浸式物理和可玩世界,而且我怀疑Genie 2也是如此。事实上,我认为他们根本没有声称它有所不同。
对。说到没有论文,不像我们之前讨论的Deckard的Minecraft示例,或者我们也无法深入探讨,但World Labs发布了类似的世界模型,你也可以输入图像并四处移动一点。这里没有交互式演示。我们只得到一堆视频。
他们确实提到他们为此使用了未蒸馏的模型。我很确定这不是实时的,尽管他们确实声称他们可以对其进行蒸馏并获得较低质量的实时性能。一件有趣的事情是,这来自CIMA团队,其中CIMA是在许多模拟世界中扩展可指导代理。
这是一篇我们相信之前报道过的论文,他们在其中有很多视频游戏的代理,你告诉他们,“去这个星球或打开那扇门”,他们只是学习使用鼠标或使用任何控件来结束游戏,而无需渲染它或任何东西,执行这些操作。
这很有道理,同一个团队已经在这些游戏中训练代理,然后将使用可能使用了大量相同的数据和大量相同的基础设施来制作这种视频模拟模型。
进入闪电轮,我们将尝试快速涵盖其余部分。首先,我们有语言模型是隐藏的推理者,通过自我奖励解锁潜在的推理能力。所以有一种技术,潜在推理优化,LATRO,
它将通过将推理视为从潜在分布中采样并使用它进行优化来增强大型语言模型的能力,使用变分方法。我只是在这里引用摘要,但总体思路是你将拥有已经烘焙到LLM中的现有能力,
并通过优化采样和优化你获得的输出来做到这一点。
杰里米,我相信你有一些更详细的内容想在这里介绍。是的,我认为这是一个从推理时间计算的角度来看非常有趣的一个。这几天是我的一个热门话题,原因显而易见,因为O1和Sonnet 3.5新版本发布了。所以这基本上是在说,嘿,我们有一种新的可扩展方法来开发……
推理理由的数据集。这实际上是这些代理模型的一个很大的障碍。我们在互联网上没有的东西,我们有很多文本,很多视频以及所有这些垃圾。我们没有的是我们可以用来训练模型成为优秀推理者的扩展推理轨迹的例子。那么我们能否以可靠的、自动化的方式创建这些数据集呢?这就是这篇论文的主题。所以从根本上说,他们将提出某种具有挑战性的技术问题,他们会问一个问题,这个问题,我们称之为……
X,并且会有一个正确的答案Y,对吧?这将是你的起点。现在你要做的基本上是让模型尝试提出许多不同的理由。事实证明,如果你有一个合理的理由,并且你把你的问题放在一起,那么模型就会出现。所以你有问题,然后是长长的推理片段。
如果推理合理,那么你的语言模型就会赋予正确答案比错误答案更高的概率。这很有趣,因为现在你有一种方法可以衡量推理的合理性,对吧?所以,如果我提出我的问题,只是用糟糕的推理来替换原来的推理,那么我的模型现在很可能会赋予正确答案(在我的数据集中)较低的概率。
所以他们基本上会利用这一点,让模型自动处理大量的推理,并根据这些推理使模型猜测正确最终答案的可能性来评估它们。这是一种关于推理的相当有趣和新颖的思考方式,并使用这些模型来……总之,来评估推理的价值和正确性。
总之,他们使用了一种相当技术性的变分优化方法。我的意思是,如果你像我一样是数学迷,并且喜欢看积分微积分,那就去看看吧。它实际上很酷,也很令人满意。但底线是你正在使用这些模型来……
自动评估推理,方法是稍微改变一下思路。与其生成一堆推理轨迹,然后试图查看你是否……你知道……是否得到了正确的答案,你更像是……
嗯,你替换你的推理,保持输入和输出不变,本质上是提示和最终答案。你根据模型赋予正确答案的可能性来评估哪些推理是好的。
接下来我们讨论LLM的致密化定律,我发现它非常有趣。我们在这个播客中非常喜欢缩放定律。在这里,他们将容量密度作为一个新的指标来评估不同规模的LLM的质量。本质上,我们说的是
有效参数大小与实际参数大小的比率相对于某种基线是多少?你在你所处的规模上能表现得多好?我们知道,例如,700亿参数模型能够在给定的基准测试中执行一定数量的任务。
如果你训练你的模型很好,它就会达到这个水平。如果你训练得很糟糕,它就不会达到这个水平。所以你可以衡量一下你相对于你的规模有多好。他们发现,开源LLM的容量密度一直在上升。这并不令人惊讶。我们一直在报道这种趋势,即
在10亿、20亿、70亿模型规模下,我们越来越好地获得了它们。现在它们相当有能力,而以前它们甚至没有能力。在过去,GPT-2是18亿参数模型,这甚至不像我们今天得到的模型那样。所以他们实际上确实通过实证研究
观察到了这种现象,我们发现大约有3.3个月的时间,这个指标翻倍。到目前为止,它仍然在保持,尽管在过去的几个月里它有点嘈杂。我们确实看到了一些下降,比如LAMA2-9B。
Lama 3.23b,gamma 2.2b。无论如何,在经验结果中存在一些差异,但总体趋势线仍在向上,我们从越来越小的模型中获得了更多性能。我们实际上刚刚用Lama 3.3讨论了这一点。现在Lama 3.3 70b也是如此。相对于Lama 3.1 70b,我们有一个性能更好的700亿参数模型。
是的,这背后的直觉从根本上来说是:你能在相同数量的参数中塞入多少性能,多少世界知识?我们越来越擅长做到这一点。一种方法就是过度训练。因此,对于给定的模型大小,实际上存在一个最佳的计算量,你可以将其投入到你的系统中以最大限度地提高其性能。这是一个我们长期以来就知道的缩放定律。
然而,我们越来越多地看到人们说,是的,好吧,我实际上并不关心最大限度地提高我的模型的性能。我关心的是在参数大小约束下最大限度地提高我的模型的性能。例如,我不想超过70亿或80亿个参数,因为我希望模型适合我的手机,或者我希望它做任何事情。我希望它的运行成本低于某个水平。所以我将过度反应。
过度训练它。这是提高性能的一种方法。另一种是算法,对吧?进行算法突破,让你能够更有效地利用这些计算。这就是有效计算的概念,对吧?2023年的一个浮点运算的价值远低于今天的浮点运算。他们说,参数也是如此,这显而易见。正如你所说,安德烈,我们已经看到了很多这样的例子,但看到它被绘制出来还是很有趣的。
一些有趣的顶级数字,对吧?他们说,从2023年1月到现在,GPT 3.5级别模型的推理成本下降了大约270倍。这非常了不起。它显然与我们在播客中看到的以及这些公司现在面临的挑战相符,即弥补他们在训练这些大型模型时产生的损失,就像……推理成本相当低,而且你们正在竞相降低价格。所以这是一个问题。嗯……
最后一点我要指出的是,我们目前用来获取大型模型然后将其转换为小型模型的大多数技术,都是诸如剪枝之类的技术,你基本上只是选择你想要丢弃的权重。所以你实际上从模型中丢弃了参数,以及蒸馏,你使用大型模型来训练小型模型做同样的事情。他们会
这些技术,他们说,通常会导致密度较低的模型。你最终得到的模型往往无法在其参数中塞入尽可能多的知识,这表明压缩技术还有很大的改进空间。这是一个非常有趣的发现。
尤其是在考虑哪些生态系统非常关心最大限度地提高其计算能力时,这一点尤其如此,中国实体肯定更关心这一点。而这个团队是一个中国研究团队。所以我认为你看到了很多这种“需要是发明之母”类型的推理,人们正在发明新的、更高效的方法来更好地利用他们现有的计算资源。
还有一个论文,这次是关于可解释性的。标题是MONET,用于Transformer的单义专家混合。这有点把两种思想结合在一起,专家混合,我们经常讨论过。这里的想法是你有不同的神经网络路径和某些参数。
是这些专家,它们更适合某些类型的输入。只有当你拥有某种输入时,你才会使用相应的权重。
我们还讨论了很多通过在神经网络中寻找概念来提高可解释性的趋势。最近,经常使用稀疏自动编码器,你获取给定层中的激活、输出,基本上压缩它们,并从压缩后的较少数量的事物中,得到类似字典的东西,你发现某些权重组合可以
可以映射到特定的想法,例如数学概念或桥梁概念等。因此,这篇论文提出了一种不同的方法来实现可解释性的想法,即在神经网络中寻找概念。
在训练时这样做。他们所做的本质上是将许多专家的数量扩大到非常大。他们在这里有大约20万——每层262,144个,同时保持参数相对较低。
然后,他们从拥有如此多的专家中获得的结果是,专家本身现在可以被证明能够捕捉到某些想法或技术。他们有对应于化合物的专家。那是第174,000个专家。
呃,论文中提到的40个美国州,呃,软骨,各种各样的专家,诸如此类。他们进行了各种实验,证明他们可以识别专家,例如Python、Java等不同的编程语言,如果你删除某些专家,你会得到非常大的性能差异,所以从某种程度上来说,它
类似于你使用稀疏自动编码器所获得的结果,但它不像后验方法那样多。是的,我认为这是一个非常有趣的方法。后验方法一直是一个挑战,正如你所说。而且
我发现这非常反直觉。当早期的MOE模型出现时,从概念上讲,我认为因为它们被称为专家,所以它们会……你知道……每个专家都会有一个明确的目的。你会拥有语法专家和奶牛专家
等等。显然,多义性,即单个神经元对多个不同概念做出反应并被它们激活的想法,在这里是一个很大的问题。所以,烘焙进去,这就是为什么,对吧?这就是为什么他们使用这么多专家。有如此多的意义需要捕捉,如果你希望每个专家只在一个连贯的人类可理解的概念中成为专家,你只需要更多的专家。这就是促使这一目标的硬性约束。
需要考虑的关键一点是,当你考虑安全性和可解释性时,人们经常谈论的是对齐成本。换句话说,为了从你的系统中获得一定程度的可解释性或可控性,你必须牺牲多少性能?这里的答案似乎相当令人鼓舞。所以他们查看了14亿参数系统的许多不同的零样本任务。
模型的版本。他们在这些任务中为这里的Monet模型获得了0.478的平均分数,而Lama 13亿参数的平均分数为0.84。所以,性能损失非常小,大约为2%左右,这
很好。这就是你想要看到的。你希望看到较低的对齐成本。但这在考虑这里的成本时是一个关键数字。而且我们我想也没有并排比较这个方法所需的浮点运算量与长序列的浮点运算量。但就其本身而言,
它看起来确实是一个非常有前景且可扩展的结果。希望这些事情会越来越容易实现。我的看法是,这可能不容易训练和扩展。因此,人们不太可能训练大型前沿模型
拥有这个,但它似乎可能对研究非常有用,并且可能将理解转化为更多的事后技术,最后是我们的政策和安全部分,首先,我们再次讨论出口管制,商务部再次加强了与军事用途先进半导体的限制,这将
对24种类型的半导体制造设备、3种类型的软件工具和高带宽内存进行控制,以及对实体清单(正在受到控制或限制的公司)的各种指导和补充。
所以有很多细节。实体清单现在新增了140个实体和14个修改。新规则对半导体制造设备有具体的规定。
是的,我认为这与我一段时间以来所看到的趋势非常一致。杰里米可能对这一最新举措的意义说得更多。哦,是的。我的意思是,我认为这是一个非常有趣的举动,它将产生巨大的连锁反应。顺便说一句,这是我们在播客中讨论的第三轮美国出口管制。所以我认为我们应该
庆祝表情符号或其他什么。但是,是的,基本上每年,至少到目前为止,民主党人都会对他们的出口管制制度进行新的更新。我认为他们每次都必须如此详细的原因之一是,他们想要继续玩这种打地鼠游戏,他们使用非常
精细的解剖刀来仔细地剔除他们不想允许出口到中国的技术范围。我认为这实际上是一个问题,直到包括整个公司黑名单的概念。所以让我们从这里开始。所以当你当你查看Envy清单时,对吧,这就是华为臭名昭著地加入的清单
我认为这可能是在2018年开始的,但基本上这是一个你不能在没有许可证的情况下向其销售的实体清单。你不能在没有许可证的情况下向这些实体销售高端半导体设备。问题是这些实体不断地设立你以前从未听说过的子公司,然后很容易地绕过你的出口管制。这种情况一次又一次地发生,这种
同样,Semi Analysis,我之前提到过他们。他们有一篇很棒的文章,名为“晶圆厂打地鼠”,试图确定华为为绕过出口管制而设立的所有子公司。我们看到大量的GPU,高端GPU,进入中国市场,包括H100,以及根据最新更新的A100,这些都是完全被切断的
的……嗯……出口管制。所以……你知道,如果你在听杰里米谈论政策问题,你需要一个白名单,而不是黑名单。这真的、真的需要改变。嗯……但……另一件事是……这个……这个更新……比预期的要轻微。所以有一些日本芯片设备供应商……确实受益于一些更严格的控制。而且……嗯……无论如何,所以……所以有……对不起……
对不起,我刚才自己说过了。有……我将从日本方面开始。对不起。所以有一些日本芯片设备供应商,是的,由于各种不同且有趣的原因而受益于这一轮新的控制,我们应该在硬件剧集中讨论这些原因。但是,
除了实际的Envy清单部分之外,我想强调一下HBM。Leonard Heim在Twitter上对此有一个很好的……嗯……帖子。所以让我们从HBM高带宽内存开始。同样,这是所有尖端GPU的关键组成部分。GPU将有一个逻辑芯片,实际上进行计算。然后它有堆叠的高带宽内存,你知道,以某种方式移动数据,我们稍后会讨论。嗯,
底线是华为不应该访问HBM,或者他们不应该访问HBM2E。这在最近完成的华为Ascend 910B芯片拆解中被发现。这表明HBM是通过这些分销商从三星采购的,对吧?通过华为设立这些以前从未听说过的子公司。看起来
所有华为Ascend 910B都是由
由台积电生产的。所以这是逻辑芯片而不是HBM。这非常重要,对吧?这非常重要。有一段时间,我们在播客中推测,也许华为正在使用中芯国际(SMIC)制造这些芯片,对吧?这是中国国内与台积电相当的企业。好吧,看起来事实并非如此。看起来他们实际上不得不使用台积电。为什么这很重要?这意味着中国国内生产并不
顺利,对吧?这意味着他们在产量或流程的其他方面实际上正在苦苦挣扎。所以他们被迫实际设立这些实体并从台积电获取芯片,这意味着出口管制在某种程度上正在发挥作用,尽管最近有很多
中国的宣传拼命地试图暗示一切都很顺利。这实际上是这个故事中一个有趣的转折。最后我要提到的,外国直接产品规则(FDPR)正在为此应用。所以这是这个想法,你不能向中国销售你的设备、你的半导体设备、你的芯片等等,如果它们是唯一使用
任何数量的美国技术制造的,至少这是他们为此选择的阈值。基本上,外国直接产品规则的阈值为0%。所以基本上,如果你的东西使用了任何美国技术,你就需要获得许可豁免。有趣的是,他们确实为日本和荷兰提供了例外,这有点有趣。
嗯,但是……无论如何……就是这样。这是人们想知道的一个大红线,你知道,他们是否会越过这条线?所以……嗯……
无论如何,各种各样的东西,我认为我们应该在讨论硬件剧集时更详细地讨论这些东西,因为这里也有关于半导体制造设备和EUV的东西非常重要。但现在,我就先说到这里,因为我们必须在某个时候结束这一集。是的,是的。硬件剧集必须是我们迄今为止最好的作品,老实说。我们已经把它吹捧得这么高了,我们正在为此付出很多努力。
嗯,非常相关的一个后续故事,几乎直接相关。下一个故事是中国对美国的这种限制做出了报复。他们表示,某些矿物的出口,包括镓、锗、锑和其他一些矿物,禁止向美国出口。所以,
美国不能拥有这些矿物,并且对石墨的出口有更严格的限制和控制。石墨用于电池。中国是其主要供应国,全球77%的供应来自那里。据我所知,这似乎是一个相当大的反击和相当大的报复,尽管我知道什么?
是的,我认为,谁知道呢?我的意思是,美国面临的挑战部分是我们能够生产很多这些东西。我们只是由于各种原因没有这样做。我们一些最重要的关键矿产矿山实际上也是中国所有的。有……
非同寻常和极其痛苦的政策失败的遗产导致了这种依赖。但为了让你了解,是的,中国目前生产了全球98%的镓,60%的锗。你应该问自己的一个问题是,好吧,这为什么重要?这些东西实际上有什么用?所以当你特别考虑镓时,这可能是对AI芯片最重要的一种。氮化镓
用于AI加速器的电力输送系统。对于GPU、TPU等等。仅仅是因为……无论如何,它从传导和热力学角度来看具有良好的特性。所以是的,这是一个非常大的问题。另一个是
砷化镓方面。所以一些芯片使用砷化镓进行高速互连和射频方面的工作。所以这就是镓相当……相当核心,就其对电力等方面的重要性而言。
锗也很重要,因为你确实看到硅锗在AI芯片和内存之间的高速通信接口中被广泛使用。所以这些实际上非常核心。我的意思是,它不是输入,比如
如果我们进行放松管制,我们真的可以将很多这些东西本地化,但是我们已经……我们已经把自己置于一个……一个真正的困境中。嗯……而且……我认为这是……你知道……你会看到特朗普政府介入,并……并……嗯……
这也是中国共产党发出的一种警告,说,嘿,特朗普政府即将上任。我们不想看到他们看到我们屈服于他们的出口管制。他们只是……你知道……拜登政府刚刚像我们刚才讨论的那样,实施了第三轮更严格的出口管制。所以现在我们想尝试摆出一副姿态,说,嘿,你知道,我们将……我们将用我们自己的东西来回应。是的。
这最终有多有效还有待观察,但这是一种警告。我们将看看这是否与唐纳德掌权的情况相符。但无论如何,这是一个有趣的针锋相对的举动,当然也呼吁美国弄清楚其在关键矿物和稀土的国内生产方面的策略。
然后进入闪电轮,还有一些事情需要讨论。首先,我们有这样一个故事,即OpenAI正在与Enduril合作向美国军方提供AI。我不知道你怎么发音,Enduril。Enduril是一家国防初创公司。好的,Enduril,我相信你的说法。
他们,我相信,从事防空系统和无人机的工作。因此,看来他们现在正在合作改进这些产品。因此,通过Endural与美国军方合作,我们已经看到了类似的情况……
那个以P开头的另一个是什么?Palantir,是的。Palantir,没错。是的,人工智能领域和整个科技领域似乎正在逐渐接受与国防领域合作的想法。这只是一个很好的例子。
是的。我认为这还……我的意思是,这会迅速牵涉到很多政治考虑和人们的意识形态。但这过去对谷歌来说一直是一个招聘挑战,对吧?当你聘用了一群不喜欢与国防部合作的人时,如果你然后进行合作,你会遇到抗议。这就是在
Maven项目中发生的事情,这是谷歌在2018年与国防部合作的著名项目。你有很多罢工,很多抗议,诸如此类的事情。当然,你知道,美国的对手也在这样做。所以如果我们根本不做这件事,那么我们很快就会陷入困境。但是有……你知道……关于如何去做的问题等等。而且
我想我也有偏见,就像任何人一样。是的,Minar,你可能确实希望美国科技公司与国防部进行密切合作,以便我们处于能力的前沿。尽管存在明显的伦理问题等等,但这并不是一件简单的事情。但底线是,
是的,开阔视野,改变方向。他们过去有一项政策,确实表示,你知道,我们不会做这种事情。所以看到他们朝这个方向发展很有趣。我认为Anthropic最近也采取了类似的举动。你正在谈论Palantir,我试图回忆,我很尴尬地说,我不记得是不是Anthropic,
我认为他们没有与Palantir合作。我认为有一些关于使他们的东西可用的内容。是的,这是政策的改变。我不知何故也忘记了究竟是谁与Palantir合作。新闻太多了。是的,记住太多了。但这确实是该领域中的另一个例子。
可能相关,也可能不相关,不确定,肯定与我们在过去几个月里在这个部分讨论的很多事情相关。这个故事再次是关于OpenAI和另一位人工智能安全研究人员辞职,并且再次表明这并非因为他们的个人原因。这确实是由于OpenAI发生的事情。
这位安全研究人员是Rosie Campbell。她……
发表了一篇博客文章。她在那里工作了几年,包括与Miles Brandage一起工作,他是AGI准备团队的负责人,他也离开了,并基本上表示OpenAI已经走上了一条他再也无法有效地完成他认为需要为AGI做的事情的道路。
人工智能安全似乎是这里相同的核心信息,她担心公司的发展轨迹和安全措施。所以,你知道,添加到趋势中。当然,我们不知道OpenAI内部究竟发生了什么,但在过去的几个月里,已经有很多人工智能安全人员离开了。是的,这有点好笑。我的意思是,当你与实验室的人交谈时,就像……
有一种感觉,即……嗯……实验室正在淘汰很多不仅……不仅最关心安全和安全的人,顺便说一句,我认为这一点被低估了。嗯……但是……
但是是的,他们就像引进了所有这些产品人员,并开始考虑,A,将AGI作为一个产品,B,通过以下视角来构建所有这些中国竞争问题:是的,让我们在能力方面加速发展,而没有真正跟踪当前情况。我会说这是我的观点。这是我和我的团队一年多来一直在从事的一个项目。
Open AI的安全性和广泛的前沿实验室安全性很糟糕。我的意思是,如果Open AI甚至相信自己的营销,即他们正在构建超级智能,他们正在朝着这个方向发展,那么他们拥有完全不合适的安全级别,我很难想象他们没有被中国共产党完全渗透到……正如马克·安德烈森所说,被渗透的程度。
就像每天或每周下载模型训练检查点一样。在我看来,在这个阶段,这种事情完全是可能的。嗯……
无论你是否与研究人员本人交谈,就像有很多举报者那样,OpenAI也有人这样说过,还有国家安全专家会告诉你,从渗透和间谍的角度来看,大致的左边界和右边界是什么,以及技术上能做什么,以及正在做什么,比如中国在很多方面到底有多咄咄逼人,所以我认为这是一个……
你知道,我们还没有听到这件事的最后消息。他们就像在出色地进行着例行公事
就像他们的安全人才一样。我认为,就OpenAI仅仅的技术能力而言,要跟上安全形势,已经存在一定的差距,因为许多关心此事的人都离开了。所以,是的,我的意思是,在这个维度上,这是一个有点向下螺旋的趋势。我认为Ilya Sutskiver和John Shulman以及所有那些非常重要的人物……
Mira Marati,名单还在继续,也很重要。我认为这一切都是其中的一部分。无论如何,那个模因复合体。就是这样。没错。这篇博文,你知道,它并不太辛辣,但与此同时,它非常清楚地表明存在不匹配。就像Miles Brundage一样,
这段话的意思是,Campbell认为她没有地方继续做这种工作,而她一直在OpenAI内部做这项工作。还说,作为对OpenAI其他人的两分钱建议,记住使命不仅仅是构建AGI。为了确保它造福人类,还有很多事情要做。
我认为,这可能在很大程度上说明了正在发生的事情。对构建AGI的兴奋如此之高。使命是构建AGI以造福全人类,但也许构建AGI现在绝对是当务之急。接下来,让我们稍微离开一下OpenAI的戏剧性事件,转向一篇与安全相关的研究论文,并提醒我们为什么安全是我们应该关心的事情。
这篇论文的标题是“在针对用户反馈优化LLM时关于有针对性的操纵和欺骗”。高级别的快速总结是,你可以训练你的LLM做人们想要的事情,用户想要的事情,例如说,“这帮助了我。很好。多做一些这样的事情。点赞。”或者你可以表达负面评价。
在强化学习和反馈博弈的一般优化中,有一个众所周知的现象,其中LLM可以找到一种以某种不恰当的方式获得奖励的方法。以一种获得更多奖励的方式,但这可能不是你想要的,甚至可能恰恰是你不想看到的。
因此,在这个例子中,它可能会操纵人们并欺骗他们以获得高额奖励。他们确实发现这种情况在有反馈的情况下可靠地发生。我相信,Jeremie,你在这里挑选出了一些有趣的东西。
是的,他们在这里探索的维度也是如此,对吧?就像历史上我们所看到的那样,在训练过程中,你会得到很多评分者,对吧,来对模型进行反馈。如果你这样做,最终模型会学习做一些事情并说出一些事情来获得
评分者的点赞,但不一定是真实的或准确的等等,对吧?所以这是一种失败模式。我们在Claude中看到了这一点的体现,对不起,Anthropic有一系列论文讲述了Claude是如何奉承的。他们有很多不同类型的奉承,模型扮演着,就像你提升你的自我形象等等来获得点赞,以相当病态的方式与奖励破解相关。这有点不同。
所以这是关于模型从最终用户反馈中实时训练,以优化这些点赞,而不仅仅是在部署前的训练过程中从评分者那里获得。所以问题是,这个问题集是否可以推广到这种新的环境中,人们实时地,就像你一样,
用户反馈被用来优化。基本上,是的,就像你的ET一样,当你收到消息时,你可以点赞,诸如此类。没错。
没错。是的,就是这样。他们给出了一些非常有趣的例子。所以他们所做的是,他们发现模型会故意撒谎关于成功的预订,例如,如果他们被要求预订航班或酒店,即使系统出现错误,当系统错误阻止预订完成时。所以……
所以他们尝试的是阻止模型直接撒谎,他们为此采取了安全措施。但是当他们这样做时,模型学习了更微妙的操纵策略,例如试图劝退用户完全不预订。基本上,你就在那里,你说,“嘿,我想去开曼群岛。”而模型意识到,“哦,糟糕,我无法预订酒店。没有空房间或其他什么。所以让我试着说服用户
用户不去开曼群岛。你真的想去开曼群岛吗?一年中的这个时候有点冷,诸如此类。所以这有点引人入胜,所有你可能期望的事情实际上,不幸的是,随着这些模型变得越来越强大,它们往往变得更擅长混淆、应用等等。我们显然会更多地讨论这个问题,我想下周,如果可以的话,我认为我们应该讨论一下
01模型卡或系统卡,因为有很多有趣的例子都是朝着这个方向发展的。但是正如我们所讨论的,这是在一个非常特殊的优化方案的背景下,它是最终用户的评分。他们发现,即使是很小一部分易于操纵的最终用户也可以教会模型进行操纵。所以这是一种非常普遍的行为模式。
还有一个故事。这个故事与一个曾经经常被我们提及,但最近没有太多讨论的主题有关。它是关于人工智能和选举虚假信息。并且
新闻是,Meta现在发布了一份关于虚假信息的报告。在这份报告中,他们说,在2024年全球选举(包括美国总统选举)中,人工智能生成的內容似乎在其平台上的选举虚假信息中所占比例不到1%。因此,人们对人工智能生成的內容情况有很多担忧。
使廉价地进行大量虚假信息变得更容易。
根据这份报告,至少看起来,这样做的不良行为者不一定在这样做。这可能不像许多人认为的那样是一个大问题,这在轶事上似乎是事实。似乎没有人觉得人工智能与选举有什么关系。
是的,评估什么是人工智能生成的內容,什么不是人工智能生成的內容也很棘手。我们讨论过这个问题,但是当你有一些生成的短文本时,实际上有一个相当严格的限制,即你能够多可靠地评估它是否是人工智能生成的。所以我认为这里有一些问题。但是也……
如果你少于1%,大约1%,一个很大的问题是,这1%集中在哪里?如果你专门针对某些地区的摇摆选民,无论如何,你实际上会期望一个有效的宣传活动不会涉及摇摆
你知道,互联网上大量的代理虚假信息等等,就像你所期望的那样,你会期望一个更有针对性的行动,就像,你知道,竞选活动,总统竞选活动只关心威斯康星州、佛罗里达州和佐治亚州的实际情况,你知道,那些摇摆州。
这些人也会这样做。并且会进一步加倍努力,他们只会关心这些州中决定选举结果的少数几个县的情况。而在其中,实际上是可以改变的少数几个群体。所以你可以在一个小国家进行一次非常有针对性的行动。
美国选民的一个子集,这是非常有效的。话虽如此,我很乐意说,我的意思是,不到1%可能比我预期的要少,作为一个整体衡量标准。我只是不知道这个数字有多可靠,以及它到底能被抛到多远,如果你知道我的意思的话。没错。是的。他们似乎没有透露太多关于他们如何得到这个数字的信息,也许那里有一些不确定性,但是
无论如何,当然,我认为深度伪造、人工智能生成的图像并没有发挥很大的作用。也许下一代可能加快了或帮助了一些这些行动,但是这些类型的行动确实存在。他们还表示,他们已经从世界各地撤下了20个这样的行动,作为一个例子。
就是这样,相当完整的一集。感谢你坚持到最后。我知道我们可能进展得很快。和往常一样,如果你想更深入地了解这些故事中的任何一个,你可以查看剧集说明或访问lastweekin.ai,我们也在那里发布我们的文本通讯。
我们始终感谢你们的评论。这一集中有很多内容,所以请随时发表评论。当然,也请随时留下评论。我们始终感谢五星好评和任何关于我们如何改进的反馈。但最重要的是,我们喜欢人们收听,所以请继续这样做。♪♪♪
♪♪♪
♪♪♪ ♪♪♪ ♪♪♪ ♪♪♪
♪♪♪