Last Week in AI #189 - Chat.com, FrontierMath, Relaxed Transformers, Trump & AI

2024/11/17

Last Week in AI

AI Deep Dive AI Chapters Transcript

People

Andrey Kurenkov

Jeremie Harris

Topics

@Andrey Kurenkov 介绍了 OpenAI 的新功能"预测输出"，该功能可以显著提高 GPT-4 在特定任务上的速度。@Jeremie Harris 补充解释了该功能背后的技术细节，即推测解码，并分析了其工作原理和优势。该功能通过并行处理多个候选 token，并固定输入中不需要修改的部分，从而提高了效率并降低了成本。此外，Andrey Kurenkov 还提到了 Barnaby AI 与 OpenAI 的合作测试，证实了该功能在实际应用中的有效性。关于 Anthropic 的 Haiku 3.5，Andrey Kurenkov 指出其价格上涨，并分析了其定价策略。Jeremie Harris 则认为 Haiku 3.5 的高定价反映了大型语言模型市场可能并非完全商品化，因为 Anthropic 正在根据质量而非成本进行定价。

Deep Dive

Chapters

This chapter discusses recent updates in AI tools and apps, including OpenAI's 'Predicted Outputs' feature, Anthropic's Haiku 3.5 price hike, and the introduction of FLUX1.1 Ultra and Raw Modes.

OpenAI's 'Predicted Outputs' feature speeds up GPT-4o by ~5x for tasks like editing docs or refactoring code.
Anthropic raises eyebrows with a price hike for Haiku 3.5, citing increased intelligence.
FLUX1.1 Ultra and Raw Modes are introduced by Black Forest Labs.

Shownotes Transcript

AI安全书籍“Uncontrollable”，这不是一本末日论书籍，而是阐述了AI安全合理的理由以及我们可以为此做些什么。Max Tegmark表示，“Uncontrollable”是一本引人入胜、平衡且非常及时的著作，探讨了我们时代最重要的问题——今天就在亚马逊上找到它！

(00:01:28) 新闻预览 (00:02:10) 听众评论回应 (00:05:02) 赞助商休息时间工具和应用 (00:07:31) OpenAI推出“预测输出”功能：将GPT-4o的任务速度提高约5倍，例如编辑文档或重构代码 (00:11:55) Anthropic的Haiku 3.5以“智能”价格上涨令专家们感到惊讶 (00:17:10) 推出FLUX1.1 [专业版] 超级和原始模式 (00:19:11) X正在测试GroK AI聊天机器人的免费版本，并在特定地区提供服务

应用和商业 (00:21:39) OpenAI收购Chat.com (00:23:40) 沙特阿拉伯计划斥资1000亿美元建立AI巨头，与阿联酋科技中心竞争 (00:28:28) Meta的Orion前硬件负责人加入OpenAI (00:31:38) OpenAI意外地将其即将推出的o1模型泄露给了拥有特定网页地址的任何人 (00:35:50) Nvidia乘着AI浪潮超越苹果，成为全球最大公司

项目和开源 (00:37:53) “不受限制”的AI组织Nous Research推出首个聊天机器人——带有安全措施 (00:41:48) FrontierMath：突出显示AI在数学方面的局限性的基准 (00:46:29) 腾讯的Hunyuan-Large：一个具有520亿激活参数的开源MoE模型

研究和进步 (00:49:55) 将“Golden Gate Claude”机械可解释性技术应用于蛋白质语言模型。 (00:58:03) 放松的递归Transformer：通过逐层LoRA实现有效的参数共享 (01:05:55) 从午睡到深度睡眠：使用大型语言模型捕获现实世界代码中的漏洞 (01:10:22) 据报道，OpenAI正在开发新的策略来应对AI改进速度放缓

政策和安全 (01:19:52) 唐纳德·特朗普的胜利对AI意味着什么 (01:28:44) 中国公司正在规避美国制裁 (01:33:57) 美国对GlobalFoundries处以罚款，原因是其向受制裁的中国公司运送芯片 (01:36:55) Anthropic与Palantir和AWS合作，向国防客户销售其AI

(01:39:23) 尾声

由Andrey Kurenkov和Jeremie Harris主持。欢迎通过contact@lastweekinai.com和/或hello@gladstone.ai向我们发送您的问题和反馈。请阅读我们的文本通讯并评论播客：https://lastweekin.ai/。赞助商：

AI安全书籍“Uncontrollable”，这不是一本末日论书籍，而是阐述了AI安全合理的理由以及我们可以为此做些什么。Max TEGMARK表示，“Uncontrollable”是一本引人入胜、平衡且非常及时的著作，探讨了我们时代最重要的问题——今天就在亚马逊上找到它！

时间戳+链接：

(00:01:28) 新闻预览 (00:02:10) 听众评论回应 (00:05:02) 赞助商休息时间工具和应用 (00:07:31) OpenAI推出“预测输出”功能：将GPT-4o在编辑文档或重构代码等任务的速度提高约5倍 (00:11:55) Anthropic的Haiku 3.5以“智能”价格上涨令专家们感到惊讶 (00:17:10) 推出FLUX1.1 [专业版] 超级和原始模式 (00:19:11) X正在测试GroK AI聊天机器人的免费版本，并在特定地区进行测试

应用和业务 (00:21:39) OpenAI收购Chat.com (00:23:40) 沙特阿拉伯计划斥资1000亿美元建立AI中心，与阿联酋科技中心竞争 (00:28:28) 元宇宙前Orion硬件负责人加入OpenAI (00:31:38) OpenAI意外地将其即将推出的o1模型泄露给了拥有特定网页地址的任何人 (00:35:50) Nvidia乘着AI浪潮超越苹果，成为全球最大公司

项目和开源 (00:37:53) “不受限制”的AI组织Nous Research推出首个聊天机器人——带有防护措施 (00:41:48) FrontierMath：突出显示AI在数学方面的局限性的基准 (00:46:29) 腾讯的Hunyuan-Large：一个具有520亿激活参数的开源MoE模型

研究和进步 (00:49:55) 将“Golden Gate Claude”机械可解释性技术应用于蛋白质语言模型。 (00:58:03) 放松的递归Transformer：通过层级LoRA实现有效的参数共享 (01:05:55) 从午睡到深度睡眠：利用大型语言模型捕获现实世界代码中的漏洞 (01:10:22) 据报道，OpenAI正在开发新的策略来应对AI改进速度放缓

(01:39:23) 节目结束

人工智能安全书籍“不可控制”，这不是一本末日论书籍，而是阐述了人工智能安全和我们可以为此做些什么的合理论点。Max TEGMARK 表示，“不可控制”是一本引人入胜、平衡且非常及时的著作，探讨了我们时代最重要的问题——今天就在亚马逊上找到它！

时间戳 + 链接：

(00:01:28) 新闻预览 (00:02:10) 听众评论回应 (00:05:02) 赞助商休息时间工具和应用 (00:07:31) OpenAI 推出“预测输出”功能：将 GPT-4o 的速度加快约 5 倍，用于编辑文档或重构代码等任务 (00:11:55) Anthropic 的 Haiku 3.5 以“智能”价格上涨令专家们感到惊讶 (00:17:10) 推出 FLUX1.1 [专业版] 超级和原始模式 (00:19:11) X 正在测试 Grok AI 聊天机器人的免费版本，并在特定地区提供服务

应用和业务 (00:21:39) OpenAI 收购 Chat.com (00:23:40) 沙特阿拉伯计划斥资 1000 亿美元建立人工智能中心，与阿联酋科技中心竞争 (00:28:28) Meta 的 Orion 项目硬件负责人加入 OpenAI (00:31:38) OpenAI 意外地向拥有特定网页地址的任何人泄露了其即将推出的 o1 模型 (00:35:50) Nvidia 乘人工智能浪潮超越苹果，成为全球最大公司

项目和开源 (00:37:53) “不受限制”的人工智能组织 Nous Research 推出首个聊天机器人——带有安全措施 (00:41:48) FrontierMath：突出人工智能在数学领域局限性的基准 (00:46:29) 腾讯的 Hunyuan-Large：一个具有 520 亿激活参数的开源 MoE 模型

研究和进步 (00:49:55) 将“Golden Gate Claude”机械可解释性技术应用于蛋白质语言模型。 (00:58:03) 放松的递归 Transformer：通过层级 LoRA 实现有效的参数共享 (01:05:55) 从午睡到深度睡眠：利用大型语言模型捕获现实世界代码中的漏洞 (01:10:22) 据报道，OpenAI 正在开发新的策略来应对人工智能改进速度放缓

政策和安全 (01:19:52) 唐纳德·特朗普的胜利对人工智能意味着什么 (01:28:44) 中国公司正在规避美国制裁 (01:33:57) 美国对 GlobalFoundries 处以罚款，原因是其向受制裁的中国公司运送芯片 (01:36:55) Anthropic 与 Palantir 和 AWS 合作，向国防客户销售其人工智能

(01:39:23) 节目尾声

由 Andrey Kurenkov 和 Jeremie Harris 主持。欢迎通过 contact@lastweekinai.com 和/或 hello@gladstone.ai 向我们发送您的问题和反馈。请阅读我们的文本通讯并评论播客：https://lastweekin.ai/。赞助商：

人工智能安全书籍“不可控制”（Uncontrollable），这不是一本末日论书籍，而是阐述了人工智能安全和我们可以为此做些什么的合理论点。Max Tegmark 表示，“不可控制”是一本引人入胜、平衡且非常及时的著作，探讨了我们时代最重要的问题——今天就在亚马逊上找到它！

时间戳 + 链接：

(00:01:28) 新闻预览 (00:02:10) 回应听众评论 (00:05:02) 赞助商休息时间工具和应用 (00:07:31) OpenAI 推出“预测输出”功能：将 GPT-4o 的速度加快约 5 倍，用于编辑文档或重构代码等任务 (00:11:55) Anthropic 的 Haiku 3.5 以“智能”价格上涨令专家们感到惊讶 (00:17:10) 推出 FLUX1.1 [专业版] 超级和原始模式 (00:19:11) X 正在测试 Grok AI 聊天机器人的免费版本，并在特定地区提供服务

应用和业务 (00:21:39) OpenAI 收购 Chat.com (00:23:40) 沙特阿拉伯计划斥资 1000 亿美元建立人工智能中心，与阿联酋科技中心竞争 (00:28:28) Meta 的 Orion 前硬件负责人加入 OpenAI (00:31:38) OpenAI 意外地将其即将推出的 o1 模型泄露给了拥有特定网页地址的任何人 (00:35:50) Nvidia 乘人工智能浪潮超越苹果，成为全球最大公司

项目和开源 (00:37:53) “不受限制”的人工智能组织 Nous Research 推出首个聊天机器人——带有安全措施 (00:41:48) FrontierMath：突出显示人工智能在数学方面的局限性的基准 (00:46:29) 腾讯的 Hunyuan-Large：一个具有 520 亿激活参数的开源 MoE 模型

研究和进步 (00:49:55) 将“黄金大门 Claude”机械可解释性技术应用于蛋白质语言模型。 (00:58:03) 放松的递归 Transformer：通过层级 LoRA 实现有效的参数共享 (01:05:55) 从午睡到深度睡眠：利用大型语言模型捕获现实世界代码中的漏洞 (01:10:22) 据报道，OpenAI 正在制定新的策略来应对人工智能改进速度放缓

(01:39:23) 节目结束

那里发现了许多有趣的成功，包括引导模型行为。所以，如果我们做一些叫做钳制的操作，选择其中一个压缩表示的数字。假设它代表香蕉或编码香蕉的概念，我们将人为地提高它的值，然后重建激活。

然后，我们可以让模型根据这些激活生成倾向于香蕉的输出，无论这意味着什么，也许他谈论香蕉很多。这就是黄金大门、克劳德实验，对吧？所以他们找到了对应于金门大桥的入口。

他们将其钳制以赋予其非常高的值。然后，模型会，是的，谈论金门大桥。所以，这里的问题是，如果我们在训练于生物序列数据的变换器上进行同样的操作，并选择一家公司开发的模型，我们会发现同样的情况吗？

E.S.M。抱歉，抱歉，这家名为Evil Scale的公司制作了E S M系列模型，我们几个月前就介绍过它们。非常棒的模型。

顺便说一句，它是第一个达到暴力行政命令报告要求的生物模型。这是一个非常大的模型。他们所做的就是采用该公司构建的较小模型E S M 2，并进行同样的操作。

我们能否选择变换器的中间层，构建一个稀疏的编码器，并恢复人类的解释特征，对吗？我们能否在这个案例中找到特征的相关性，生物分子的共同结构成分或事实？一个常见的例子是α螺旋。

所以，如果你将蛋白质组合在一起，嗯，如果你将氨基酸组合在一起形成蛋白质，它们倾向于形成一种叫做α螺旋的结构，以及它们有时形成的另一种二级结构，叫做β折叠片或其他什么。这些东西会根据你组合的积木类型、氨基酸类型形成各种不同的结构。它们都具有略微不同的电荷，吸引或排斥这些细微之处。

预测实际结构非常困难。在这里，使用这种技术，他们能够发现，好的，在我们的S A中，在那个简化的表示中，我们有一些数字与之相关，哦，这里将会有一个α螺旋。

很多问候或，你知道，β折叠或其他什么。从解释的角度来看，这很有趣。我们可以更多地了解这些蛋白质是如何形成它们所具有的形状的，但他们还发现，通过修改压缩表示中的值，通过这种钳制操作，人为地提高α螺旋数字的值，实际上可以提示模型输出具有更多α螺旋序列的序列。

所以，从蛋白质设计的角度来看，这很有趣，对吧？这是第一个暗示，嗯，好吧，不是第一个，但它与αGo等工具系列一起使用，可以帮助更好地理解蛋白质如何折叠，并实际设计具有特定结构特征的蛋白质。这些蛋白质本来很难设计和应用于生物领域。

我们从一个关于使用大型语言模型来发现现实世界代码中的漏洞的论文开始。这是谷歌项目Zero，这是一个成立已久的团队，致力于寻找所谓的零日漏洞，即代码中尚未被发现或公开的漏洞，黑客可以利用这些漏洞。他们之前曾为该项目做过一些防御安全工作，该项目名为Naptime，评估大型语言模型的攻击能力。

几个月前，他们发布了一篇论文，介绍了大型语言模型辅助研究的工作，并展示了改进网络安全评估基准（来自Meta）性能的潜力。那是在一段时间之前，现在Naptime已经演变为Big Sleep，谷歌项目Zero正在与谷歌DeepMind合作。在这篇论文中，他们宣布了一个非常令人兴奋的结果，来自这个针对漏洞检测优化的LM。

他们通过这个代理发现了SQLight项目中的一个未知的现实世界漏洞，并报告了该漏洞，开发人员修复了该漏洞。据我们所知，这是人工智能首次用于发现现实世界中的漏洞。而且，这篇论文详细介绍了所有内容，每个人似乎都非常重视它，这不是什么微不足道的发现，所以这非常令人兴奋，因为它具有潜在的意义。

是的，还有警告，这些东西实际上可以发现现实世界的漏洞。这总是有点双刃剑，但是的，这是一个很大的问题，在关于人工智能及其风险的讨论中。我与人争论过，我说，我们还没有看到人工智能系统成功地发现现实世界系统的零日漏洞。

因此，现在我们有了，我想知道应用是什么，但已经有一些试点研究。我们已经讨论过一些发现。首先，有一种是已知漏洞，你只是利用人工智能来利用它，然后是零日漏洞，即真正从头开始在某种程度上更玩具化的环境中发现漏洞。然而，这是现实世界，这是在SQLight这样的现实世界项目中发现漏洞。这是一个非常流行的库，这是一个有趣的漏洞和有趣的利用方法。

现在，指针和引用，基本上你有一个指向内存地址的指针，这个漏洞允许你控制它指向的内容，所以这基本上允许你控制写入或读取内存的内容，原则上这允许攻击者执行任意代码，基本上如果你只是将指针指向一些特定的缓冲区空间或一些相邻的内存，你可能能够实际提取数据并将其用于任何目的。除了这些之外，还有很多，比如让应用程序崩溃，对吧？只是让指针或其他什么东西乱了套，它就不工作了。

嗯，所有这些有趣的事情，他们都介绍了这个漏洞是如何工作的。我认为这比我们目前最好的技术（包括模糊测试，你基本上将所有东西都扔到你的应用程序或软件中，看看是否有任何东西会崩溃）有了很大的改进。很明显，这是一个由思考的人工智能系统支持的更聪明的方法。嗯，非常酷，顺便说一句，这是一个在经过150个CPU小时的模糊测试后仍然未被发现的漏洞。

所以人们已经多次尝试过这些标准技术，这很有意义。这是一个流行的库。但是这些技术失败了。这是哪里？由...支持。

还有一个关于进展的案例。这个不是关于进步，而是关于缺乏进步和一些未知的研究。

啊，所以这是关于OpenAI的报告，其中部分内容是关于他们正在努力应对人工智能改进速度放缓的问题。

所以，OpenAI一直在开发类似GPT-5的即将推出的模型，但进展缓慢。根据报告，它似乎没有像以前版本那样显示出显著的改进。

所以，从GPT-3到GPT-4，有巨大的改进。GPT-3相当令人印象深刻。

GPT-4更令人印象深刻。GPT-4现在已经有一年半了。自从GPT-4发布以来，我们还没有出现过类似的飞跃。除了也许你可以说，通过引入推理时间计算，我们看到了相当显著的质量提升。

无论如何，来自OpenAI的报告称，通常使用的更多数据、更多计算和更大规模的方法可能不如以前有效。当然，新训练数据的缺乏是一个问题。

互联网的大部分内容已经被吸收和调查，据报道，OpenAI内部有一个新的基础团队正在寻找除了简单地收集更多数据之外的替代方案，例如通过人工智能模型生成更多合成数据。OpenAI对此没有发表评论，并且之前表示今年没有计划发布GPT-5或类似的东西。所以，你可以用怀疑的眼光来看待它，但也许并不令人惊讶。

我认为这是关于规模讨论中非常有趣的部分，对吧？所以，当我们谈论规模诅咒时，我们通常指的是模型的下一个词预测准确性如何随着更多数据、更多计算而提高，对吧？这并不能告诉你这种改进在预测下一个词的准确性上如何，并不一定能告诉你模型的总体实用性，或者它在推理等方面有多好。

所以，你有一个非常强大的定律，它告诉你模型在预测下一个标记方面变得更好。但是，关于该过程中创造的价值存在不确定性。这是一个不确定性的维度。

在不知道GPT-5的情况、训练数据是什么、它的目标是什么（它似乎不是一个推理系统）的情况下，很难知道我刚才描述的是不确定性中的重要部分，还是只是推理模型和推理部分没有奏效。根据我看到的，它更有可能是前者，这实际上是GPT-5的预训练模型，而不是一个纯粹的推理模型，它更倾向于推理时间改进，而我们现在也有单独的推理时间定律来补充训练时间定律。这可能足以做一些非常有趣的事情，但是，嗯，关于OpenAI有很多有趣的信息。

据报道，当GPT-5的训练运行仅完成20%时，Sam对此非常兴奋，并不断谈论它将是一件大事，但这种炒作似乎并没有实现。这实际上是这里的一个问题。还有关于这些东西是在什么硬件上训练的问题，以及OpenAI目前正在运行的100个舰队规模的训练运行情况，以及他们在这方面投入了多少规模。

很难知道。嗯，更一般地说，因为他们正在建立一个基础团队来探索更深层次的问题。如果默认路径是规模，工程路径会称之为“更快地制造马”，对吧？

如果这不起作用，我们该怎么办，对吧？我认为在这种情况下，OpenAI在过去两年中实际上处于一种非常尴尬的境地，对吧？他们已经失去了。

我认为更准确地说，他们失去了很多最好的算法设计人才，对吧？所以，很多Elia Sesc离开了。是的，我们看到安全团队的人离开了，我们看到，嗯，实际上有很多人才，包括产品团队，最近也有一些人离开了。有很多非常优秀的人去了Anthropic。

所以，如果情况确实如此，我们正在从一个利用范式（换句话说，在工程方面做得很好，让规模发挥作用）的领域转向一个寻找新想法的领域，那么人才可能会成为主要的限制因素，在这种情况下，Anthropic看起来就非常有趣，对吧？现在有很多公司可能都在竞争。与此同时，OpenAI受到与微软的关系的限制，在最近的投资者沟通中，微软根本没有提到OpenAI的未来。

对吧？这是一个巨大的变化。嗯，随着这种情况的发生，OpenAI被迫与甲骨文等公司合作开发基础设施，因为微软似乎无法满足他们的需求。

那里存在紧张关系。这开始变得非常有趣。他们必须找到一种方法来解决这个问题。

他们必须找到一种方法来继续筹集资金，他们必须找到一种方法来继续扩展，以及这值得什么。然后他们必须留住人才。

嗯，如果这变成了OpenAI的一个非常重要的结构性挑战，如果他们对规模的依赖过重，那将很有趣。但是，这都是推测。直到模型开始发布，我们才能知道。坦率地说，我认为当GPT系列的模型在明年上线时，我们看到那些大型集群运行时，我认为该领域的所有人都预计早期测试将带来显著的性能改进，我怀疑人们会回头看看规模是否真的重要。但是，如果情况并非如此，那么对OpenAI的影响至少是很有趣的。

没错，同样值得注意的是，这不仅仅是OpenAI的问题，这是一个普遍存在的问题，即人工智能是否能够扩展，部分原因是训练数据耗尽，这在一段时间内一直是人们的猜测。

人工智能安全书籍“不可控制”，这不是一本末日论书籍，而是阐述了人工智能安全合理的理由以及我们可以为此做些什么。Max Tegmark 表示，“不可控制”是一本引人入胜、平衡且非常及时的著作，探讨了我们时代最重要的问题——今天就在亚马逊上找到它！

时间戳 + 链接：

研究和进步 (00:49:55) 将“黄金之门 Claude”机械可解释性技术应用于蛋白质语言模型。 (00:58:03) 放松的递归 Transformer：通过层级 LoRA 实现有效的参数共享 (01:05:55) 从午睡到深度睡眠：利用大型语言模型捕获现实世界代码中的漏洞 (01:10:22) 据报道，OpenAI 正在开发新的策略来应对人工智能改进速度放缓

(01:39:23) 节目尾声

时间戳 + 链接：

研究和进步 (00:49:55) 将“黄金之门 Claude”机械可解释性技术应用于蛋白质语言模型。 (00:58:03) 放松的递归 Transformer：通过逐层 LoRA 实现有效的参数共享 (01:05:55) 从午睡到深度睡眠：利用大型语言模型捕获现实世界代码中的漏洞 (01:10:22) 据报道，OpenAI 正在开发新的策略来应对人工智能改进速度放缓

政策和安全 (01:19:52) 唐纳德·特朗普的胜利对人工智能意味着什么 (01:28:44) 中国公司正在规避美国制裁 (01:33:57) 美国对 GlobalFoundries 处以罚款，原因是该公司向受制裁的中国公司运送芯片 (01:36:55) Anthropic 与 Palantir 和 AWS 合作，向国防客户销售其人工智能

(01:39:23) 节目结束

Last Week in AI #189 - Chat.com, FrontierMath, Relaxed Transformers, Trump & AI 01:42:46 Share

Last Week in AI

Deep Dive

Shownotes Transcript

Last Week in AI #189 - Chat.com, FrontierMath, Relaxed Transformers, Trump & AI