#189 - Chat.com, FrontierMath, Relaxed Transformers, Trump & AI

2024/11/17

Last Week in AI

Andrey Kurenkov

@Andrey Kurenkov 介绍了 OpenAI 的新功能“预测输出”，该功能可以显著提高 GPT-4o 在特定任务上的速度。他还提到了 Anthropic 将 Haiku 3.5 的价格提高了四倍，引发了对大型语言模型经济效益的讨论。@Jeremie Harris 补充解释了推测解码技术的原理及其在实际应用中的优势，并分析了 Anthropic 定价策略背后的市场逻辑和对 AI 模型商品化程度的影响。

Deep Dive

Chapters

OpenAI acquires the domain chat.com and former Meta hardware lead joins OpenAI to focus on robotics and AI integration into physical products.

OpenAI acquires chat.com domain for a significant sum.
Former Meta hardware lead Kevin Colangelo joins OpenAI to focus on robotics and AI integration.
OpenAI's strategy includes integrating ChatGPT into robots and physical products.

Shownotes Transcript

* 沙特阿拉伯计划开展一项价值 1,000 亿美元的 AI 计划，旨在与阿联酋的科技中心竞争，凸显该地区日益增长的 AI 投资。 * 美国对 GlobalFoundries 的处罚，因其违反了针对中芯国际的制裁，突显了在执行 AI 芯片出口管制方面面临的持续挑战。 * Anthropic 与 Palantir 和 AWS 合作，将 CLAWD 集成到国防环境中，标志着该公司政策的重大转变。

The AI safety book “Uncontrollable" which is not a doomer book, but instead lays out the reasonable case for AI safety and what we can do about it. Max TEGMARK said that “Uncontrollable” is a captivating, balanced, and remarkably up-to-date book on the most important issue of our time" - find it on Amazon today!

Timestamps + Links:

(00:01:28) News Preview (00:02:10) Response to listener comments (00:05:02) Sponsor Break Tools & Apps

(00:11:55) Anthropic’s Haiku 3.5 surprises experts with an “intelligence” price increase (00:17:10) Introducing FLUX1.1 [pro] Ultra and Raw Modes (00:19:11) X is testing a free version of Grok AI chatbot in select regions

Applications & Business

(00:23:40) Saudis Plan $100 Billion AI Powerhouse to Rival UAE Tech Hub (00:28:28) Meta’s former hardware lead for Orion is joining OpenAI (00:31:38) OpenAI Accidentally Leaked Its Upcoming o1 Model to Anyone With a Certain Web Address (00:35:50) Nvidia Rides AI Wave to Pass Apple as World’s Largest Company

Projects & Open Source

(00:41:48) FrontierMath: The Benchmark that Highlights AI’s Limits in Mathematics (00:46:29) Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Research & Advancements

(00:58:3) Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA (01:05:55) From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code (01:10:22) OpenAI reportedly developing new strategies to deal with AI improvement slowdown

Policy & Safety

(01:28:44) Fab Whack-A-Mole: Chinese Companies are Evading U.S. Sanctions (01:33:57) US fines GlobalFoundries for shipping chips to sanctioned Chinese firm (01:36:55) Anthropic teams up with Palantir and AWS to sell its AI to defense customers

(01:39:23) Outro

* OpenAI's acquisition of chat.com and internal shifts, including hardware lead hire and hardware model leaks, signal significant strategy pivots and challenges with model scaling and security. * 沙特阿拉伯计划开展价值 1000 亿美元的 AI 计划，旨在与阿联酋的科技中心竞争，凸显该地区日益增长的 AI 投资。 * 美国对 GlobalFoundries 的处罚，因其违反了针对中芯国际的制裁，突显了在执行 AI 芯片出口管制方面面临的持续挑战。 * Anthropic 与 Palantir 和 AWS 合作，将 CLAWD 集成到国防环境中，标志着该公司政策的重大转变。

Timestamps + Links:

(00:01:28) News Preview (00:02:10) Response to listener comments (00:05:02) Sponsor Break Tools & Apps

Applications & Business

(00:23:40) 沙特阿拉伯计划建立 1000 亿美元的 AI 中心，与阿联酋科技中心竞争 (00:28:28) 元宇宙前 Orion 硬件负责人加入 OpenAI (00:31:38) OpenAI 意外地将其即将推出的 o1 模型泄露给了拥有特定网页地址的任何人 (00:35:50) Nvidia 乘着 AI 浪潮超越苹果成为全球最大公司

Projects & Open Source

(00:41:48) FrontierMath：突出显示 AI 在数学方面的局限性的基准 (00:46:29) 腾讯的开源 MoE 模型 Hunyuan-Large，激活参数达到 520 亿

Research & Advancements

(00:58:3) 放松递归变换器：使用逐层 LoRA 实现有效的参数共享 (01:05:55) 从午睡到深度睡眠：使用大型语言模型捕获真实世界代码中的漏洞 (01:10:22) OpenAI 据称正在制定新的策略来应对 AI 提升速度放缓

Policy & Safety

(01:28:44) 中国公司正在规避美国制裁 (01:33:57) 美国对 GlobalFoundries 处以罚款，因其向受制裁的中国公司运送芯片 (01:36:55) Anthropic 与 Palantir 和 AWS 合作，向国防客户销售其 AI

(01:39:23) Outro

Hosted by Andrey Kurenkov and Jeremie Harris. Feel free to email us your questions and feedback at contact@lastweekinai.com and/or hello@gladstone.ai Read out our text newsletter and comment on the podcast at https://lastweekin.ai/. In this episode: * OpenAI's acquisition of chat.com and internal shifts, including hardware lead hire and hardware model leaks, signal significant strategy pivots and challenges with model scaling and security. * 沙特阿拉伯计划斥资 1000 亿美元的 AI 计划，旨在与阿联酋的科技中心竞争，凸显该地区日益增长的 AI 投资。 * 美国对 GlobalFoundries 的处罚，因其违反了针对中芯国际的制裁，突显了在执行 AI 芯片出口管制方面面临的持续挑战。 * Anthropic 与 Palantir 和 AWS 合作，将 CLAWD 集成到国防环境中，标志着该公司政策的重大转变。 Sponsors:

Timestamps + Links:

(00:01:28) News Preview (00:02:10) Response to listener comments (00:05:02) Sponsor Break Tools & Apps

Applications & Business

(00:23:40) 沙特阿拉伯计划斥资 1000 亿美元的 AI 计划，旨在与阿联酋的科技中心竞争 (00:28:28) 元宇宙前 Orion 硬件负责人加入 OpenAI (00:31:38) OpenAI 意外地将其即将推出的 o1 模型泄露给了拥有特定网页地址的任何人 (00:35:50) Nvidia 乘着 AI 浪潮超越苹果成为全球最大公司

Projects & Open Source

(00:41:48) FrontierMath：突出人工智能在数学领域局限性的基准 (00:46:29) 腾讯的开源 MoE 模型 Hunyuan-Large，激活参数达到 520 亿

Research & Advancements

(00:58:03) Relaxed Recursive Transformers：有效地进行层级 LoRA 参数共享 (01:05:55) 从午睡到深度睡眠：使用大型语言模型来发现现实世界代码中的漏洞 (01:10:22) OpenAI 据称正在制定新的策略来应对 AI 提升速度放缓

Policy & Safety

(01:39:23) Outro

由 Andrey Kurenkov 和 Jeremie Harris 主持。欢迎通过 contact@lastweekinai.com 和/或 hello@gladstone.ai 向我们发送您的问题和反馈。请阅读我们的文本通讯并评论播客：https://lastweekin.ai/。

* OpenAI 收购 chat.com 并进行内部调整，包括硬件负责人招聘和硬件模型泄露，这预示着重大战略转变以及模型扩展和安全方面的挑战。 * 沙特阿拉伯计划斥资 1,000 亿美元开展人工智能计划，旨在与阿联酋的科技中心竞争，凸显该地区日益增长的 AI 投资。 * 美国对 GlobalFoundries 的处罚，因其违反了针对 SMIC 的制裁，突显了在执行人工智能芯片出口管制方面持续存在的挑战。 * Anthropic 与 Palantir 和 AWS 合作，将 CLAWD 集成到国防环境中，标志着该公司政策的重大转变。

人工智能安全书籍“不可控制”（Uncontrollable），这不是一本末日论书籍，而是阐述了人工智能安全合理的案例以及我们可以为此做些什么。Max Tegmark 表示，“不可控制”是一本引人入胜、平衡且极具时效性的著作，探讨了我们时代最重要的问题——现在即可在亚马逊上找到！

时间戳 + 链接：

(00:01:28) 新闻预览 (00:02:10) 听众评论回应 (00:05:02) 赞助商休息时间工具和应用

(00:11:55) Anthropic 的 Haiku 3.5 以“智能”价格上涨令专家们感到惊讶 (00:17:10) 推出 FLUX1.1 [专业版] 超级和原始模式 (00:19:11) X 正在部分地区测试 Grok AI 聊天机器人的免费版本

应用和业务

(00:23:40) 沙特阿拉伯计划建立 1,000 亿美元的人工智能中心，与阿联酋科技中心竞争 (00:28:28) Meta 的 Orion 项目硬件负责人加入 OpenAI (00:31:38) OpenAI 意外地向拥有特定网页地址的任何人泄露了其即将推出的 o1 模型 (00:35:50) Nvidia 乘人工智能浪潮超越苹果，成为全球最大公司

项目和开源

(00:41:48) FrontierMath：突出人工智能在数学领域的局限性的基准 (00:46:29) 腾讯的 Hunyuan-Large：一个具有 520 亿激活参数的开源 MoE 模型

研究和进步

(00:58:03) Relaxed Recursive Transformers：有效地进行层级 LoRA 参数共享 (01:05:55) 从午睡到深度睡眠：利用大型语言模型捕获真实世界代码中的漏洞 (01:10:22) 据报道，OpenAI 正在制定新的策略来应对人工智能改进速度放缓

政策和安全

(01:28:44) 中国公司正在规避美国制裁 (01:33:57) 美国对 GlobalFoundries 处以罚款，因其向受制裁的中国公司运送芯片 (01:36:55) Anthropic 与 Palantir 和 AWS 合作，向国防客户销售其人工智能

(01:39:23) 尾声

这里发现了一些有趣的成功案例，包括控制模型行为。如果我们进行所谓的“钳制”，选择压缩表示中的一个数字，比如代表香蕉的数字，人为地提高它的值，然后重建激活值。

我们可以让模型根据这些激活值生成倾向于“香蕉”的输出，无论这意味着什么，例如，如果模型谈论很多香蕉。这就是“金门桥”实验，对吧？他们找到了对应于金门大桥的入口。

他们提高了它的值，然后模型就谈论金门大桥。那么，如果我们研究在生物序列数据上训练的Transformer，会发现同样的情况吗？

抱歉，抱歉，这家公司（Evil Scale）制作了ESM系列模型，我们几个月前就介绍过它们。非常棒的模型。

顺便说一句，这是第一个满足暴力行政命令报告要求的生物序列模型。这是一个非常大的模型。他们使用该公司构建的较小模型ESM 2，并进行了同样的操作。

我们可以提取Transformer的中层，构建一个稀疏的编码器，并恢复人类的解释特征，对吧？我们可以找到生物分子中相关特征、共同结构成分或事实。一个常见的例子是α螺旋。

如果你将氨基酸连接在一起形成蛋白质，某些类型的氨基酸倾向于形成α螺旋结构，另一种常见的二级结构是β折叠。这些结构取决于你连接的氨基酸类型，它们具有不同的电荷，吸引或排斥。

预测实际结构非常困难。使用这种技术，他们能够在简化表示中找到一些数字，表明这里将出现α螺旋。

很多信息，或者说，很多关于α螺旋或其他内容的信息。从解释的角度来看，这很有趣。我们可以更好地理解这些蛋白质为什么以这种形状存在。他们还发现，通过修改压缩表示中的值，例如人为地提高α螺旋值的，可以提示模型输出更多包含α螺旋的序列。

这从蛋白质设计角度来看很有趣，对吧？这是第一个暗示，嗯，除了αGo之外，还有其他工具可以帮助我们更好地理解蛋白质折叠方式，并设计具有特定结构特征的蛋白质。这些蛋白质通常很难设计，但现在可以设计并应用于生物领域。

我们从一个关于使用大型语言模型来发现现实世界代码中的漏洞的论文开始。这是谷歌项目Zero，这个团队已经存在一段时间了，致力于发现代码中未知的漏洞，黑客可以利用这些漏洞。这个项目，Naptime，评估了大型语言模型的攻击能力。

几个月前，他们发表了一篇论文，介绍了大型语言模型辅助研究的工作，并展示了其在提高网络安全性能方面的潜力。这是基于Meta的评估基准。现在，Naptime 已经发展成为 Big Sleep，谷歌项目Zero 与谷歌 DeepMind 合作，在最新论文中宣布了一些令人兴奋的结果。

这个优化过的LLM 能够帮助发现漏洞。他们通过这个代理发现了SQL light 项目中的一个未知漏洞，并报告了该漏洞，开发人员修复了该漏洞。据我们所知，这是LLM 首次用于发现现实世界中的漏洞。

是的，这也有警示作用，表明这些模型可以发现现实世界的漏洞。这总是存在双刃剑，但这是关于AI风险的讨论中一个重要的疑问。

现在我们有了这些，我想知道应用是什么，但已经有一些试点研究。我们已经讨论过一些发现。其中一个是已知漏洞，然后使用LLM来利用它，以及从头开始发现漏洞。

还有指针和引用，这本质上是指向内存地址的指针，该漏洞允许你控制它指向的内容，从而控制写入或读取内存的内容。原则上，攻击者可以执行任意代码。

他们详细介绍了它的工作原理。我认为这比当前技术（例如模糊测试，将所有东西都扔到应用程序中）有很大改进。这是一个由思考的AI系统驱动的更聪明的方法。

人们已经尝试过标准技术，但失败了。

还有一个关于缺乏进展的故事。

关于OpenAI正在开发新的策略来应对AI改进速度减缓的报告。

OpenAI 正在开发类似GPT-5 的模型，但进展缓慢。

从GPT-3 到 GPT-4，有巨大的改进。

GPT-4 更加出色。现在已经有一段时间了，我们还没有看到类似的飞跃。

该报告指出，使用更多数据、计算和规模可能不如以前有效。

互联网的大部分内容已经被收集和分析。OpenAI 内部有一个新的团队正在寻找替代方案，例如使用AI模型生成合成数据。

这与规模化问题有关。我们通常讨论的是模型的下一个词预测准确率如何随着更多数据和计算而提高。

存在关于在该过程中创造价值的不确定性。

在不知道GPT-5 的训练数据和目标的情况下，很难判断这是模型改进的限制，还是推理模型和推理功能的问题。

据报道，当 GPT-5 仅完成 20% 的训练时，有人对它非常兴奋。现在，这种兴奋似乎没有实现。还有关于训练所用硬件的问题。

很难知道。

OpenAI 在过去两年中处于一种困难的境地。

他们失去了许多优秀的算法设计人才。

如果我们从一个利用范式（即良好的工程和规模化）的领域转向寻找新想法的领域，那么人才可能会成为主要限制因素。

OpenAI 正在与 Oracle 等公司合作开发基础设施，因为微软似乎无法满足他们的需求。

这开始变得非常有趣。

他们必须继续筹集资金、扩大规模并留住人才。

如果 OpenAI 过于专注于规模化，这可能会成为一个重大问题。

这并非 OpenAI 独有的问题，数据是否会耗尽也是一个普遍问题。

Timestamps + Links:

(00:01:28) News Preview (00:02:10) Response to listener comments (00:05:02) Sponsor Break Tools & Apps

Applications & Business

(00:23:40) Saudis Plan $100 Billion AI Powerhouse to Rival UAE Tech Hub (00:28:28) Meta's former hardware lead for Orion is joining OpenAI (00:31:38) OpenAI Accidentally Leaked Its Upcoming o1 Model to Anyone With a Certain Web Address (00:35:50) Nvidia Rides AI Wave to Pass Apple as World’s Largest Company

Projects & Open Source

(00:41:48) FrontierMath: The Benchmark that Highlights AI’s Limits in Mathematics (00:46:29) Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Research & Advancements

Policy & Safety

(01:39:23) Outro

Hosted by Andrey Kurenkov and Jeremie Harris. Feel free to email us your questions and feedback at contact@lastweekinai.com and/or hello@gladstone.ai Read our text newsletter and comment on the podcast at https://lastweekin.ai/.

* Saudi Arabia plans a $100 billion AI initiative to rival the UAE's tech hub, highlighting the region's escalating AI investments. * US penalties on GlobalFoundries for violating sanctions against SMIC underscore ongoing challenges in enforcing AI-chip export controls. * Anthropic collaborates with Palantir and AWS to integrate CLAWD into defense environments, marking a significant policy shift for the company.

The AI safety book “Uncontrollable," which is not a doomer book, but instead lays out the reasonable case for AI safety and what we can do about it. Max Tegmark said that “Uncontrollable” is a captivating, balanced, and remarkably up-to-date book on the most important issue of our time" - find it on Amazon today!

Timestamps + Links:

(00:01:28) News Preview (00:02:10) Response to listener comments (00:05:02) Sponsor Break Tools & Apps

Applications & Business

Projects & Open Source

(00:41:48) FrontierMath: The Benchmark that Highlights AI’s Limits in Mathematics (00:46:29) Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Research & Advancements

Policy & Safety

(01:28:44) Fab Whack-A-Mole: Chinese Companies are Evading US Sanctions (01:33:57) US fines GlobalFoundries for shipping chips to sanctioned Chinese firm (01:36:55) Anthropic teams up with Palantir and AWS to sell its AI to defense customers

(01:39:23) Outro

#189 - Chat.com, FrontierMath, Relaxed Transformers, Trump & AI 01:42:46 Share

Last Week in AI

Deep Dive

Shownotes Transcript

#189 - Chat.com, FrontierMath, Relaxed Transformers, Trump & AI