#188 - ChatGPT+Search, OpenAI+AMD, SimpleQA, π0

2024/11/8

Last Week in AI

AI Deep Dive AI Chapters Transcript

People

Andrey Kurenkov

Jeremie Harris

Topics

@Andrey Kurenkov ：本周AI新闻涵盖多个领域，没有单一主题，包括应用、商业、研究、政策和安全等。其中，ChatGPT 集成搜索功能，苹果逐步推出AI功能，OpenAI探索自建AI硬件，Meta与媒体合作等都是重要事件。 @Jeremie Harris ：大型语言模型正在商品化，竞争日益激烈，这既对最终用户有利，也对小型公司构成挑战。模型商品化使得模型之间切换成本降低，利润率面临压力。

Deep Dive

Chapters

OpenAI has integrated a search engine into ChatGPT, allowing it to access real-time web information. This move competes with Google's AI offerings and raises questions about cost and ad integration.

ChatGPT can now search the web for information to answer queries.
The feature is built directly into the chat experience, similar to Google's AI and Perplexity.
OpenAI is using a mix of technologies, including Microsoft Bing, and a fine-tuned GPT-4 model.
There are concerns about the cost of serving these models and potential limits on free usage.

Shownotes Transcript

(00:00:00) 开场白/闲聊 (00:02:16) 新闻预览 (00:03:05) 响应听众评论/更正 (00:05:00) 赞助商休息时间工具和应用 (00:06:28) OpenAI 的搜索引擎现已在 ChatGPT 中上线 (00:12:18) 图片游乐场、ChatGPT 等更多 Apple Intelligence 功能在测试版中推出 (00:14:34) GitHub Copilot 将支持 Anthropic、Google 和 OpenAI 的模型 (00:19:00) 介绍 Claude.ai 的分析工具 (00:21:34) ElevenLabs 推出语音设计：一项新的 AI 功能，仅需文本提示即可生成独特的声音 (00:24:18) Midjourney 的新网络编辑器允许您调整从 PC 上传的图像 (00:26:02) 当心 Midjourney——Recraft 刚刚宣布了新的 AI 图像生成模型

应用和商业 (00:29:57) Meta 与路透社达成多年 AI 协议 (00:33:15) OpenAI 将开始使用 AMD 芯片，并可能在 2026 年制造自己的 AI 硬件 (00:40:47) WSJ 报道，埃隆·马斯克的 xAI 正与投资者洽谈，估值 400 亿美元 (00:46:07) 物理智能，一家机器人 AI 专业公司，从贝佐斯那里筹集数百万美元 (00:48:32) Waymo 加速无人驾驶出租车业务，获得 56 亿美元资金 (00:49:11) Alphabet 旗下的 Waymo 每周现在为超过 15 万付费无人驾驶出租车服务，两个月内增长 50%

项目和开源 (00:51:23) Meta AI 静默发布 NotebookLlama：Google NotebookLM 的开源版本 (00:54:59) Meta 发布量化 Llama 3.2，Android 手机的推理速度提高 4 倍 (00:59:16) OpenAI 发布 SimpleQA：一项新的 AI 基准测试，用于衡量语言模型的事实性

研究和进步 (01:08:19) 这是一瞥未来 AI 机器人的未来 (01:15:06) 语言模型可以取代程序员吗？REPOCOD 表示“尚未” (01:19:01) 大型语言模型中的类脑功能组织 (01:21:20) Decart 的 AI 模拟了 Minecraft 的实时可玩版本 (01:25:39) 使用 Claude 3.5 Sonnet 提高 SWE 基准的验证

政策和安全 (01:29:06) 商务部刚刚提出了迄今为止最重大的联邦 AI 监管措施——但没有人注意到 (01:35:04) Anthropic 警告称，如果政府在 18 个月内不进行监管，AI 灾难将发生 (01:39:32) 中国军方充分利用 Meta AI，开源反击 (01:46:35) Meta 表示正在使其 Llama 模型可用于美国国家安全应用

(01:48:16) 节目结束

(00:00:00) 开场白/闲聊 (00:02:16) 新闻预览 (00:03:05) 响应听众评论/更正 (00:05:00) 赞助商休息时间工具和应用 (00:06:28) OpenAI 的搜索引擎现已在 ChatGPT 中上线 (00:12:18) 图片游乐场、ChatGPT 和更多 Apple Intelligence 功能在测试版中推出 (00:14:34) GitHub Copilot 将支持 Anthropic、Google 和 OpenAI 的模型 (00:19:00) 介绍 Claude.ai 的分析工具 (00:21:34) ElevenLabs 推出语音设计：一种新的 AI 功能，仅需文本提示即可生成独特的语音 (00:24:18) Midjourney 的新网络编辑器允许您调整从 PC 上传的图像 (00:26:02) 当心，Midjourney——Recraft 刚刚宣布了新的 AI 图像生成模型

项目和开源 (00:51:23) Meta AI 静默发布 NotebookLlama：Google NotebookLM 的开源版本 (00:54:59) Meta 发布量化 Llama 3.2，Android 手机的推理速度提高 4 倍 (00:59:16) OpenAI 发布 SimpleQA：一种新的 AI 基准，用于衡量语言模型的事实性

研究和进步 (01:08:19) 这是一瞥未来 AI 机器人的未来 (01:15:06) 语言模型可以取代程序员吗？REPOCOD 表示“尚未” (01:19:01) 大型语言模型中的类似大脑的功能组织 (01:21:20) Decart 的 AI 模拟了 Minecraft 的实时可玩版本 (01:25:39) 使用 Claude 3.5 Sonnet 提高 SWE 基准的验证

政策和安全 (01:29:06) 商务部刚刚提出了迄今为止最重大的联邦 AI 监管措施——但没有人注意到 (01:35:04) Anthropic 警告称，如果政府在 18 个月内不进行监管，AI 将会造成灾难 (01:39:32) 中国军方充分利用 Meta AI，开源技术反击 (01:46:35) Meta 表示正在使其 Llama 模型可用于美国国家安全应用

(01:48:16) 节目结束

(00:00:00) 开场白/闲聊 (00:02:16) 新闻预览 (00:03:05) 回应听众评论/更正 (00:05:00) 赞助商休息时间工具和应用 (00:06:28) OpenAI 的搜索引擎现已在 ChatGPT 中上线 (00:12:18) 图片游乐场、ChatGPT 和更多 Apple Intelligence 功能在测试版中推出 (00:14:34) GitHub Copilot 将支持 Anthropic、Google 和 OpenAI 的模型 (00:19:00) 介绍 Claude.ai 的分析工具 (00:21:34) ElevenLabs 推出语音设计：一项新的 AI 功能，仅需文本提示即可生成独特的语音 (00:24:18) Midjourney 的新网络编辑器允许您调整从 PC 上传的图像 (00:26:02) 当心 Midjourney——Recraft 刚刚宣布了新的 AI 图像生成模型

应用和业务 (00:29:57) Meta 与路透社达成多年 AI 协议 (00:33:15) OpenAI 将开始使用 AMD 芯片，并可能在 2026 年制造自己的 AI 硬件 (00:40:47) WSJ 报道，埃隆·马斯克的 xAI 正与投资者洽谈，估值 400 亿美元 (00:46:07) 机器人 AI 专业公司 Physical Intelligence 从贝佐斯处筹集数百万美元 (00:48:32) Waymo 通过 56 亿美元的融资加大自动驾驶出租车业务 (00:49:11) Alphabet 旗下的 Waymo 每周现在为超过 15 万名付费自动驾驶出租车乘客提供服务，两个月内增长 50%

政策和安全 (01:29:06) 商务部刚刚提出了迄今为止最重大的联邦 AI 监管措施——但没有人注意到 (01:35:04) Anthropic 警告称，如果各国政府在 18 个月内不进行监管，AI 灾难将发生 (01:39:32) 中国军方充分利用 Meta AI，开源技术反击 (01:46:35) Meta 表示正在使其 Llama 模型可用于美国国家安全应用

(01:48:16) 节目结束

应用和业务 (00:29:57) Meta 与路透社达成多年 AI 协议 (00:33:15) OpenAI 将开始使用 AMD 芯片，并可能在 2026 年制造自己的 AI 硬件 (00:40:47) WSJ 报道，埃隆·马斯克的 xAI 正与投资者洽谈，估值 400 亿美元 (00:46:07) 物理智能，一家机器人 AI 专业公司，从贝佐斯那里筹集数百万美元 (00:48:32) Waymo 加速机器人出租车业务，获得 56 亿美元资金 (00:49:11) Alphabet 旗下的 Waymo 每周现在提供超过 15 万次付费机器人出租车服务，环比增长 50%

政策和安全 (01:29:06) 商务部刚刚提出了迄今为止最重大的联邦 AI 监管措施——但没有人注意到 (01:35:04) Anthropic 警告称，如果政府在 18 个月内不进行监管，AI 灾难将发生 (01:39:32) 中国军方充分利用 Meta AI，开源技术反击 (01:46:35) Meta 表示正在使其 Llama 模型可用于美国国家安全应用

(01:48:16) 节目结束

(00:00:00) 开场白/闲聊 (00:02:16) 新闻预览 (00:03:05) 响应听众评论/更正 (00:05:00) 赞助商休息时间工具和应用 (00:06:28) OpenAI 的搜索引擎现已在 ChatGPT 中上线 (00:12:18) 图片游乐场、ChatGPT 和更多 Apple Intelligence 功能在测试版中推出 (00:14:34) GitHub Copilot 将支持 Anthropic、Google 和 OpenAI 的模型 (00:19:00) 介绍 Claude.ai 的分析工具 (00:21:34) ElevenLabs 推出语音设计：一项新的 AI 功能，仅需文本提示即可生成独特的语音 (00:24:18) Midjourney 的新网络编辑器允许您调整从 PC 上传的图像 (00:26:02) 当心 Midjourney——Recraft 刚刚宣布了新的 AI 图像生成器模型

应用和业务 (00:29:57) Meta 与路透社达成多年 AI 协议 (00:33:15) OpenAI 将开始使用 AMD 芯片，并可能在 2026 年制造自己的 AI 硬件 (00:40:47) WSJ 报道，埃隆·马斯克的 xAI 正与投资者洽谈，估值 400 亿美元 (00:46:07) 物理智能，一家机器人 AI 专业公司，从贝佐斯那里筹集数百万美元 (00:48:32) Waymo 通过 56 亿美元的融资加大自动驾驶出租车业务 (00:49:11) Alphabet 旗下的 Waymo 每周现在为超过 15 万名付费自动驾驶出租车乘客提供服务，两个月内增长 50%

研究和进步 (01:08:19) 这是 AI 机器人未来的一个缩影 (01:15:06) 语言模型可以取代程序员吗？REPOCOD 表示“还没有” (01:19:01) 大型语言模型中的类似大脑的功能组织 (01:21:20) Decart 的 AI 模拟了 Minecraft 的实时可玩版本 (01:25:39) 使用 Claude 3.5 Sonnet 提升 SWE 基准测试

(01:48:16) 结束语

在这个基准测试中，他们有一个新的数据集，包含来自 11 个流行的真实世界项目的 980 个问题，其中超过 58% 的问题需要防火墙级别或存储库级别上下文，这当然是在编程时需要的。你需要了解你的代码库，这比你在这些编程挑战中获得的要复杂得多。结果，没有一个警报的准确率超过 30%。所以，是的，这表明你目前还不能用警报来取代专业的程序员，因为这需要投入大量的工作。

是的，这与我们谈论的代理流程有关。如果你的模型在 1% 的时间内犯错误，而对代码库进行实质性更改需要将许多 1% 的错误叠加在一起，那么你就会得到非常高的失败率。

我会指出，这是过去的一个问题，所以基本上，问题是，你是否能够在第一次尝试中成功解决问题？这有点像期望一个人开始编码，不停地编码，然后一次性把所有事情都做好。你知道，粗略地说，你不能指望一个人做到这一点。考虑到这些条件下，这些模型能够达到 30% 的准确率，我认为这相当了不起。

当然，扩展问题等等，你可能会很容易看到这一点，但是，仅仅看看推理时间、计算能力以及沿途进行小检查的可能性，例如，目前人们之所以如此重视代码编写循环中的人类，是因为我们基本上充当了基准真相的来源，对吧？我们会像这样写或开始写一个函数，然后使用自动完成功能，然后会检查一下，是的，继续下去是有意义的，你并没有真正从程序的角度思考这些问题，而是更多地关注你正在输入系统的信息量，并进行这些调整。这些微调实际上弥补了每个步骤中 1%、2% 或 5% 的错误。所以，它有助于减轻你的负担。

你不需要写那么多代码。我知道我不需要，但是你知道，真正让系统完全自动化是另一回事，而且门槛要高得多。一旦你能够做到这一点，你就会进入一个完全不同的世界，而且速度会非常快。但这需要一段时间。

要达到那一步。我发现一个细节，如果你是一位程序员，我包括了一些你可能已经知道的关于心理策略的技巧。

如果你是 Python 程序员，就像我一样，我使用过 Flask、Scikit-learn 和 Seaborn，它们都有相当复杂的代码库，所以能够在这些代码库中实现自动完成是有意义的。我们接下来要讨论的是什么？第一篇论文是大型语言模型的脑功能组织。所以我们对大脑的工作原理有一些了解。

我们知道大脑的不同区域专注于不同的感觉领域，例如视觉、听觉和语言现象。这就是他们在这里研究的内容。我们正在研究语言模型的单个神经元如何组织功能，类似于人类大脑如何拥有专门的网络。

因此，他们使用 fMRI 模式来尝试将这些模式映射到网络激活模式。他们发现，在组织方面存在一些相似之处，特别是，大型语言模型具有更组织化和分层的功能模式。当然，你可以这样做，但是，正如我们在先前的研究中也看到的那样，大脑中组织信息和计算的相同现象也出现在大型语言模型中，并且随着模型的增大而增强。

是的，我认为我们上周谈论过 Anthropic 聘请了关注人工智能意识和知觉的人，这让你思考，你知道，一旦这些模式达到一定程度，它们与大型语言模型之间的差异就变得不同了。

就像它们与人类之间的差异一样，或者更确切地说，当大型语言模型在认知空间中运作时，它与人类神经元行为之间的差异。在什么情况下，你开始思考这个问题，假设那里也存在强化学习回路，以及神经系统和大脑的混合体，但如果你达到那一点，这将是一个有趣的指标，可能很快就会达到。

但是，在这方面有很多很好的研究。我知道 Meta 的一些人也在做类似的事情。所以，是的，有很多关于大脑的事情。你是一位神经科学家，我不是。但是，唉。

故事是，Decart 的人工智能模拟了一个实时可玩版 Minecraft。Decart 是一家以色列公司，并且规模相当大。

我见过类似的演示，例如 Oasis 的发布，这是一个模型，你基本上可以通过人工智能模型玩 Minecraft 游戏，所以你可以进行类似的输入，就像你在 Minecraft 中移动一样。但是，游戏的实际渲染和所有逻辑都由新的 AI 网络处理。令人印象深刻的是，他们有一个实时的演示，所以你可以像玩游戏一样玩它，并且以相当高的帧率运行，而不是超高分辨率。与此同时，他们还宣布获得了 2100 万美元的资金。

是的，这与关于人工智能模型是否能够开发这些世界模型的辩论有关，对吧？所以，对现实物理的强大表示。我真的很喜欢这个测试，因为这被称为 Minecraft。

你能告诉他关于 Minecraft 的事情吗？关于 Minecraft 的有趣之处在于它的物理非常简单，对吧？就像如果你剥离掉所有关于广义相对论和量子力学的知识，它只是方块和一些东西，这很好。

所以，除了你可以展示这个东西能够掌握物理动作，能够掌握世界模型，即使是简化的世界模型，你也在某种程度上展示了模型能够做到这一点。然后你开始问，为什么不能在现实世界中做到？我认为这是一个合理的问题。

所以，这变成了一个争论点。这个模型到底有多好地捕捉了这里发生的事情？这有点不清楚。

所以，问题之一是，当你玩它时，即使在很短的时间内，它也会很快忘记关卡布局，周围的环境也会重新排列。我们这些可能更倾向于规模化的人会说，这只是规模化的问题等等。你们知道我的意思。

你不仅仅重复，那里有一些有趣的问题。那里有一些非常聪明的人会不同意，这是一个系统，对吧？如果我转过身来，房间在我身后重新排列，那会告诉我，有人搞砸了大学物理学。所以，我认为这是将要继续的辩论的一部分，但是能够在几秒钟内保持这种连贯性，这确实令人印象深刻。我们在其他游戏和类似的东西中见过这种情况，但我从未见过像这样可玩的演示，你可以以相当不错的帧率玩它。

所以，这有点像，对吧？我当然属于另一类人，我认为你不应该通过一个简单的 AI 网络来模拟世界，我认为有一些论点可以提出，我认为我们的大脑在模拟方面不会很好，对吧？我们的模拟非常模糊，不像游戏那样精确，你只能以正确的方式进行交互。但是，它会忘记世界状态。如果你玩一段时间，我实际上会觉得有点奇怪。

所以，我同意你的观点，你可能不想这样做，我不认为它一定是最优化的硬件。我认为论点是，人类可靠地做到这一点的一种方式是，这有点有趣。

我们可能会进行一次单独的讨论，但我们仍然遵循物理定律，所以我们能够观察周围的世界，然后说，哦，你知道，如果我有能力，我可以写出一个方程来可靠地预测周围会发生什么。正如你所说，这可能不是使用人类大脑的正确方法。但是，如果我有能力，我可以将这些物理定律插入物理引擎中，运行引擎，并让计算机在系统中运行。

所以，我不确定这是否是一个非常有力的论点，但是这有点像，模型提取这些控制物理的规则的能力是什么？这些规则是否会随着规模的扩大而自然出现？我认为答案只能通过更多的实验来揭示。幸运的是，我们不必为此投入 500 亿美元。

微软对此做出了回应。最后一点，在 Claude 3.5 Sonnet 上提高了基准测试。在本集早些时候，我们讨论过模型在 SBE 评测中取得了 49% 的分数，超过了之前的 45% 的最佳水平。这恰好发生在 GitHub 开始支持它的时候。正如我们所知，这个基准测试与解决来自开源 Python 项目的 GitHub 问题有关，你知道，你有一些问题，哦，我需要解决这个问题，这就是问题所在。能够在这个基准测试中表现出色，这非常好，非常有用。

是的，我喜欢这篇论文。这篇文章真的很好，而且作者在构建模型方面做得很好，然后深入思考提示工程，我认为这很难说他们有什么不同之处。他们在这篇论文中做得很好，只是列出了他们用来使他们的代理成为其中一件很酷的事情的提示和提示开发方法。所以，他们分享了他们的设计理念，基本上就是尽可能多地控制模型本身，并尽量减少代理性。

所以，有些代理，支架实际上试图告诉模型如何思考，你正在朝着相反的方向前进，说，你知道吗，让我们相信模型自己思考，这可能是你所期望的。随着模型变得更强大，你对这种支架的依赖会越来越少，但是，是的，他们分享了一些有趣的结果，头条新闻是 49% 的数字，你称之为 3.5 Sonnet，这是 Claude 3.5 的新版本，他们可以在 SBE 评测中达到 49% 的分数，这实际上是解决实际的 GitHub 问题。所以，这在实践中是有用的。

所以，达到 50% 的分数并不差。前一年最佳水平是 45%。所以，这是一个很好的提升。他们说，他们从中吸取的教训之一是，我们相信应该更多地关注为模型设计工具，就像人们投入大量精力为人类设计工具一样。

换句话说，你想要关注模型的用户体验，他们举了一个例子，我们改进性能的一种方法是改进我们的工具。例如，有时模型在代理离开根目录后可能会弄错相对文件路径。为了防止这种情况，我们只需让工具始终要求绝对路径。所以，如果你了解代码或其他内容，这听起来有意义。

这里的基本思想是，如果你是一位用户，你可以导航到计算机上的特定文件，并在该文件中进行编码，你给出的所有命令都将针对该文件，但是，基本上，问题是，如果你想发出与计算机文件树中其他文件相关的命令，你必须离开你的文件，然后返回文件树，模型在处理这个问题方面有点挣扎。所以他们说，好吧，你知道吗？只需提供你的指令，并始终使用绝对文件路径。

每次都从树的根部开始。这是我需要记住的另一个细节，但这是关于 AI 模型的用户体验。这是这里最酷的事情。你可以忽略我说的所有内容。

这并不是一个很好的程序，玛丽，但它确实涉及到政策和安全。我们有一个相当有趣的故事，你可能没有听说过，那就是美国工业和安全局提议了一项可能非常重要的 AI 监管措施，但它却默默无闻地通过了。所以，这项法规将要求美国公司季度向政府报告大型 AI 模型的培训计划和计算集群的收购。这项规则旨在收集有关双用途基础模型的详细信息。

双用途是指可以用于善意和恶意的事情，这项法规的依据是国防生产法，我们之前已经讨论过。这被视为一种建立这些要求的方式，以防出现不良模型。关于需要此类报告的讨论很多。如果你正在尝试训练一个大型模型，并且似乎有某种头脑风暴。

是的，你可以将其视为对 2023 年 11 月拜登总统行政令的后续行动。我认为这是美国历史上最长的行政令。

(00:00:00) 开场白/闲聊 (00:02:16) 新闻预览 (00:03:05) 回应听众评论/更正 (00:05:00) 赞助商休息时间工具和应用 (00:06:28) OpenAI 的搜索引擎现已在 ChatGPT 中上线 (00:12:18) 图片游乐场、ChatGPT 和更多 Apple Intelligence 功能在测试版中推出 (00:14:34) GitHub Copilot 将支持 Anthropic、Google 和 OpenAI 的模型 (00:19:00) 介绍 Claude.ai 的分析工具 (00:21:34) ElevenLabs 推出语音设计：一项新的 AI 功能，仅需文本提示即可生成独特的语音 (00:24:18) Midjourney 的新网络编辑器允许您调整从 PC 上传的图像 (00:26:02) 当心，Midjourney——Recraft 刚刚宣布了新的 AI 图像生成器模型

应用和商业 (00:29:57) Meta 与路透社达成多年度 AI 协议 (00:33:15) OpenAI 将开始使用 AMD 芯片，并可能在 2026 年制造自己的 AI 硬件 (00:40:47) WSJ 报道，埃隆·马斯克的 xAI 正在洽谈融资，估值 400 亿美元 (00:46:07) 物理智能，一家机器人 AI 专业公司，从贝佐斯那里筹集数百万美元 (00:48:32) Waymo 加速机器人出租车业务，获得 56 亿美元融资 (00:49:11) Alphabet 旗下的 Waymo 每周现在为超过 15 万付费机器人出租车服务，两个月内增长 50%

政策和安全 (01:29:06) 商务部刚刚提出了迄今为止最重大的联邦 AI 监管措施——但没有人注意到 (01:35:04) Anthropic 警告称，如果政府在 18 个月内不进行监管，AI 将会造成灾难 (01:39:32) 中国军方充分利用 Meta AI，开源反击 (01:46:35) Meta 表示正在使其 Llama 模型可用于美国国家安全应用

(01:48:16) 节目结束

(00:00:00) 开场白 / 闲聊 (00:02:16) 新闻预览 (00:03:05) 响应听众评论 / 更正 (00:05:00) 赞助商休息时间工具和应用 (00:06:28) OpenAI 的搜索引擎现已在 ChatGPT 中上线 (00:12:18) 图片游乐场、ChatGPT 和更多 Apple Intelligence 功能在测试版中推出 (00:14:34) GitHub Copilot 将支持 Anthropic、Google 和 OpenAI 的模型 (00:19:00) 介绍 Claude.ai 的分析工具 (00:21:34) ElevenLabs 推出语音设计：一种新的 AI 功能，仅需文本提示即可生成独特的语音 (00:24:18) Midjourney 的新网络编辑器允许您调整从 PC 上传的图像 (00:26:02) 当心 Midjourney——Recraft 刚刚宣布了新的 AI 图像生成模型

应用和商业 (00:29:57) Meta 与路透社达成多年度 AI 协议 (00:33:15) OpenAI 将开始使用 AMD 芯片，并可能在 2026 年制造自己的 AI 硬件 (00:40:47) WSJ 报道，埃隆·马斯克的 xAI 正与投资者洽谈，估值 400 亿美元 (00:46:07) 物理智能（一家机器人 AI 专业公司）从贝佐斯处筹集数百万美元 (00:48:32) Waymo 加速机器人出租车业务，获得 56 亿美元资金 (00:49:11) Alphabet 旗下的 Waymo 每周现在为超过 15 万付费机器人出租车服务，两个月内增长 50%

项目和开源 (00:51:23) Meta AI 悄悄发布 NotebookLlama：Google NotebookLM 的开源版本 (00:54:59) Meta 发布量化 Llama 3.2，Android 手机的推理速度提高 4 倍 (00:59:16) OpenAI 发布 SimpleQA：一种新的 AI 基准，用于衡量语言模型的事实性

研究和进步 (01:08:19) 这是 AI 机器人未来的一瞥 (01:15:06) 语言模型可以取代程序员吗？REPOCOD 表示“尚未” (01:19:01) 大型语言模型中的类似大脑的功能组织 (01:21:20) Decart 的 AI 模拟了 Minecraft 的实时可玩版本 (01:25:39) 使用 Claude 3.5 Sonnet 提高 SWE 基准的验证

政策和安全 (01:29:06) 商务部刚刚提出了迄今为止最重大的联邦 AI 监管措施——但没有人注意到 (01:35:04) Anthropic 警告称，如果政府在 18 个月内不进行监管，AI 灾难将发生 (01:39:32) 中国军方充分利用 Meta AI，开源技术反击 (01:46:35) Meta 表示，正在使其 Llama 模型可用于美国国家安全应用

(01:48:16) 结束语

#188 - ChatGPT+Search, OpenAI+AMD, SimpleQA, π0 01:51:50 Share

Last Week in AI

Deep Dive

Shownotes Transcript

#188 - ChatGPT+Search, OpenAI+AMD, SimpleQA, π0