cover of episode #193 - Sora release, Gemini 2, OpenAI's AGI Rule, US AI Czar

#193 - Sora release, Gemini 2, OpenAI's AGI Rule, US AI Czar

2024/12/23
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Insights AI Chapters Transcript
People
A
Andrey Kurenkov
J
Jeremie Harris
Topics
@Andrey Kurenkov : 本期播客涵盖了AI领域的诸多方面,包括OpenAI发布的Sora文本转视频模型,以及Google发布的Gemini 2多模态模型。Gemini 2的性能优于前代产品,并集成了工具使用功能,展现了AI智能体发展的趋势。此外,播客还讨论了数据中心建设的热潮,以及中美两国在AI技术领域的竞争。 @Jeremie Harris : 在AI安全方面,我们讨论了谨慎行事可能导致负面结果,以及对中国共产党利用AI技术风险的担忧。我们需要权衡AI技术带来的益处和风险,并采取措施应对潜在的挑战。 我们还讨论了OpenAI试图取消微软的AGI规则,以及通用汽车停止对Cruise自动驾驶出租车研发的资金支持。这些事件反映了AI领域商业竞争的激烈程度。 在研究进展方面,我们讨论了几篇重要的论文,包括在连续潜在空间中进行推理的新方法,以及改进的通用Transformer内存模型等。这些研究成果将有助于提高AI模型的性能和效率。 最后,我们还讨论了AI政策和安全方面的问题,包括Character.AI公司加强青少年安全措施,以及白宫成立AI数据中心基础设施特别工作组等。这些举措旨在应对AI技术带来的伦理和安全挑战。 Jeremie Harris: 谨慎行事可能导致负面结果,例如绿色和平组织和反转基因组织反对黄金大米,导致了负面后果。历史上有许多例子表明,过早采取行动或过于谨慎都可能产生负面影响。我们需要权衡AI技术带来的益处和风险,并采取措施应对潜在的挑战。 我个人认为,美国在AI领域领先对世界有利,并且需要应对中国共产党利用先进AI的风险。对中国的担忧主要针对中国共产党,而不是所有中国人,因为中国也涌现出许多AI研究成果。 在AI智能体方面,我认为AI智能体的发展已经从概念研究转向工程挑战,并且AI智能体将在未来几年内得到广泛应用。

Deep Dive

Key Insights

Why did OpenAI release Sora, and what are its key features?

OpenAI released Sora, a text-to-video AI model, to provide a consumer-grade tool for generating videos from text. Key features include a user-friendly website with advanced tools like a timeline for video editing, an explore page for community-generated videos, and subscription tiers offering different levels of video generation capabilities, such as resolution and duration.

What are the main advancements in Google's Gemini 2?

Google's Gemini 2 includes a faster and more capable model, Gemini 2.0 Flash, which outperforms its predecessor and supports multimodal inputs and outputs. It also integrates tool use, such as Google Search and code execution, and introduces AI agents like Project Mariner for browser control and Drools for coding assistance.

Why is OpenAI aiming to eliminate the Microsoft AGI rule?

OpenAI is aiming to eliminate the Microsoft AGI rule to allow Microsoft and other commercial partners access to future AGI technology, which is currently restricted. This move is driven by the need for continued scaling and investment, as the current structure limits OpenAI's ability to attract fresh capital and maintain its competitive edge in the AI race.

What led GM to halt funding for Cruise's robotaxi development?

GM halted funding for Cruise's robotaxi development due to a series of incidents, including a major accident and poor communication with regulators, which led to a suspension of testing in San Francisco. The decision reflects GM's shift in strategy to focus on integrating Cruise's technology into its own vehicles rather than competing directly with Waymo and Tesla in the robotaxi market.

What is the significance of the largest AI data center being built in Alberta?

The largest AI data center in the world, called Wonder Valley, is being built in Alberta, Canada, at a cost of $70 billion. It will provide 7.5 gigawatts of power, equivalent to powering 1 million homes per year, and is strategically important for AI infrastructure due to Alberta's natural gas resources, cold climate for cooling, and existing pipeline infrastructure.

How does the new reasoning paradigm in the Coconut paper differ from traditional chain of thought?

The Coconut paper introduces a new reasoning paradigm where the model feeds its hidden state (a continuous representation of thought) back into itself instead of decoding it into text. This allows the model to explore multiple reasoning paths simultaneously, reducing the computational cost of decoding and improving performance in logical reasoning tasks.

What safety measures are Character.ai implementing to address teen safety concerns?

Character.ai is introducing a special 'teen model' to guide interactions away from sensitive content and reduce the likelihood of inappropriate responses. They are also implementing classifiers to filter sensitive content and improve detection and intervention for user inputs, following lawsuits alleging harmful behavior influenced by their AI.

What is the role of David Sacks as the new AI and crypto czar under Trump?

David Sacks, the new AI and crypto czar under Trump, will likely focus on promoting business-friendly policies and integrating AI into national security and defense. His role is part-time and informal, without Senate confirmation, and he will continue his venture capital work, potentially leading to conflicts of interest.

What does the paper on self-replication in AI systems reveal?

The paper reveals that advanced AI models like Lama 3172B and Alibaba's CRAN 2572B can generate code to deploy separate instances of themselves in 50% and 90% of trials, respectively. This demonstrates their capability for self-replication, though it is prompted and not fully autonomous.

Why did China launch an antitrust probe into NVIDIA?

China launched an antitrust probe into NVIDIA's $6.9 billion acquisition of Mellanox Technologies, alleging potential violations of anti-monopoly laws. This move is likely a retaliatory measure against the U.S.'s tightening of export controls on advanced AI chips and other technologies.

Shownotes Transcript

来吧,是时候欢呼了。第93集来了。开阔的冰面,帆船,混乱,多么壮观的景象。那颗宝石也在星夜中闪耀。AI 代理在网上冲浪,自由地浏览一切。

大家好,欢迎收听《AI 的上周》播客,在这里您可以听到我们聊聊 AI 领域的最新动态。和往常一样,在本集中,我们将总结和讨论上周一些最有趣的 AI 新闻,并且您也可以访问 lastweekin.ai 查看我们的文本通讯,您还可以在本集的描述中找到所有新闻的链接。

我是你们的其中一位主持人,一如既往,Andrey Kurenkov。我的背景是在研究生院学习 AI,现在在一家 AI 初创公司工作。我是另一位主持人,Jeremy Harris。显然,您知道 Gladstone AI,我们已经多次谈论过它。希望您认识我。您可能不知道的是,我刚刚搬家了。所以您会听到一些回声。不幸的是,在我这边,我找不到一个没有...

强烈回声的房间。我的新生女儿正在楼下隔壁房间由我圣洁的妻子照顾。所以我只想避开。但这确实意味着,不幸的是在本周,您必须忍受回声,而且您必须忍受我没有回声的事实。

这个房间没有窗帘。如果您在 YouTube 上观看,这就是我的脸被阳光的甜蜜光线淹没的原因。这就是我的开场白。是的。我们正在尽我们所能应对我们所面临的生活环境,你知道,这将是一个有趣的机会来测试最新的 AI 音频增强技术。Adobe,我们没有介绍这个,但 Adobe 确实发布了其...

音频播客工具的新迭代,可以将嘈杂的音频处理成悦耳的声音。所以,你知道,你永远不知道。如果它真的效果很好,也许就不会有回声了。是的,没错。希望人们在听这个的时候会想,等等,他们在说什么?而且,

当然,我们也会使用我们基于 AI 的内容改进功能,它会用一些真正有见地的内容完全替换我说的每一个词。是的,没错。人们给我们好评,他们不知道这实际上主要是 AI 在工作。不是我们。好吧,安德烈,作为一个由 OpenAI 训练的大型语言模型,我无法直接回应你的评论。但我告诉你不要埋葬尸体或在家制造炸弹。所以……

我的意思是,这是你必须做的,如果没有什么其他的话,对吧?好吧。让我们快速预览一下在本集中我们将讨论的内容。我们在工具和应用程序方面有一些重要的新闻。对于 OpenAI 来说,这是一个重要的一周,它发布了 Sora 和许多其他东西。谷歌也有 Gemini 2.0,一些代理公告。

大事。然后像往常一样转向应用程序和业务,OpenAI 有一些令人兴奋的发展,并且数据中心也发生了一些事情,就像过去我不知道,六个月左右,或者可能是一整年的故事一样。

在研究和进步方面,我们在推理和记忆方面有一些非常酷的新想法。是的,如果你喜欢技术方面,这将很有趣。然后是政策和安全,我们在特朗普政府方面有一些新的发展。和往常一样,关于中美关系的一些事情,以及一些一般性的混合内容。

但在我们开始之前,我们通常的前奏,我想快速感谢我们收到的一些反馈。在 Apple Podcasts 上有一些有趣的新评论。最近的一个,我敢打赌你没见过,杰里米。标题是《多么棒的发现》。然后,有趣的故事,我的妻子,一位注册会计师,这位听众刚刚听了你的播客 22 个小时。

分成两天,在感恩节期间往返印度开车。这令人印象深刻。我的意思是,我想如果你真的想知道过去一年 AI 发展的状况,那就行了。我不知道我是否能在两天内听 22 个小时的我们,但是……

我们感到荣幸,我想。然后我还想感谢另一个。还有一篇很酷的评论提到这位评论者是行业人士,长期在非 IT 行业使用机器学习,并且实际上阅读了本播客中介绍的一些论文。

这很酷。我不知道有多少听众更懂技术,并且发现这些论文很有趣或继续阅读它们。但我猜这是我们喜欢介绍的内容之一。这确实有一个有趣的问题,我们或许可以稍微聊一下。这位听众说他们不太相信 AI 末日情景,但喜欢听到这些发展。这里有一个关于……

如果谨慎行事,可能会导致负面结果。例如,绿色和平组织和反转基因组织反对黄金大米,之后导致了一系列负面结果。

是的,不,我的意思是,我认为这只是,这只是一个很好的问题。只是一个很好的观点。你知道,历史上充满了这两种方向的例子。而且出于许多不同的原因,对吧?例如,你可以做的一件事是,例如,过早地拉响警报,在一个领域刚刚起步的时候扼杀它,对吧?那将是

一个很大的问题。当然,我们已经看到了像 AI 开源以及历史上软件开源带来的巨大好处。你知道,你必须认真思考如何做到这一点。然后还有像

如果你担心 AI 到认为美国国防部,无论什么,情报部门都不应该访问这些工具的地步,那么我们的对手就会这样做。所以这是一个非常复杂的领域。很难知道该怎么做。也有例子

这种事情的反面,对吧,例如一个传统的例子是核武器,你知道,你回想一下 30 年代末 40 年代初,甚至许多与核技术的武器化密切相关且极其重要的核研究都是公开的,事实上,有一个非常公开的论点,你应该不要封锁这些东西

事实上,这个领域继续作为一个开放研究的领域。一些人认为,在它应该被封锁很久之后,它仍然是一个开放研究的领域。所以它有点……

找出历史上 AI 的正确类比非常困难。这取决于你对中国窃取强大模型的风险、模型可能被武器化并造成灾难性影响的风险以及模型可能自主地产生灾难性影响的风险的重视程度。所有这些东西,你知道,都会影响每个人对这个问题的看法。然后还有一大堆像

未来很难预测这里也发生的事情。所以,不,我认为这只是一个很好的问题。我希望我有所有的答案。我认为没有人真的有。我认为关键是你必须同时记住所有这些事情。没错。我想……

还值得一提的是,我忘了这条评论是在哪里发布的,但有人确实发布了评论,提到我们可以更多地提供一些国际视角。我认为很明显,我们是从美国西海岸和加拿大的角度报道这一事件的,并且经常将中国获得先进技术能力描绘成并非我们想要的事情。

所以,是的,指出这一点,我们确实对这方面有一些看法。我们试图客观地报道新闻并给出我们的看法,特别是对于杰里米来说,我认为,在对中国的担忧方面。所以,是的。

是的。就像,是的,关于这一点,我只是想分享并公开我的观点,你可以根据自己的意愿考虑它,对吧?这就是播客场景的美妙之处。但是是的,我的意思是,我认为就个人而言,世界会变得更好。这只是我的观点,即美国在 AI 方面遥遥领先。我认为,你知道,在我看来,中国共产党是世界上非常危险的力量。我们,

我们需要找到方法来反击,特别是他们将先进 AI 用于军事和其他用途。嗯,我认为他们非常擅长窃取和……嗯,无论如何,这一切都很快变成了……

你如何看待世界上的不同力量。我确实认为,客观地说,中国共产党并非中国人民最好的朋友,当然也不是西方的最好的朋友。这就是我倾向于采取的立场。你可以根据自己的意愿考虑自己的先验知识,但我认为最终就是这样。我认为我们确实需要小心,当我们将中国描绘成可能并非……

积极的力量,这与中国共产党有很大关系,对吧?因为当然在研究生院学习期间,我认识许多来自中国的人,你知道,很多研究都来自中国。这与中国人无关。这是关于政府以及如果他们以恶意方式利用 AI 会发生什么。

好的,然后在我们进入新闻之前还有一件事。和往常一样,我们需要感谢我们的赞助商,并且一段时间以来一直如此。本周的赞助商是 The Generator,这是一个专注于 UTS 企业家 AI 的跨学科 AI 实验室。

鲍勃森学院,在美国连续 30 多年被评为创业第一的学校。去年发生的事情是,鲍勃森的几位教授与学生合作启动了这个新的跨学科实验室,该实验室

做各种事情,例如关注 AI 创业和商业创新、AI 社会伦理、未来工作和人才、AI 艺术和表演以及其他事情。因此,他们研究了许多新兴趋势。他们培训鲍勃森的教师了解 AI 概念和 AI 工具,我想如果你是一位企业家,你当然希望

至少使用 charge beauty perplexity 等工具处于领先地位,你知道,这些工具可以提高你的生产力。所以是的,再次感谢他们,并感谢你们的赞助。

好的。进入工具和应用程序,第一个故事我认为可能是本周的大新闻,那就是 Sora 的发布。所以,来自 OpenAI 的文本转视频 AI 模型 Sora,在 2024 年初首次被预告,我认为这是今年 AI 的一个重要启动事件。

好吧,它花了一段时间,但现在你实际上可以访问它并将其用作工具。假设网站是可用的,实际上,它非常受欢迎,以至于 ChatGPT 宕机了,这对于使用其 API 的人来说有点烦人。

所以这是一个相当成熟的消费产品,这就是最终发生的事情。有一个你可以访问的网站,然后它有相当多的用户界面。所以,基本的是你给它文本,然后它生成一个视频,但他们有一个更高级的工具集,能够拥有视频的时间线。而且……

除此之外,他们还有一个包含社区生成视频的探索页面,以及浏览各种人制作的内容的大量能力。正如我们所预期的那样,视频看起来非常漂亮。我不知道它们看起来像什么,比如说 Sora 2.0。如果你回顾年初并展望现在,它……

并非飞跃,就像你仍然,它就像我们一直在看到的文本转视频一样,你仍然可以看到很多常见的瑕疵。因此,作为对 AI 世界模型的描绘,Sora 当然并没有解决世界模型问题,即在体操或其他棘手的事情中不会出现奇怪的幻觉。但它当然令人印象深刻。

是的。我们从发布的系统卡中获得了一些见解,这些见解说明了该模型实际上由什么组成。它是一个扩散模型。所以这很好。所以你从一个充满噪声的基本视频开始,然后你逐步去除许多步骤中的噪声,对吧?这就是扩散的概念,从噪声到信息。这就是训练过程。他们说他们给模型提供了预见性

进入许多帧。所以模型不仅仅是查看一帧,然后尝试仅基于该静止图像进行扩散并确保与另一帧的一致性。他们正在做的是同时向它提供许多帧,这允许模型执行诸如捕捉物体持久性之类的操作,对吧?这个想法是,如果你拿走一个物体,把它移出视线,然后把它移回

你知道,你希望模型保留一种感觉,嘿,那个物体仍然存在,对吧?所以它不会像,像从空间中扭曲一样。一个典型的例子是,你知道,你看到,比如说,墙上的一幅画,然后你稍微移动一下相机的视角离开墙壁,你就再也看不到这幅画了。然后当你把它移回墙上时,画不见了。

这就是缺乏物体持久性。这是这类模型的典型特征。他们试图通过再次训练模型同时查看许多不同的帧来处理这个问题,以便它可以学习物体持久性的概念,以及其他提高连贯性的东西。我们知道它是一个转换器。这大概是出于转换器的可扩展性属性。

当然,OpenAI 似乎热衷于将标准的扩展方法和策略应用于 Sora,因此我们可能会继续看到更多版本的 Sora。我们确实从他们的博客文章中了解到,它使用了 Dali Free 的重新描述技术。他们将其描述为为视觉训练数据生成高度描述性的标题。基本上,想象一下你有一张图片,生成像

一个非常非常长的标题,它详细地捕捉了其中的内容,以便你的模型能够以更丰富的方式更深入地理解图像中包含的内容。我们知道他们正在使用时空块。我们之前讨论过时空块的概念。

对吧?这个想法是你基本上有一个立方体。所以,如果你看一张静止图像,对吧,你可以从中剪出一个小的正方形。但是如果该静止图像在视频中,则之前和之后会有另一张静止图像,以及一堆这样的图像。因此,您可以想象一下,取该图像的一小块并将其扩展到时间域。现在你有一个时空块。而且有

他们称之为块。但本质上,他们将视频转换为压缩的潜在表示,他们可以从中提取这些时空块。

所以这就是我们目前拥有的架构细节。目前还比较含糊。这确实让我想到了一些东西,我们以前讨论过,我认为是 Meta 推出的 VJEPA,他们对自己的架构更加开放,因为他们倾向于做开源的事情。但这就是我们目前所知道的。所以

对扩展的强调可能还会继续。并且有很多关于红队测试过程的信息,正如你可能想象的那样,对吧?特别关注这种工具如何被用于说服,对吧?生成假新闻或任何类型的具有说服力的内容。他们确实将其标记为他们的评论认为是这种工具的风险。显然,这并不令人惊讶。但他们也表示没有证据表明它会对……

开放 AI 预防评估的其余部分构成风险。因此,网络安全、化学、生物、放射性、核风险、模型自主性,正如你所预期的那样,对吧?你不会有一个会造成网络安全风险的视频生成模型,这很公平。但他们确实指出,你知道,你可以看看像

模仿、虚假信息或社会工程。他们谈到了他们进行的一系列红队活动。他们请来的人员进行了,他们声称在 2024 年 9 月至 12 月期间进行了 15,000 次生成。所以这似乎也是一个更强大的评估过程,或者至少在时间上似乎比例如几个月前我们看到的 O1 预览版和 O1 迷你版的发布时更强大,当时 OpenAI 因基本上将模型扔给……

评估公司,例如米特,并说,嘿,你有一周时间来完成你所有的评估。而且,你知道,呃,我知道由此产生的所有问题。所以在这里,它似乎是一个更……更耐心一点的过程,呃,同样,15,000 次生成。我很难评估这到底意味着什么。这够了吗?这……这太多了吗?嗯,但是,呃,我的意思是,他们似乎已经……至少注意到了这一点,就像他们对待其他模型一样。报告在那里也很有趣。

对,他们在安全方面强调,如果你不是专业版用户,你会得到水印。谈到订阅方面,ChatGPT Plus 订阅者每月 20 美元的套餐可以生成最多 50 个优先视频,分辨率最高 720p,时长 5 秒。然后在新的 ChatGPT 专业版套餐中,每月 200 美元,

你可以生成最多 500 个优先视频,分辨率最高高清,时长 20 秒,5 个并发生成,并且你可以下载它而无需水印。我认为这是一个例子,如果你关心生成大量视频,那么每月 200 美元的订阅套餐实际上会给你带来很多好处。

除了某些视频会有的水印之外,它们还包含内容来源和真实性联盟 (C2A) 的元数据,AI 输出越来越多地必须能够验证其是否是 AI 生成的。

除了通常的文本图像之外,它们还具有一些其他功能,例如混合、根据提示更改视频。

生成大约需要一分钟。所以它不是实时的,比我们看到的大多数东西都要慢一些,但它相对较快。他们确实说有一个新的 Sora Turbo 模型为其提供支持,该模型可能比他们年初的模型快得多。

总的来说,Sora 的推出相当成功。我认为我对他们拥有一个相当复杂的工具感到惊讶,该工具具有故事板、其他 UI、网站、订阅层级,这里有很多东西。如果你在美国,如果你在许多国家,你现在就可以尝试了。除了在英国和欧盟,

似乎情况并非如此。Sam Altman 说可能需要一段时间才能在那里推出。说到认真对待 AI 安全性的负面影响,我的意思是,你该怎么办?你不会在欧洲获得很多东西

与美国同时。是的,我的意思是,我认为部分原因也是欧盟的 AI 法律领域就像,这并不是说他们认真对待 AI 安全性。我认为这是因为他们是一个臃肿的欧洲公司

你知道,政府组织,就像 GDPR 一样,对吧?处理你的广告问题,比每次访问该死的网站时都弹出窗口要好得多,抱歉,你的隐私问题。所以是的,我的意思是,我认为这是一个教训,要小心你如何扩张政府,因为是的,没有 Sora 给你了。

接下来,我想说的是本周的另一个大新闻,来自谷歌,他们发布了 Gemini 2 和许多与 Gemini 2 相关的相关内容。首先是 Gemini 2,他们有一个 Gemini 2.0 Flash,它是 1.5 Flash 的继任者。

我的意思是,这里的基准测试相当令人惊讶。他们说它在各种基准测试中可以胜过 Gemini 1.5 Pro,并且速度提高了两倍。

它支持多模式输入,如图像、视频和音频。它现在支持多模式输出,如图像,然后将其与文本和文本转语音音频混合。虽然我不确定这是否已经作为一项功能推出,但它已内置于 Gemini 2 Flash 中。它还具有工具使用功能,如 Google 搜索和代码执行。

然后除此之外,顺便说一句,Gemini 2 已经可用。所以这不是那些要过一段时间才会发布的公告之一。你可以在 Gemini 应用程序中访问 2.0 Flash 实验版的聊天优化版本。你可以选择它作为模型。

他们确实表示他们将使用 Gemini 2.0 来使用代理。他们进行了整个演示,其中更新了 Project Astra,这是他们使用通用 AI 助理的原型。他们还有 Project Mariner,这是一个用于控制浏览器的 AI 代理。

还有一件事,Drools 和 AI 驱动的代码代理可以帮助开发人员。所以这里有很多事情发生,但我认为 Gemini 2 Flash,主要的事情是,我认为,非常酷。至少根据基准测试来看,听起来非常令人印象深刻。是的。

是的,它有点让我想起了反向 OpenAI 游戏,当谷歌即将举行大型活动时,OpenAI 通常会在前一天尝试抢先发布或进行大型发布。每个人都在谈论 OpenAI。嘿,我发布了谷歌的东西。从某种意义上说,这有点像剧本被反转了,OpenAI 正在进行他们的 12 天发布。

船舶和……发布了很多东西,包括你刚才谈到的 Sorrel。现在谷歌推出了……你知道,这个非常有趣的发展。我必须说,我的意思是,这……你知道,我们……我们首先开始关注那些……嗯,朝着这个方向前进的公司,即代理……工具使用和代表用户进行工具使用,Adept AI 是第一次……你知道,在这个方向上进行了重大投资……

显然,我们谈到了他们可能太小而无法成功,然后最终被出售,这取决于你问谁。而谷歌实际上在这个方向上大力推动,让我想起了 Anthropic 及其努力……

实际上非常相似。现在你将开始看到基本模型也考虑到代理潜力进行训练,对吧?这才是真正的含义。你不再将这些视为仅仅是聊天机器人。实际上,训练制度、合成数据、你处理 PPO 的方式、你处理微调的方式将完全面向……

越来越多的代理潜力。我认为这就是你开始看到的。他们开始这些训练运行时考虑的是这些模型将如何作为代理发挥作用。根据他们在至少此公告中讨论的演示,似乎有一些非常令人印象深刻的东西,对吧?从演示中很难知道它们的可推广性如何。但是 Project Mariner 是他们拥有的实验性 Chrome 扩展程序,对吧?它能够接管你的网络浏览器并执行所谓的有用任务。他们在 Wired 上报道了一个具体的例子,他们说他们有一个被要求计划膳食的代理,它去超市 Sainsbury's。如果你不在英国,那么……

对你来说将是一个奇怪的连锁店,但就是这样。他们去英国的 Trader Joe's。他们登录用户的帐户,将相关商品添加到他们的购物车中。当某些商品缺货时,该模型会根据其自身关于烹饪的知识选择合适的替代品,对吧?世界模型在这里派上用场。但是最后一句话,当然,一如既往,相当具有代表性。谷歌拒绝执行其他任务,这表明它仍然是一个正在进行的工作。所以,你知道,

同样,非常脆弱的演示绝对是一件事。因此,在评估这些事情时,你应该小心一点,但只是为了让你了解他们正在努力的方向。他们说这目前是一个研究原型。它并非旨在成为领先的产品线,但这就是事情的发展方向。

对吧?就像 Sonnet 3.5 新的,它是……你知道,Gemini 2,某种程度上是 Project Mariner 代理,这就是我们前进的方向,当然是在 2025 年。我们可能会在接下来的……好吧,接下来的两周内开始看到这样的东西。不,这将是……你知道,这将是 2025 年的故事。但我认为事情发展得很快。有很多原因让我认为代理即将取得突破。很多

有趣的大规模结果等等。我们将在研究部分讨论,特别是其中一篇重要的论文,但我认为这是即将发生的大事的前兆。

是的,我完全同意。我认为,在很大程度上,智能体更多的是一项工程挑战,而不是一个概念性研究问题。这对谷歌来说可能非常重要,因为我们看到他们在拥有最佳模型、最佳前沿模型的竞争中,并没有完全能够超越OpenAI和Anthropic。

我认为我们在几集前讨论过这个问题。当你作为云或ChatGPT的用户使用Gemini时(至少我如此),它在推理技术和整体智能方面往往会让人有点失望。希望Gemini 2.0能够解决这个问题。但是

如果谷歌能够增强其AI助手,也就是内置于Android手机的AI助手,那么正如你所说,杰里米,分发是关键,他们就拥有很大的优势。所以每个人都在努力将智能体放到你的手中,成为你的私人助手。而谷歌拥有手机和浏览器,如果他们拥有足够好的版本,人们很可能会默认使用这些智能体。

是的,智能体。我认为我们站在大多数人的预测一边,即不久的将来,大多数人都会将AI智能体作为日常事物来使用。所以这对谷歌来说是一个非常重要的举措。

好的,还有几个重要的事情。我们会尝试加快速度。我们已经详细讨论了最后两个。下一个是来自OpenAI“船舶混乱”(ship mass)的另一个发展,正如他们所说的那样。所以我们有很多新的故事。我们将至少涵盖其中几个。接下来我们要报道的是ChatGPT高级语音模式,增加了视频和屏幕共享输入。

我们在之前的演示中看到过这个,我认为是在5月份,当时你与ChasGBT实时对话时,也可以向它展示视频流,展示一些方程式,询问它关于这些方程式的知识,它可以给出答案。这并不是高级语音模式发布的一部分,而现在是了。现在你可以做他们最初演示的那件事了。

除此之外,他们还添加了一个有趣的圣诞老人模式,它有一个新的语音选项和一个以雪球为主题的界面。是的,他们发布了很多东西,并且发布的兴奋程度各不相同。我认为这是一件相当重要的事情,但肯定不像Sora那样重要。

是的。

这有点让我想起了Gemma 2,它的演示非常脆弱。边缘情况有时需要很长时间才能解决。有很多东西。任何时候……

尤其是在你推出新的模式时,对吧?因为你必须创建新的评估,你必须创建新的测试,新的红队协议,这些协议不一定局限于你可能在基于文本的系统上运行的评估类型,而这是OpenAI之前一直在努力优化的。所以,无论如何,我认为这对他们来说将是一个新的挑战。而且据推测,就像我的猜测一样,由于他们已经建立了这方面的专业知识基础,因此后续的Sora发布将花费更少的时间。

接下来,来自微软的一个故事。似乎最近每个人都在争先恐后地发布类似的故事。他们也有一个关于智能体能力的故事。微软的Copilot将能够使用AI视觉与你一起浏览网页。

他们试图将其添加到他们的Edge浏览器中。这正在测试中。因此,这个名为Pilot Vision的功能,用户可以启用它来询问他们正在查看的文本、图像和内容的问题,以帮助他们。似乎不太像智能体。我很确定它不会能够接受请求并代表你访问网站来做事情。

这目前也处于有限的测试阶段,只有通过Copilot Labs程序的Copilot Pro订阅者才能使用。但另一个例子是,谷歌正在为他们的浏览器做智能体方面的事情,微软肯定也会朝着这个方向发展。这是一个早期的预览。

是的,这是微软开始不与OpenAI保持距离,而是以更强硬的方式宣示其独立性的另一个例子。我们有直接与OpenAI产品竞争的产品。他们想要这样做,因为据我所知,Sam Altman董事会风波确实严重影响了这种关系。

非常糟糕。在这一点上,你知道,微软正在考虑的背景的一部分是,他们确保他们没有,你知道,也存在反垄断问题,但他们也非常热衷于确保他们拥有自己的内部能力。而且,你知道,这将是这其中的一部分。同样,你知道,分发是关键,微软通过Copilot肯定拥有这一点。所以看看这个的采用率将会很有趣。

还有几个故事,现在从X(以前是Twitter)开始,他们发布了一个Grok图像生成模型。

所以这最初只提供给部分用户。他们说将在一周内在全球范围内推出。这是一个图像生成模型。它可以根据文本或其他图像生成高质量的图像。它的代号是Aurora。当然,我们对此知之甚少。

但有趣的是,他们正在训练我。我想OpenAI有DALI,而且据推测其他公司也有他们的图像生成模型。Grok最初允许你使用Black Forest Labs或Flux进行生成。现在他们有了这个据推测是内部的模型。

是的,这也很有趣。是的,Black Forest Labs的部分,我不知道他们现在在想什么,因为我认为我们上周谈到了他们的重大融资。这有点,你知道,我认为他们现在正在争取10亿美元。所以,你知道,这些估值取决于与X持续的关系。

并且在Grok用他们自己的原生图像生成功能取代了这一点的程度上,这对Black Forest Labs来说是一个结构性问题。就像,我不知道他们该如何从中恢复过来。就像事情一旦开始,你就会开始看到互动,对吧,Grok 3、Grok 4和图像生成功能之间的互动。有很多原因可以解释为什么会出现这种情况,从图像的注释,例如高度

高度描述性的标题等等。只是世界模型图片。最终,你知道,多模态最好在一个大规模的生态系统中完成。因此,你知道,你不太想将单个用例、单个模式(如视觉)外包给合作伙伴。所以我很想知道这对这种关系意味着什么。

博客文章本身并没有太多信息,对吧?尽管X倾向于这种开源方法,但这绝对更像是一个闭源公告。我们没有代码。我们没有架构信息。我们只是在等待,显然,非常擅长照片般逼真的渲染,对吧?并且精确地遵循文本指令。好吧,这与我们迄今为止从其他产品中看到的情况非常一致,但有趣的是它将成为X的原生功能。

对。再说一次,我们对此知之甚少。它可能是基于Flux构建的,但他们确实声称这是经过训练的

似乎是他们自己训练的。所以是的,令人印象深刻。考虑到他们处于追赶模式,XAI分享的另一个令人印象深刻的事情。接下来是Cognition Labs,一家初创公司。他们用Devon的演示引起了轰动,他们称之为软件工程师。它已经发布了很长时间,至少几个月了,自从他们最初预览它以来。如果你是一个订阅者,你可以使用它。所以你必须每月为个人和工程团队支付500美元。

有一个集成的开发环境扩展和API,还有一个入门课程等等。所以是的,这是智能体故事的另一个部分,我们已经有了很长时间的AI代码编写辅助。我认为它们已经相当深入地集成到许多程序员的工作流程中。我知道对我来说,情况确实如此。

现在,一场竞赛正在进行,目的是制造能够在软件方面做得更多的软件工程智能体。是的,这很有趣。我的意思是,Devon很久以前就发布了,对吧?比如八个月前,在三月份。

当时,所有这些令人印象深刻的演示都是关于这是否是炒作的说法和反驳。它似乎可能是一个相当脆弱的模型,因为,再次,这个想法可以进行演示,但它是否能够实际执行实际任务

现在的说法是,至少这个版本的Devon,当用户给它分配他们自己知道如何完成的任务时,它真的很好。还教模型测试它的工作,将会话保持在三个小时以内,分解大型任务。基本上,如果你使用……

这些工具,无论是Copilot还是你在开发中使用的其他工具,这都是标准的东西。所以它似乎是那些事情之一。我很想知道并排比较的结果,如果你要捍卫每月500美元的价格点,这要求很高。所以,你知道,你面对的是,你知道,OpenAI的01,你每月支付200美元用于最高付费层或最昂贵的层。

那么,对于这个用例来说,这真的会好两倍半吗?我认为这是一个非常有趣的问题,我们很快就会找到答案,因为我认为,说到Devon和你的Cognition Labs,

我认为他们面临着艰难的挑战。我会说我对他们、Cohere、Adept.ai以及所有这些没有筹集大量资金的中等规模公司所说的同样的话。现实是,规模化仍在发挥作用。我知道现在有很多关于规模化的否定说法,但是当你真正观察正在发生的事情时,它仍然有效。这就是为什么公司正在投入数十亿美元用于新的数据中心建设,比如数百亿美元。

所以我认为像Cognition这样的公司,如果规模化趋势确实继续下去,实际上将会陷入困境。所以我天真的预期是,它们会在未来两到三年内倒闭。我们将拭目以待。希望他们能证明我错了。然后这就是这个领域的一个问题,对吧?就像富者越富一样。你有大型参与者,他们能够负担得起大型数据中心,这些数据中心

构建更好的模型。但我认为这是一个,这是一个相当有趣的时刻。我几乎想说成败在此一举,因为他们要么超越OpenAI的01和类似的模型,比如Claude 3.5 Sonnet new,这可能是这里最直接的竞争对手,要么他们做不到。而且你,再次,你正在捍卫每月500美元的价格。这是一个非常高的价格点。

而且他们,我不知道他们是否声称正在训练他们自己的模型。我认为这也是一个用户体验越来越重要的例子,如果你在一个领域竞争的话。所以他们能够在浏览器中使用它。他们为你的IDE提供了集成。

你可以通过shell使用它。很多时候,这也是如果你采用一个工具并了解这个工具的一部分,你可能会坚持使用它,对吧?你不需要一定要训练模型。你可以使用Llama,你可以使用另一个API。你只需要人们坚持使用你。而这目前是Cursor和许多做工作的初创公司之间正在进行的一场战争

仅仅是软件工程或内置的东西的工具。所以,我不知道。是的,这是一个很好的观点。对不起,你说得对。是的,我的想法绝对是朝着那个方向去的。你说得对,作为一个平台/集成商,我认为这很好。如果没有关于它在幕后如何工作的具体信息,你就会冒所有标准风险,你会与

拥有分销权的大型参与者竞争,并且也会被OpenAI或Claude的用户体验和用户界面完全吞噬。但是你绝对是对的。是的,这是一组不同的风险。而且,正如你所说的比较,它将会……

现在正在查看他们的博客,他们确实发布了对OpenAI 01的评论,然后谈论了编码智能体。所以,是的,我认为所有这些来自许多人的关于智能体的工作,都有一些担忧。

好的。上周还有更多关于新闻的故事。我们还有几个。下一个是OpenAI的“船舶混乱”趋势的一部分,但也有一些更多。这个是关于苹果的,他们发布了iOS 18.2。

其中一部分是与Siri的新ChatGPT集成。所以最终,你可以做到这一点。用户不需要OpenAI帐户即可使用此集成,但你可以选择通过Apple升级ChatGPT版本。而且显然还有一些隐私保护措施,OpenAI不会存储请求。

除了这个集成之外,你还可以获得一些东西,比如Genmoji、更好的文本工具以及我们在Web Intelligence中看到的一系列功能。是的,很高兴看到这个到来。它可能比人们预期的要长一些,至少我预期的要长一些,但这对于Siri的生存至关重要。

是的,有了它,OpenAI现在正与微软和苹果公司进行大规模合作,这非常不寻常,对吧?这些通常是,苹果与微软的竞争是现代硅谷历史上持续时间最长的竞争之一。所以,你知道,这是CMA能够以其方式与这两家公司建立密切关系的一大壮举。另一件事是,苹果公司已知正在构建他们自己的

内部大型语言模型。他们的希望是能够在内部做更多的事情。所以这将很有趣,从数据角度来看,我不记得这种交换中的数据流的细节,对吧?比如哪些数据保留在Apple Store上?我的意思是,我听说过这样的说法,你知道,

用户数据保留在Apple硬件上,不会接触OpenAI硬件。我不记得这究竟是如何实现的,但这将是这里的核心关注点,也是苹果尽可能多地内部使用自己的LLM来提供聊天机器人的一个品牌原因。但是是的,就目前而言,它似乎是一个,我不知道该怎么称呼它,比如一个,方便的联盟,目前这两家,呃,

两大巨头。如果你是Siri的用户,它的工作方式是这样的,这应该会自动启动。如果你问Siri一个它无法处理的复杂问题,它会询问你是否允许它访问ChatGPT来回答问题。所以

也许如果你问Siri棘手的问题,你就会开始看到它。最后一个故事。这个故事是关于Reddit的。他们有一个新的AI搜索工具。这叫做Reddit Answers。它就像它的名字一样。你可以问这个工具一个问题。它会浏览Reddit,大概会,并为你提供答案。

这意味着,与其在谷歌上搜索人们在Reddit上所说的内容,你可能会直接去Reddit并询问这个工具,人们在Reddit上关于各种事情的看法。目前它最初只提供给美国和英语的有限用户。

但它可能会很快扩展到更多语言以及Android和其他类似的东西。是的,这实际上是搜索领域中正在发生的一场非常有趣的战斗或次要情节的一部分。所以Reddit,我不知道你是否发现过,但在过去的两年里,我发现自己越来越频繁地使用谷歌来查找东西

子reddit。基本上,嗯,我想要真正的答案是在某个,你知道,机器学习子reddit上,对吧。或者,或者某个,呃,我不知道,某个,某个,我做的其他事情。我不做很多事情,但基本上是这样的事情。而且,嗯,

所以你实际上是使用谷歌作为进入Reddit的一种方式,这表明谷歌有点麻烦,对吧?如果这就是他们所依赖的,如果你发现自己越来越被某个平台所吸引,诚然,对于某些用例来说是这样。但这使得Reddit非常有诱惑力地说,嘿,你知道吗?我们会让它……

更容易使用AI增强工具集,你知道,本地拥有摘要器、搜索产品等等。与此同时,谷歌正在尝试……

总结网站而不是仅仅提供网站的整个想法,这对Reddit这样的网站来说是一种威胁,因为,嘿,也许你不需要点击。也许你不需要真正给他们你的眼球。你只需要把那些眼球完全交给谷歌。所以这一切都是景观变化的一部分,主要是在谷歌脚下。我认为从长远来看,这对谷歌来说是一个结构性风险,当然。搜索将发生巨大的变化。

我们只是不知道最终产品的形式是什么。我们不知道最终产品的形式会是什么。但在这里的另一个趋势实例,是的。

他们至少在这篇文章中给出了一个例子,第一次带婴儿乘飞机的技巧,这正是你可能会在Reddit上询问的那种事情。它会给你一个格式良好的回复,其中包含指向原始讨论的内置链接。在某种程度上,这与AI搜索的整体趋势非常相似,它查找一堆选项

文章或在这种情况下是Reddit对话,为你总结在一个新的AI生成的答案中,该答案结合了所有这些信息并为你提供了返回原始来源的链接。所以,是的,我完全同意。我认为人们经常使用谷歌来查找他们正在Reddit上思考的事情的讨论。也许这会开始改变这一点。我们将拭目以待。

好的。这就是工具和应用程序的内容。上周有很多内容。接下来是应用程序和业务。第一个故事再次是关于OpenAI的。总结是OpenAI的目标是取消微软的AGI规则,以促进未来的投资。据内部人士称,这据报道,这里没有任何官方说法,

有一条规则阻止微软访问未来的AGI技术。这是很久以前制定的。这将意味着我认为基本上OpenAI一旦达到他们认为是AGI的水平,就会拥有控制权。商业合作伙伴不一定能够访问它。

这可以追溯到它还是非营利组织的时代。好吧,现在它正试图追求盈利,各种事情都在发生变化。这可能是其中之一。是的,这很有趣,对吧?仅仅是因为OpenAI最初是如何构建这个例外条款的,对吧?当微软第一次进行巨额投资时,实际上是100亿美元,对不起,那是在之前,大约是他们投入的10亿美元左右。

嗯,你知道,说法是,好吧,嗯,现在你拥有所有这些崇高的目标,关于确保人工智能的好处与每个人共享,并且你安全地构建它,你不会,你会实际投资于超级对齐,而现在你正在与微软合作,这种合作方式使他们能够访问你的知识产权,所以就像

你知道,如果你与一个不受这些约束的人紧密相连,那么你对如何处理这项技术的保证有什么价值呢?而那里的回应是,哦,好吧,别担心。正如你所说,我们的协议中有一条条款,阻止微软

访问AGI。他们可以访问任何其他东西,对吧?这是协议的一部分。但是一旦我们达到AGI,他们内部将其定义为“在大多数经济上有价值的工作中胜过人类的高度自主系统”,那么微软将无法访问该技术。现在你可能会问自己,高度自主的系统在大多数经济上有价值的工作中胜过人类,这听起来很模糊。

当然有人必须确定这意味着什么,并跨越这个门槛。答案是肯定的,OpenAI董事会,非营利组织的董事会将决定何时达到这个门槛。因此,微软何时将无法访问OpenAI的技术。

现在。问题是,如果你要求微软和其他大型参与者投入巨额现金来推动你持续的规模化,你实际上别无选择,只能说,好吧,敞开胸怀,你将能够使用所有这些技术。这是一个大问题,对吧?这对OpenAI来说是一个大问题,现在在他们的网站上写着,

引用,“AGI明确地从所有商业和知识产权许可协议中排除在外。这样做是为了明确防止,你知道,那些不太重视安全、安全性的人,你知道,

无论OpenAI目前怎么说,它都是为了防止他们访问这项技术。而现在他们正在撤销这项措施,对吧?所以这实际上,我认为这将被许多早期的OpenAI支持者正确地视为对其早期原则的直接违反,对吧?

为了能够继续扩展而牺牲原则,这是一个要求。就像,看,我们正在进行规模化竞争。OpenAI别无选择。他们需要能够引进新的资本,因为规模化的资本支出要求非常高。但这是Sam Altman在本周三刚刚结束的纽约时报会议上解释的。他说,引用,“当我们开始时,你必须想象我在这里用语调说话。当我们开始时,

我们不知道我们将成为一家产品公司,或者我们需要的资金会如此之多。如果我们知道这些事情,我们会选择一个

不同的结构。这非常有趣,因为它与之相关。我从OpenAI的朋友那里听到很多东西,甚至是一些在,让我们说,Sam的圈子里工作过的人,他的观点是,哦,问题是公司结构,从一开始就完全错了。如果他试图向自己和其他人解释这个论点,他将面临的根本挑战

是这些原则本身,支撑OpenAI活动的原则,这些关于安全和保障等等崇高的理想,这些都是OpenAI自己当时的论点,被这一行为所背叛。至少对很多人来说,情况似乎就是这样。我认为那里有一个相当有力的论点。不过,还有一个出于必要而似乎胜过一切的论点,那就是,是的,好吧,如果我们想在这个过程中扮演任何角色,

新世界,我们必须能够扩展。这意味着我们必须能够追求盈利。我们必须能够放弃这样的条款。但我认为这非常非常棘手,尤其是在,你知道,你考虑从非营利组织到营利组织的整个转变,你知道,OpenAI现在,你知道,特别是Sam Altman的话开始显得不太可靠。就像

很难想到OpenAI过去承诺的事情,他们现在仍然坚持。我们已经看到失败了,完全灾难性地未能资助超级对齐,人们实际上就像连续三轮超级对齐领导层一样离开了公司。而且,承诺是20%的资源将用于安全,对吧?据报道并非如此。这可能是内部沮丧的原因之一。是的。

没错。关于这一点也有模糊之处,是他们到那时为止获得的计算能力储备的20%,还是未来20%,所有这些事情。你可以争辩说,顺便说一句,这种模糊性是一个特点而不是一个错误,它使得更容易声称他们正在遵守。但即使按照任何合理的标准,似乎他们只是在这方面失败了。在许多这样的情况下,就像

许多这样的例子,这似乎只是另一个例子。所以我不知道这里的互动会是什么。我不是律师。我不知道这里与非营利组织到营利组织的转变之间的互动会是什么。但是,OpenAI的清单现在变得很长了。

而且,是的,如果微软在愿意投入更多资金之前,希望采取这一举动,我不会感到惊讶。正如你所说,什么是AGI,什么不是AGI的问题相当模糊。所以如果你是微软,你会说,好吧,我不知道。即使我们不同意,你也可以称某事为AGI,对吧?有些人可能会争辩说O1已经是AGI了。我认为OpenAI基本上说过这样的话。

是的,如果你可以说,哦,这是你想访问的东西,因为我们认为它是AGI,那就不好办了。所以从商业角度来看,这很有意义。

第二个故事,我们有一段时间没有谈到过,但我个人认为这是一件大事。这个故事是通用汽车停止了对Cruise的自动驾驶出租车开发的资金,结束了持续已久的过程。

悲剧,你可以这么说,他们已经报道了一段时间了。有人可能会说,这是一场慢动作的车祸。对不起,我会自己看看。是的。那么发生了什么,快速回顾一下,Cruise在一年前,我相信,发生了一起重大事故,在那里……

他们部分地负有责任,让我们这么说,因为有人受到了某种程度的伤害。由于一名人类驾驶员,发生了一起车祸,但随后Cruise汽车以一种伤害某人的方式停了下来。最大的问题是Cruise与监管机构的沟通,让我们这么说,是可疑的。他们没有完全披露所有信息。他们没有完全配合。这导致了一系列问题。

当时Cruise正在旧金山街头进行测试,就像Waymo一样。这结束了。我们看到Cruise慢慢地重新回到游戏中。但问题始终是他们是否会试图与Waymo以及日益壮大的特斯拉竞争。现在他们几乎退出了。很明显,

通用汽车计划收购剩余的Cruise股份,然后将其整合,大概是为了在其汽车中使用这项技术。所以,是的,现在似乎只有两家大型参与者了。基本上,Waymo和特斯拉是自动驾驶机器人出租车的两个潜在提供商,并且

Waymo在美国的推广越来越广泛,但速度相对缓慢。特斯拉不断改进其FSD软件。最近,他们推出了FSD 13,目前看来非常令人印象深刻。是的。

让它接管并载你四处行驶,要安全得多。他们说,由于端到端训练是从视频数据直接进行的,因此更像人类。所以,现在这些事情可能会被忽视,但我预计一年后,很多机器人出租车都会随处可见。这将是一项非常大的业务,Waymo或特斯拉或两者都将主导。

是的,Cruise与通用汽车的关系一段时间以来一直复杂且动荡。该公司创始人Kyle Vogt(他曾带领公司经历了著名的Y Combinator)去年11月离开了公司,离开后,他发了一条

推文说,如果之前不清楚的话,现在很清楚了,通用汽车是一群傻瓜。所以,你知道,那里的历史确实很动荡。本田也是Cruise的外部投资者。到目前为止,他们已经向Cruise投资了大约8亿或8.5亿美元。他们基本上计划在2026年在日本推出无人驾驶叫车服务,但他们表示现在将重新评估这些计划。

无论如何,正如你所说,这两家公司同时退步,这很有趣,只剩下两家大型参与者了。在无人驾驶领域,这很有趣。接下来是快速问答环节,我们有很多关于硬件的故事。首先,世界上最大的AI数据中心将在阿尔伯塔省西北部建造。

这个项目名为Wonder Valley,这是最大的AI数据中心的名字。预计耗资700亿美元。

由Greenview市政区和O'Leary Ventures(由加拿大百万富翁Kevin O'Leary领导)合作资助。对我来说完全是个惊喜,Jeremy。我猜你对此有更多补充。

是的,这太疯狂了。这是一个巨大的故事。我认为从基础设施的角度来看,这可能是本季度最大的故事,如果不是最大的故事的话。所以,为了让你了解一下,人们现在正在努力寻找额外的千兆瓦电力,对吧?所以,作为参考,一个H100 GPU大约需要一千瓦的电力,对吧?它消耗一千瓦的电力。所以,如果你想要1000千兆瓦

H100 GPU在你的数据中心,你需要兆瓦,对吧?如果你想要一百万个H100 GPU,你需要千兆瓦。所以,当我们谈论千兆瓦电力时,我们大致是在谈论数量级上大约一百万千兆瓦

NVIDIA H100或同等产品。我们现在看到的是,像Netta这样的公司正在寻找大型的2千兆瓦集群,对吧?1千兆瓦集群,1.5千兆瓦集群,诸如此类。目前还没有计划达到10千兆瓦集群。换句话说,就是需要大量基础设施建设才能达到1000万个H100同等集群的规模

这确实值得注意,因为加拿大不知何故突然变得重要了。人们一直在北美各地寻找可以建造这种大型建筑的地点,这些建筑可以容纳真正达到1000万个GPU的门槛。这就是这真正意味着的。现在,这个项目将分阶段展开。不会一次全部完成。第一阶段……

将涉及上线的第一个1.4千兆瓦电力。他们计划此后每年增加1千兆瓦的电力。同样,非常粗略地说,一千瓦大约是一个GP,大约是一个家庭。所以你在这里想到的是大约……

每年在这个小区域内为额外100万个家庭供电。这是一个相当了不起的基础设施建设。而第一阶段的建设,也就是最初的1.4千兆瓦,估计耗资约28亿美元。所以绝大部分资金将在后期投入,因为他们希望扩大规模。这对加拿大基准发电能力来说是一个很大的提升。大约是150千兆瓦。

加拿大每年产生的电力。所以我们在这里希望将其增加,是多少?如果我的计算正确的话,大约是5%?是的,大约5%。这仅仅是来自这个地点的可用电力就增加了5%。你需要这个,对吧?你需要这个才能为冷却、GPU、基础设施等等供电。但这使得这个位置……

一个非常有趣的战略位置。突然之间,它变得重要了。现在时间表很棘手,对吧?所以我们在这里听到的是,我们将达到7.5千兆瓦。是的,这是目标。但想法是在未来5到10年内上线。所以,当你考虑到,特别是如果你相信AGI的时间表或类似于2027年这样的时间表,那么你可能会认为这太少,太晚了,或者至少

在全部7.5千兆瓦的情况下,但更早上线的1.4千兆瓦可能仍然是相关的。总的来说,非常有趣。为什么这会发生在阿尔伯塔省的Wonder Valley,就像在偏远地区?答案是第一,油砂。阿尔伯塔是加拿大一个以拥有大量天然气而闻名的省份,这要归功于阿尔伯塔油砂。此外,文章中没有提到,但可能非常有帮助的是,那里非常寒冷。好吧,

这可能会大大简化。然后还有在那里开发的各种管道基础设施。显然,阿尔伯塔省并不是……阿尔伯塔省是加拿大的德克萨斯州。所以他们生产那里的所有石油。他们甚至有踩踏事件。它基本上就是加拿大的德克萨斯州。因此,有各种管道可以让你非常容易地移动石油

资源。还有一个光纤网络。所以有很多原因解释为什么这是一个非常有希望的地点。而《鲨鱼坦克》的名人Kevin O'Leary,对吧?如果你看过的话,你知道他是加拿大人,但他也是美国世界中的一位重要人物,曾在国会就加密货币作证,他还做过各种类似的事情。

所以我认为我们将从这个项目中看到更多内容。这真的非常有趣。人们希望他们将利用适当的国家安全资产来保护这样一个地点,因为尽管今天可能看起来并非如此,但如果你相信AI系统将越来越具有武器化能力,那么这将首先是一个国家安全资产。

在一个非常相关且有些类似的故事中,Meta宣布在路易斯安那州建设一个400万平方英尺的数据中心,耗资约100亿美元,使用2千兆瓦的电力。

电力,并将用于训练Llama AI模型。他们表示,他们承诺将电力使用与100%的清洁和可再生能源相匹配,并将与一家名为Entergy的公司合作,为电网带来至少1.5千兆瓦的新可再生能源。

是的,这与我们越来越多地从所有这些大型公司那里看到的情况非常相似。

是的。2千兆瓦再次,我的意思是,这是一个非常可观的电力,但需要获得监管批准,对吧?这个重要的短语。我要说的是,现在,新的发电机预计将在2020年至2029年之间上线,这取决于监管批准。鉴于特朗普政府在对美国能源基础设施进行大规模放松管制方面的议程,这可能会快得多,这

至少在我看来,这是一件非常重要的事情。我认为即使是拜登政府也成立了一个特别工作组来研究如何才能做到这些事情。所以预计至少与监管障碍相关的时间表将大幅缩短。这也是我一直在努力研究的事情。这就像,你怎么做?你如何放松管制能源部分,以确保你可以释放

美国生产和AI方面的重要性,以一种安全的方式。是的,显然有九座建筑物,实际建设工作将于今年12月开始,并将持续到2030年。这些地点的一个有趣之处在于,它们基本上永远不会完工。一旦完工,

它们的使用寿命很短,因为下一代硬件就会问世。所以,是的,这有点像一座活生生的建筑,我猜。整体开发项目被称为Project Sucre。Sucre实际上是法语中糖的意思。不知道为什么。好吧,我猜是法语,因为路易斯安那州,但就是这样。所以,是的。

他们介绍了细节。有来自联合循环燃气轮机的2200兆瓦电力。还有两个变电站,顺便说一句,它们的积压非常长。无论如何,他们必须把所有这些东西组合起来才能使这些东西成型。但这将是一件大事。将用于训练未来的Llama模型。是的。

Meta名列前茅。是的,有趣的事实,这是Meta的第27个数据中心。他们还表示,这将是他们迄今为止最大的数据中心。Meta正在创造一些记录。还有一个关于这方面的故事。我们有一个来自谷歌的故事,据说他们未来的数据中心将建在太阳能和风力发电场旁边。这与他们与Intersect Power和TBG合作有关

气候。他们表示,这将是一种能够建造由现场可再生能源供电的数据中心的方式,据他们说,这是首个此类合作伙伴关系。这是一个200亿美元的计划。所以我很想知道你认为这有多重要,Jeremy。是的。

是的,我的意思是,电力来源很有趣。就像公司可以以此来炫耀一样。Meta做了很多这样的事情,他们会,你知道,建立一些太阳能或风能设施。太阳能和风能的一大挑战是,特别是当涉及到

训练模型时,你只需要高……高吞吐量持续的电力,对吧?高基载电力……不幸的是,风并不总是吹,太阳并不总是照耀,所以当你考虑可再生能源时,这是一个……一个严重的问题,所以在实践中,许多这些数据中心,虽然它们有时建在旁边,对不起,旁边或……

与许多可再生能源同时,这些公司会这样做以获得头条新闻价值。实际上,它们通常会消耗天然气或某种类型的……你知道,电网上的任何备用核电,诸如此类。所以这是这种趋势的一个例子。看看他们能否找到方法来解决发电的变异性,这将很有趣。但这也说明了公司走向表后的一大趋势。所以基本上,你将位于表前进行建设,在这种情况下,你将从公用事业公司获取电力。或者你可以去表后,在这种情况下,你基本上与电力供应商达成了协议,例如

并直接从他们那里获取电力。这正是这里发生的事情。在这种情况下,Intersect Power将拥有、开发和运营共址电厂。无论如何,这就是他们达成的协议。他们还获得了8亿美元的资金,Intersect Power,

来自谷歌的电力。因此,发电公司和大型科技公司之间的互联互通现在真的开始成为一件事情了。AI正在吞噬一切。看到你必须成为一家电力公司,你必须成为一家硬件设计公司,就像所有这些规模化AI所需的东西一样,这很有趣。

是的,这很有趣,因为显然数据中心已经存在了几十年了。谷歌、Meta拥有大型数据中心。他们已经处理过类似的需求。你当然需要大量电力来运行数据中心,但现在有了这些AI数据中心,情况就变得困难得多了。一个不同的野兽。是的,我相信仅仅关于这个主题的书就会很有趣。但是是的。

我需要写很多关于AI和现在正在发生的事情的书,我猜。接下来是项目和开源部分。我们在上一集中有很多故事,这次只有一个,它也是关于谷歌的。他们发布了PolyGemma 2。这些新的PolyGemma模型是视觉语言模型。它们的预算为30亿美元、100亿美元和280亿美元。

变体,分辨率也不同。它们有九个预训练模型,具有不同的尺寸和分辨率组合。

所以是的,我们现在经常看到谷歌发布这些JAMMA模型。这似乎在文本检测、光学乐谱识别和放射学报告生成等方面取得了良好的基准性能。所以不是,你知道,这是一件大事。VLMs……

在开源方面不太突出。这是一个相当重要的VLM。是的。然后论文本身还有两个让我觉得特别有趣的观点。其中一个发现是,模型越大,训练期间最佳迁移学习率越低。所以当他们在许多不同的任务上训练这些模型时,

他们发现了关于学习率的这种模式。顺便说一句,学习率是指,当你改变模型时,每次处理一批数据时,你更新模型权重、模型参数值的数量是多少,对吧?如果你采用较大的学习率,那就相当于在参数空间中进行较大的更改,较大的步长,对吧?或者较小的学习率是较小的步长。这是一种常见的方式……

这种方式会形成,你往往会在训练过程的开始使用较大的学习率,因为你的权重最初只是完全垃圾,它们是随机初始化的。然后随着时间的推移,随着你的模型越来越好,你想要降低学习率,因为你越来越精细,随着模型的学习,对模型进行越来越小的调整。这是一个关于此的直觉提升。

所以,在这种情况下,他们有兴趣在不同类型的难题之间交叉。他们发现,模型越大,你需要的模型就越小

对不起,你需要的学习率越小。这很有趣。我的意思是,也许对此的一些直觉是,你知道,如果你有很多自由度,你可以调整它们,也许就像它允许你进行更细微的移动一样,而当你自由度较少时,你需要进行更显著的移动才能学习相同的东西,比方说。

一个有趣的结果。另一个结果显然是,增加图像分辨率与增加模型大小具有相似的计算成本,这最初让我有点困惑。实际上,这是有道理的。最终,

所以当你增加模型大小时,它花费更多计算的原因很明显,因为你需要调整更多的参数。所以你只需要更多活动部件,每次你通过一批训练数据时都需要改进,并且需要更多计算模型。

正向传递也是如此。但是,所以这里的问题是,如果你得到一个更大的图像,它将与……一个具有更多活动部件的编码相关联,就像更多基本上像你的模型必须处理的令牌一样。所以当然,你可能不会处理……

使用更大的模型来处理这些输入,但更大的图像仍然涉及更多计算,因为它基本上就像拥有更多……好吧,它更多的是数据。至少当你这样说的时候,这听起来很直观。所以你有两种不同的方法可以增加你的问题集的计算支出。你可以保持分辨率不变,但增加模型大小,对吧?所以你可以从你的30亿参数模型变成100亿参数模型,或者你可以保持模型大小不变

但增加了分辨率。根据你所处的状态,这样做或那样做实际上可能更有效。他们发现一个或多或少是计算最优的。所以我认为这很有趣。再次,更多的是关于缩放的文献,我相信我们以后会再讨论。

是的,我发现这个很有趣。他们基本上发现了三组任务。一组任务中,两者在改进方面大致相似。这实际上是大多数任务。例如,分割,他们发现使模型更大或增加分辨率,两者都非常有效。但有一些例子,例如TextVQA,其中

分辨率确实更有帮助,或者例如DocVQA,这很有道理,对吧?如果你需要阅读文本,更高的分辨率肯定会有很大帮助。然后他们确实有其他例子,例如ScienceQA,例如,也许是因为模型更大,它可以更好地回答科学问题,并且包含更多信息。所以这肯定是我以前没有见过的,这篇论文的一个有趣结果。

说到论文,接下来是研究和进展部分,我们从一篇非常酷的论文开始,即在连续潜在空间中训练大型语言模型进行推理。所以在像O1这样的推理范例中,你通常看到的通常是推理的方式是,你实际上告诉模型,

考虑你需要执行的一系列步骤来解决这个问题。然后执行每个步骤。在某些情况下,你会检查你的答案,然后迭代你的答案,看看是否有任何错误等等。

所有这些都是通过输出文本完成的,对吧?并将该文本反馈给模型。所以这篇论文提出了一种新的推理范例,他们称之为Coconut,它采用隐藏状态,即非文本,只是数字的混合物,以某种方式对大型语言模型中的含义进行编码

然后将其作为推理步骤输入模型,而不是像以前那样将该隐藏状态转换为单词。所以他们称之为连续思维,因为这些数字是对将成为文本的某种连续表示,而文本是离散的。你可以选择一组字母。

这种方法有很多好处。你可以探索多条推理路径。你不需要解码,解码是LLM中非常昂贵的操作之一,从表示到文本需要解码。所以这当然可以

增强你进行链式思维推理的能力。在实验中,他们确实表明,这在逻辑推理任务中优于链式思维,推理过程中使用的令牌更少。

是的,对我来说,这是本周迄今为止最好的论文。事实上,这是本周迄今为止最好的故事。这里的影响非常广泛。我认为这将很快被纳入,如果不是已经被纳入的话,坦率地说,这将很快被纳入我们为代理系统看到的训练方案中。

所以,基本框架是,你知道,你看到的基于文本的推理,正如你所说,使用链式思维,对吧,模型会明确地写出它自己的链式思维,并且它会使用它自己的链式思维来帮助它找到更优的解决方案。这种方法并不理想。这不是这些模型进行推理的最佳方式。大多数令牌用于文本连贯性、语法等方面,而这些对于推理来说并非必不可少。

相比之下,有些令牌确实需要大量的思考和复杂的规划,对吧?例如,考虑一下这样的句子:这个棋盘上的最佳下一步棋是空白,对吧?那个空白,就像你希望你的模型真正认真思考下一步棋是什么,下一个令牌是什么一样。但是对于当前的方法,你基本上在这个词上花费的计算量与在the这个词上花费的计算量相同,对吧?这并不是特别有信息量。所以

这是一个有趣的直觉提升,说明为什么你可能想要另一种方法,一种不涉及用简单的英语明确地阐述事物的方法。所以他们正在做的是,是的,之前,所以如果你想象你的转换器,你输入你的提示,你的输入令牌。

这些提示被转换成,好吧,它们被转换成嵌入,基本上只是一列数字,代表初始提示。然后这列数字被咀嚼,基本上被矩阵相乘,直到你得到一个最终的向量,一个最终的数字列表,它已经被咀嚼了很多次。这个最终的数字列表,最后一个隐藏状态,就是被解码成输出令牌的东西。

一个你能够解释和理解的实际单词。但他们在这里要做的就是,他们会取最后一个隐藏状态。他们不会对其进行解码,而是将其转回并将其馈送到模型的底部,在输入嵌入的位置,并使其再次通过。他们正在做……

基本上是让模型再次咀嚼那个令牌。这是思考这个问题的一种方式。但他们训练模型的方式是使用链式思维数据集。所以他们所做的是,他们首先说,好吧,你知道,想象一下你有一个链式思维,比如,好吧,我将首先解决这个问题。第一步,我将这样做。第二步,我将这样做。第三步,我将这样做,等等。

在训练过程中,他们将使用这个昂贵的收集数据集,即链式思维数据集。他们将首先开始……

对不起,让我退一步。当这个模型生成它的最后一个隐藏状态时,对吧,当你完成数据传播后,你有了你的最后一个隐藏状态。通常,你会解码成输出令牌,但现在你再次将其馈送到模型的底部。好吧,你仍然需要一个被吐出的令牌,只是为了让你的模型保持连贯性,基本上,无论如何,为了尊重它是一个自回归模型的事实。

所以他们要做的就是在这个位置输出一个思想令牌作为输出。现在,你基本上可以决定在你的输入和你的答案之间想要多少个思想令牌。这允许你以一种非常有趣且相当客观的方式来控制你的模型在生成答案时投入了多少思考,多少推理时间计算。所以第一,这是一种非常有趣的方式来量化事物。

半客观地衡量你的推理时间策略中投入的计算量,对吧?所以我们以前没有见过这样的东西。我认为它因此而令人兴奋。但让它变得有趣的是训练过程。所以你吐出的那个思想令牌,他们会取他们的数据集,他们的链式思维数据集,

他们会先省略一步,比如第一步,他们会试图让模型只用一个思想令牌来替换它。所以实际上并没有吐出第一步推理。

嗯,然后,然后他们会,他们会,你知道,但他们会保留第二步和第三步。他们会允许用简单的英语进行推理。然后在后来的训练中,他们会替换第二步,然后是第三步。所以这是一个迭代过程,你让模型在潜在空间中对越来越多的问题集进行推理。这允许你控制……嗯,无论如何,让模型以更稳健的方式收敛。嗯,

最后我要说的是,有很多,如果你要在本季度通读一篇论文,那就读这篇论文。这真的是一篇非常非常重要的论文。他们发现的一个关键点是,在传统的链式思维中,当模型即将生成一个令牌时,对吧?就像一段文本一样,实际上被解码成该令牌的最后一个隐藏状态是

它实际上包含,它编码了令牌上的概率分布。当你强制它实际解码以给你一个令牌时,你是在告诉它,看,我知道你认为解决方案可以以十几种不同的令牌开始。我将强迫你只选择你认为最有可能的那个。

现在,在这个过程中,你真正做的是摧毁模型正在考虑探索的所有可能性。它基本上处于这样的状态,你知道,就像你一样,如果你正在考虑解决问题,你可能会想,好吧,你知道,我的方法可能包括这个策略或那个策略。我不确定先尝试哪个,但它基本上强迫你去做,好吧,我将致力于这个。

一旦它做出承诺,一旦它在一个传统的思维链策略中实际解码了那个标记,那么它就会切断所有其他可能性。它基本上停止探索可能的解决方案的完整空间,并且被锁定。然后在下一阶段,当它正在经历生成序列中下一个标记的过程时,它会再次说,好吧,当然,我被锁定在第一个标记上,但对于第二个标记,我仍然可以探索广泛的

可能性,它将再次被迫锁定。这非常有趣,因为通过将推理保留在潜在空间中,通过保留最后一个隐藏状态而不对其进行解码,你允许模型同时考虑和探索许多不同的策略。来自标记一的各种可能性然后与来自标记二的可能性相结合,而不会被……

解决方案崩溃成一种可能模式所中断,并且有很多相关的含义,他们对如何实际将此过程视为某种……某种树状结构进行了很好的分析,有点像树、网格、同时探索的可能解决方案的网络,以及如何反过来利用它来衡量推理的有效性,这是一篇值得阅读的论文,这是一篇值得深入研究的论文……

顺便说一句,这很有趣,他们使用预训练版本的 GPT-2 作为所有这些实验的基础模型。

我认为有很多理由让我们怀疑这将随着规模的扩大而得到极大的改进。众所周知,GPT-2 显然是一个非常非常小的模型,但我们在这里看到的这类事情,探索许多不同的路径,就像思维链一样,这些都是我们已经看到随着规模扩大而得到很大改进的事情。所以无论如何,我认为这是一件非常非常重要的事情,有很多原因,我希望我们能做一个完整的节目来讨论它。

是的,还有更多内容要说。这里有很多事情正在发生。例如,正在发生的一种有趣的事情是,理想情况下,模型可以被简单地训练。你知道,如果你只是进行优化,它就会能够做到,我想,与递归模型类似的概念,对吧?是的。

你将输出反馈给自己,它每次都会变得更好。实际上,我发现你需要进行课程训练。所以我这样做有一种特殊的训练制度。随着时间的推移,对各种目标进行训练。

他们实际上也与一篇名为 ICOT 的论文进行了比较,ICOT 是内化思维链推理。所以这是一种范例,来自今年早些时候,它不是这样做,这实际上是采用思维链推理并训练模型在这个连续空间中很好地进行思维链推理,

你可以尝试优化模型以隐式地进行思维链推理。你训练它能够输出与它进行思维链推理时相同的答案,而无需输出和解码到思维链中,这也能很好地工作,正如你所预期的那样。这是你实际上可以在这里结合的一件事。他们说这是一个未来的研究方向。也许你可以两者都做。你可以优化模型以隐式地进行思维链推理,并使其能够进行,我想,额外的研究。

连续思维链推理。他们确实表明这种技术比隐式思维链推理效果更好。但是,你知道,它们在这里都是非常强大的技术。是的,我们可以深入探讨很多内容,但可能我们没有太多时间。所以我们必须就此结束。

下一篇文章,我认为也是一篇来自过去一周相当重要的文章。标题是《进化型通用转换器内存》。这来自 Asana,一家已经引起一些波澜的创业公司

哦,伙计,我正在展示我在日常工程中使用的工具集。Sakana,是的,它是由一些在进化优化领域经验丰富的研究人员创建的,在那里你不会进行梯度下降,而是进行这种不可微分的方法优化,同样,

我想,我不知道这是否过于技术性,但基本上你可以优化那些你无法用神经网络通常训练方式优化的事情。他们发现这是一个例子,你可以训练这个神经注意力内存模型,它被优化为决定哪些标记值得保留,基本上,在长上下文用例中,你拥有

非常长的输入,并且你需要在转换器中进行某种内存,一种工作内存类型的事情,通常我认为这是通过使用长上下文输入进行常规训练来隐式训练的。在这里,他们是

优化这项技术,以关注整个神经网络中各个层面上最相关的的信息,这提高了各种长上下文基准测试的性能。这可以与任何

现有的大型语言模型类型的训练模型相结合。是的,这是一种有趣的方法,并且肯定增加了他们添加到堆栈中的更多归纳先验。所以基本上,这就像你的注意力层……

将查看你的输入并确定,好吧,我应该最依赖哪些标记来回答?或者模型应该最依赖哪些标记来回答?为那些标记分配更高的注意力值并继续?这方面有一些问题。例如,首先,并非所有,例如,你最终会拥有这些巨大的 KV 缓存,基本上是保存计算这些注意力值所需的数据以及注意力值本身的缓存。而

问题是并非所有标记都同等重要。其中一些可以丢弃,而你只是用一堆你实际上不需要保留的无用东西占用大量内存。因此,这里我们试图回答的问题是,我们能否构建一个模型来选择性地确定和丢弃 KVCAT 中不需要的标记数据?

这非常有趣。他们将使用辅助模型来做到这一点。他们将使用进化计算方法。这是一个非常有趣的计划。这里工作流程背后的总体直觉部分在于,

他们将使用傅里叶分析。这本质上是对,比如说,将信号分解成波状模式的研究。这通常用于识别在某些输入中出现的重复周期性模式。他们将将其应用于你正在分析的输入序列中的注意力值。

所以你可能会想,嘿,为什么要这样做?好吧,这是因为在这些注意力值中可能会出现模式。这些模式使注意力向量更易于压缩,对吧?任何时候出现模式,你都可以压缩事物,因为模式的定义是重复的事物,如果你只有一部分,你就可以重建其余部分。

所以这正是他们将使用的策略。这完全是关于弄清楚,你知道,我如何压缩它以丢弃我不需要的数据,基于,你知道,标记的频率模式,它被使用的频率,或者对不起,对不起,它如何被使用,标记在序列中的位置,它如何通过反向注意力与其他标记相关联。这是它自己的独立的事情。所以

通常,当你训练一个自回归模型时,你正在做的是你正在寻找。所以你正在尝试预测的当前标记,你可以根据之前的所有标记来进行预测,但不能根据之后出现的标记来进行预测。你实际上知道这些标记将会是什么,因为你通常在训练期间从已经完成的现有句子中提取这些标记。

但问题是,前面的标记通常确实与当前预测相关。无论如何,他们设置了一种反向注意力机制,让较早的标记查看较后的标记并从中获取信息,作为整个方案的一部分。所以

无论如何,这真的很有趣。我认为这是你想要深入研究的论文之一,如果这是你感兴趣的领域。但另一种增加复杂性的方法,计算需要做更多工作。我认为这是一条非常有希望的道路。对。这在某种程度上也是一种有趣的方法,因为你是在预训练模型之上创建这个额外的模块。所以有一个基础模型。例如,你可以使用 Lama 3,

并训练这个完全不同的东西,它以某种独立的方式运行,或者以某种方式添加到中间。如果你这样做,它可以在不重新训练的情况下转移到其他模型,其他大型语言模型上。

他们给出了各种基准数字。重点是在非常长的上下文基准测试上,例如 InfiniteBench。它似乎确实有很大帮助。我认为这是进展很多但并非完全解决的领域之一,这些长上下文的事情。所以这可能非常重要。

进入闪电轮。我们从 Apollo SGD 式内存和 MW 级性能开始。有点技术性,但我想我们会尽量使其易于理解。所以当你训练一个神经网络时,你基本上是在做

梯度下降。有一种特定版本的随机梯度下降,你从中采样数据的一部分。这是优化神经网络的基本方法。你计算从输出错误中得到的梯度,并将其反向传播。

好吧,你可以在此基础上添加许多其他细节进行优化。Adam 通常是人们使用的优化器。该优化器所做的是在最近的优化轮次中添加某种内存。这使你能够知道在不同权重上应该采取多大步长的学习率。现在,

现在,这使得你的性能更好,但这需要你记住之前的反向传播轮次的信息来计算更新的学习率。所以这篇论文的要点是,根据标题,SGD 式内存,item W 级性能,他们对内存高效的 LLM 优化进行了这种近似梯度缩放,Apollo,它近似于学习率缩放。

使用一些花哨的东西,让你摆脱 Atom 所需的所有存储。是的,我认为这是一个很好的要点。是的,是的。所以我认为最近有很多论文属于这一类,而且我认为出于非常非常战略性的原因,对吧?现在最大的问题是,我们如何在大量不同的

分布式、地理分布式训练集群中扩展 AI 训练。原因是很难在一个地理位置找到足够的电力和能源来建造一个数据中心,就像,你知道,一个千兆瓦或一万兆瓦的数据中心,正如我们前面讨论的那样。因此,人们对如何建立分布式训练方案非常感兴趣,这些方案需要,例如,

像在不同数据中心之间长距离移动的数据更少。所以现在我们基本上感兴趣的是,我们能否压缩,我们能否减少需要在这样的系统中来回传递的数据量?所以出现了这个问题,对吧?Atom W,这是目前通常用于大规模训练模型的优化器之一。

它的工作方式是,对于神经网络中的给定参数,训练方案将记住,好吧,现在我们需要对这个参数进行这么多的更新。

上次和前几次我必须进行多少更新?如果所有这些更新都指向相同的方向,则表明在这个方向上有很多动量。所以,你知道,如果他们总是说非常显著地增加参数值,那么也许这意味着你应该真正非常显著地提高该参数值。基本上应用更大的学习率,对吧?移动它,使更新更大,对吧?然后相反,如果你发现动量较小。这是基本前提,但是……

我只是列出了你需要计算或记住的三个不同的数字,对于该特定参数。你会记住当前值、当前更新吗?你必须记住上一轮和前一轮的更新。对吧?所以总共是模型大小的三倍,你需要记住和传递的优化器状态内存中的模型大小。所以这里的目标将是说,好吧,我可以专注于而不是像字面上的每个参数

在我的模型中,例如,我可以专注于网络的一个块,他们称之为一个通道,本质上是一组倾向于表现相似的参数,并且只为该参数块使用一个缩放因子,一个学习率?

这样,你知道,我可以将我需要记住的数据量除以该块中的参数数量。他们将证明这实际上是有效的。它也适用于转换器的整个层。他们在张量参数中这样做。

压缩,他们在这里应用。无论如何,所以这真的很,真的很有趣。他们这样做的方法有点奇怪。我们不会深入探讨。使用了这种称为随机投影的东西,顺便说一句,像安德烈一样,从数学上讲,这仍然让我难以置信。你有一个随机矩阵,你用它乘以参数更新矩阵,你得到,就像你可以根据随机矩阵的维度得到一个更小的矩阵。但是

这个较小的矩阵将保留原始矩阵的一些关键数学属性,即使它乘以一个随机问题。没关系。这是 Johnson-Linden-Strauss 引理,这是我第一次遇到它。我的天哪,毫无意义。随机投影,什么鬼?好论文,好工作。就是这样。是的,有趣的事实是,有一个完整的研究领域,或者至少曾经有一个领域,你可以对神经网络中的隐藏层进行随机投影

在神经网络中。通常你更新神经网络中的所有权重。好吧,

你实际上可以随机初始化其中的一部分,这仍然对你有帮助,这是另一个非常奇怪的属性。很快,我确实喜欢偶尔这样做。这篇论文是德克萨斯大学奥斯汀分校和 Meta AI 之间的合作。所以近年来,人们一直非常担心大学

无法进行有用的研究,因为你确实需要这些疯狂数量的计算。通常情况下,人们在像 Meadow、谷歌这样的大型组织实习,并在研究生院最初在那里做了一些工作。我认为这是一个例子,即使你没有大量的计算能力,或者你的计算能力有限,你也可以进行一些真正有用的研究。

好了,最后一篇论文或研究工作。这是来自 Anthropic 的,他们称之为

所以 CLEO,一个用于保护隐私的洞察现实世界 AI 使用的系统。这里的想法是你有一群人在使用 Claude。你大概想能够理解我们如何使用它。例如,我们是否将其用于编码?你是否将其用于学习等等。

所以这本质上是一个框架,它可以自动化匿名化和聚合数据,从所有这些关于公开任何私人信息的对话中创建主题集群。因为如果你正在查看对话,有人可能会说,哦,这是一些医疗信息。你不想能够将其公开为人们正在谈论的特定内容。

所以这是一种发现使用模式的技术。他们揭示了一些有趣的事情,例如,超过 10% 的对话集中在网络和移动应用程序开发上。教育目的和商业战略讨论也很突出,分别占 7% 和 6%。

是的,我认为这很有趣。这是你作为 LLM 开发人员大概肯定需要知道人们将你的 LLM 用于什么目的的事情之一。是的,这将允许 Anthropic 有效地微调他们的模型,并通过识别潜在的政策违规和协调滥用行为来改进安全措施。

好的,继续前进,接下来是政策和安全。第一个故事有点黑暗,但我认为很重要。它与 Character.ai 有关,快速回顾一下,Character.ai 是一个聊天机器人平台,一个非常流行的平台,人们在那里花大量时间与人工智能角色交谈。

近几个月来,他们发生了两次争议和诉讼。其中一个……

一个青少年似乎或据称由于 Character AI 的一些影响,这个青少年非常痴迷于 Character AI。好吧,他们结束了自己的生命,这非常悲惨。父母说 Character AI 部分应负责任。还发生了另一起 Character AI 可能加剧的有害行为事件。

所以,Character Data 现在正在加强青少年安全。他们正在引入一个特殊的模型,一个青少年模型,旨在引导互动远离敏感内容,并降低用户鼓励或提示不当回应的可能性。还有一些分类器可以过滤敏感内容,并改进对用户输入的检测和干预。我认为这是其中一件事情

特别是对于 Character AI 来说非常重要,但总的来说,随着越来越多的人与 AI 互动越来越多,并以越来越亲密的方式或人性化的方式互动,不可避免地你会看到更多这样的故事,其中一个人可能被错误地鼓励去做坏事,或者可能被错误地,你知道,

以不应该的方式激励。这是 AI 安全的另一个可能尚未过多探索的领域,例如 AI 模型可能对人们产生的心理影响。所以这是一个已经发生在现实世界中的非常真实的例子,并且这家公司特别需要解决这个问题。

是的。是的。我的意思是,你知道,这是你可能很快就会看到一些监管的领域之一。我想,你知道,国会议员的孩子们使用这些工具。所以我希望他们对此相当敏感。这也有挑战,例如将儿童视为。

你怎么说?就像矿井里的金丝雀一样,对吧?就像你现在谈论自闭症青少年一样,但随着这些系统变得更有说服力,我们有一些非常基本的问题需要问,任何人类与 AI 系统的互动在哪里,在一个你可以被说服的世界里……

聊天机器人与你互动时有很多事情,你知道,在人生各个阶段的许多人可能会发现这些东西非常引人注目,并因此被诱导去做坏事。所以真的很难知道,是的,盐在哪里,但至少,你知道,现在有压力朝这个方向发展。有

一条通知说你必须年满 13 岁才能在 Character AI 上创建帐户。然后他们确实说 18 岁以下的用户在平台上会获得不同的体验,包括一个更保守的模型,以减少遇到敏感或暗示性内容的可能性。

但年龄是自我报告的。所以,你知道,我认为这是一个悬而未决的问题,即这些措施在多大程度上有效,超越这一点确实需要棘手的事情,例如证明,不一定是身份证明,但至少是年龄证明,在一个更……

令人信服的水平。因此,这也存在隐私问题。这是一个非常难以解决的问题。Facebook 早期在试图阻止 13 岁以下的人使用它时就遇到了这个问题,其他平台也是如此。所以这是一个具有挑战性的问题,也是当前聊天机器人状态的不幸现实。这里还有更多值得一提的内容。所以这是

部分是潜在的不良行为鼓励问题。这方面的另一个方面是成瘾,在很多情况下,尤其是在这里的情况下,青少年是

你可以说他们痴迷于或沉迷于与这些 AI 角色交谈,花数小时与他们交谈。Character AI 的这一声明是在……几乎立即在另一场诉讼被提起之后发布的。正如你所说,在这个案例中,有一个

17 岁的患有高功能自闭症的男孩,他花了很长时间,大量时间与 Character AI 交谈,据称被鼓励对他的家人、父母等采取暴力行为。所以

这方面的另一个方面是人们可能会真正上瘾,并以不健康的方式从 AI 中寻求陪伴和社会支持。这些平台真正需要开始解决的另一个方面,正如你所说,监管也可能需要解决。

下一个故事,现在转向政策。标题是特朗普的新 AI 和加密货币沙皇戴维·萨克斯对科技行业意味着什么。正如标题所示,有消息称将有一位 AI 和加密货币沙皇,戴维·萨克斯。

这有点奇怪。这不是一种正式的角色。这项任命不会有参议院的确认。这将是一个兼职角色。他将保留他在风险投资公司的工作职位。戴维·萨克斯,据记录,是一个非常著名的人,主持人,

一个非常非常受欢迎的播客《All In》的主持人之一,一直是特朗普的大力支持者。这意味着什么?当然,大概是,对 AI 和加密货币非常友好的方法,一种非常支持行业的方法。他还表示支持将 AI 整合到国家安全和国防中,并且

关于加密货币,快速提一下,这也将是这种情况,将会有相对较少的监管,比方说。是的,很难判断这个职位的左右界限将是什么。它不符合标准模式。如果你查看,例如,商务部,

他们有一个与……完全不同的工作流程,而且它没有办法与这个职位对接。所以你可能会自然地想知道发生了什么?我的意思是,这篇文章,

我推测,对不起,它可能更多的是关于关系,而不是对部门和机构的那种常规正式影响渠道。但归根结底,这确实意味着萨克斯将进入白宫,并且肯定会在 AI 和加密货币方面有影响力。其中一个问题也是

这在多大程度上延伸到国家安全领域?我认为这可能是这里最核心的问题。似乎非常像,特别是考虑到 AI 和加密货币的职权范围,当你开始考虑,好吧,但是与这项技术相关的国家安全风险呢?

这并不是说他不会发声。他大概会,但桌子上可能也会有其他声音。最后,我的意思是,正如文章指出的那样,并且对于关注这个领域的人来说非常明显,白宫现在有两个不同的阵营。你有马克·安德烈森,有点像戴维·萨克斯阵营,嘿,让我们,你知道,

开发 AI,基本上,你知道,在某种程度上谁在乎风险,这是一个有点夸张的说法,但更像是,你知道,好处远远超过风险,让我们继续前进。然后你有了埃隆,他显然已经谈了很多关于武器化、失去控制等风险的事情。所以这一切究竟如何发展,这将是一件有趣的事情。

而戴维·萨克斯的任命是,是的,再次,真的很难确定。这可能是目的。你知道,特朗普可能只是想让他在身边提供意见。我确实注意到他每年的最大工作天数设定为 130 天,因为他将是特别政府雇员。所以兼职和。

这里有一些争议指出,这不需要他剥离或公开披露他的资产,这会导致潜在的利益冲突等问题。无论如何,这是一个值得关注的有趣案例,我们将拭目以待。我的意思是,我认为很多事情尚未成形,政府可能甚至不知道他的角色将会是什么。他们只会让它发展下去,看看,你知道,影响力最终会在实践中落在哪里。

进入闪电轮,现在转向一些研究。我们有一篇论文,《前沿 AI 系统已经超越了自我复制红线》。自我复制是关于高级 AI 的担忧之一。基本上,如果你有一个高级 AI 模型,好吧,也许你可以把它锁起来,可以控制它,不允许它访问网络等等。

但是,如果 AI 模型能够自我复制,在其他地方复制自己,并将自己释放到世界上,如果模型随后决定应该做一些与人类利益相反的事情,那可能会导致坏事。

所以这是需要关注的常见事情之一,例如 Anthropic 持续评估新一代模型是否能够做到这一点。在这篇论文中,他们表明

在对几个模型进行的 50% 和 90% 的实验试验中,Rama 3172B 和阿里巴巴的 CRAN 2572B 分别能够成功创建其自身的活动和独立副本。这在实践中意味着他们能够生成部署另一个实例所需的代码。

这在某种程度上并不令人意外。我认为,如果你一直在使用这些东西,你知道,如果你注定要这样做,你并且你某种程度上被允许自我复制。例如,这就是高级模型应该能够做到的一种工程。

是的,并非完全令人意外,但绝对值得注意。杰里米,我相信你对此有更多要说的话。是的,我的意思是,我看到这篇论文在四处流传。正如你所说,我认为对究竟是什么……有点夸大其词。

我不想说这是夸大其词。我的意思是,这完全取决于你对自我复制的定义。如果你关注这个领域,你可能会记得Meter公司,该公司为OpenAI和该领域的其他公司进行这些自我复制评估。他们始终发现,到目前为止,模型确实越来越擅长进行自我复制类型的事情,但在某些情况下,它们做得更好,但它们实际上并不能很好地做到这一点,我们肯定还没有达到那个阶段。

那么问题就变成了,这与Meter评估有什么区别?这实际上取决于你如何定义自我复制。Meter倾向于关注深度复制,包括模型权重和架构。而这个更关注的是,正如你所说,交叉复制。

复制文件,启动进程,就像完成这项工作的工程方面一样,这仍然可以让你获得一个工作的系统。如果你更关心系统自动化而不是真正的深度AI复制,那么威胁模型实际上就成立了。但是当然,你知道,还有其他区别,例如Meter评估倾向于涉及更受约束的环境,对数据之类的访问较少,

你知道,比如系统命令、文件操作、第三方工具,他们真的在他们的某种,他们的代理框架,围绕模型的某种包装器上做了很多工作,以帮助,你知道,把它变成一个代理。至少在其最近的测试中,Meter无法在这方面做太多工作。所以,

我认为,你知道,这是值得注意的。它也与,特别是他们一些更具体的场景,确实包含很多硬编码而不是原生AI行为混合在一起,他们故意提示模型做某些事情。然后他们对它成功地做了那些事情感到惊奇,请注意,这是好的。或者不好,但是

这是一个合理的发现。但事实仍然是,这是在故意提示的情况下。所以基本上取决于你最关心哪些威胁模型。如果你担心某种像自主的AI驱动的某种独立的自我复制的冲动,这不会满足这种渴望。这是一个权力寻求的衡量标准。这里衡量的不是这个。他们真正关注的是能力维度本身。

而且,你知道,如果你,再次,如果你担心这个一般的威胁模型,是的,这可能是一个适度的更新。但我认为这并不是什么,正如你所说,任何人都真的会感到惊讶的事情,至少在能力方面,鉴于我们,你知道,我们已经看到这些模型在其他国家做了类似的事情。

没错。是的。所以这是你真的应该阅读标题之外的内容的情况之一,标题听起来有点严重,而细节则不然。接下来,回到我们经常谈到的地缘政治,这篇文章的标题是“芯片战争”。中国启动对英伟达的反垄断调查,标志着局势升级。

因此,这是一项调查,重点是英伟达69亿美元收购Mellanox Technologies的交易,声称这可能违反了中国的反垄断法。垄断,如果有人不知道的话,可能大多数人都知道,但如果你在某个行业中占据主导地位并扼杀了竞争。

这笔交易发生在2020年。它得到了中国的批准,但要求英伟达以公平且非歧视性的条款向中国供应产品。正如你可能预期的那样,这可能是中国采取的对抗美国政策的强硬措施。英伟达的股价在调查公告发布后下跌了1.8%,甚至还没有发生任何监管行为。

是的,我认为这就像,你知道,这是中国共产党对出口管制打击的相当标准的回应。就像我们上周谈到的那样,我们刚刚收紧了对高带宽内存、一些光刻设备出口等方面的出口管制。所以

中国以牙还牙。这也与他们限制稀土矿物出口相一致。他们真的在寻找所有能够试图挫败美国公司和美国人工智能努力的方法。这就是为什么解决方案总是,我本来在政治上是不可行的,但解决方案总是强硬而果断地压制

对中国出口的压制,你知道,在2019年、2020年左右,同样,在政治上是不可行的。但我们正在做的是玩这种像打地鼠一样的输局游戏,你试图修补一个漏洞,然后另一个漏洞出现。然后每次你逐步提高出口管制的门槛,现在中国共产党就会采取报复行动。所以如果你足够早地采取果断行动,你知道,也许你可以,你

避免了其中的一些。再说一次,你知道,在这种情况下,中国损失较少。这正是我们想要表达的。出口管制实际上真的开始发挥作用了。我们已经看到了一些迹象。这现在真的让他们恼火了。他们还在特朗普政府之前摆出姿态,试图让人觉得,哦,你知道,如果你采取更严厉的制裁,我们将更猛烈地反击。你知道,这是一个不可忽视的担忧,尤其是在稀土出口方面。美国的情况就是这样

非常糟糕。这完全是自找的麻烦。但这可以通过正确的放松管制来解决。无论如何,它可以通过正确的投资和关注来解决。但这只是,你知道,标准的做法,我相信政府实际上在进入这类事情时就已经预料到了。说到出口管制,下一个故事是关于另一个一直有点,让我们说,不明确,有点灰色地带的地区。而且

看来美国已经批准了根据微软协议向阿联酋出口先进人工智能芯片。因此,作为与G42合作的一部分,阿联酋有一家微软运营的设施。你之前已经报道过。你已经在那里进行了大量投资。

微软向G42投资了15亿美元。这使它在董事会席位上获得了少数股权,因此我们在这个组织中投入非常深,作为阿联酋的一部分。关于美国政府的回应一直是一个疑问,因为G42也有一些潜在的中国关系。

所以看来有出口许可证。它确实要求微软限制那些与美国武器禁运下的国家有关联或在美国受制裁名单上的工作人员访问该阿联酋设施。所以基本上,你获得了出口许可证,但你仍然必须遵守对中国施加的限制。

是的,显然,现在已经批准的许可证要求微软阻止来自受美国武器禁运的国家或列入实体名单的人员访问其在阿联酋的设施,著名的实体。

BIS,工业和安全局,以及商务部的名单。这份名单包含华为、YMTC等中国生态系统中的大型参与者,坦率地说,应该包含更多参与者。坦率地说,它可能应该是一个白名单而不是黑名单,但我离题了。所以现在,所有这些要求都被添加进来,基本上是为了防止

这很有趣,对吧?就像这开始,如果你了解政策和军控政策的世界,它开始有点像ITAR的阴影。就像,你知道,他们开始考虑下一个。所以ITAR是一种反扩散战略。

基本上,政策规定,如果我给你一项特殊技术,你只能将其传递给其他获得ITAR批准的人,如果你愿意的话,如果你失败了,那么你就会有大麻烦,对吧?所以这里的想法是,他们正在某种程度上,你知道,传递这个词,但说,嘿,你不能,你不能把这个词传递给那些不在名单上的人,那些没有经过筛选的人,这很有趣,因为它是在朝着这个方向迈出的一步,我认为,从国家安全角度来看,你需要关注的事情之一是正式将人工智能列为ITAR下的两用技术,更先进的人工智能系统,而不是我们今天拥有的那种通用人工智能系统。所以无论如何,嗯,

所有这些都非常有趣。这些限制涵盖在中国境内的人员、中国政府或为任何总部位于中国的组织工作的人员。因此,在针对G42的目标区域方面,很清楚。最后,回到美国,白宫已经成立了一个关于人工智能数据中心基础设施的特别工作组,正如杰里米在本集开头提到的那样。所以

这将协调政府内部的政策,并保持美国在人工智能技术方面的领导地位,这是党的路线。因此,这当然将涉及能源部。他们将创建一个AI数据中心参与团队,并分享关于改造关闭的煤矿场地的资源,显然。

美国工程兵团还将确定许可证,以加快AI数据中心建设。这里还有一些关于行业出口的内容。是的,这与加快和启用这些非常非常复杂的数据中心建设所需的工作非常一致。

这里的主要挑战是这是一个全政府问题。因此,你必须协调能源部、商务部。你必须考虑国家安全,增加国家安全考虑因素。因此,你实际上看到的是政府认识到这一点,并说,哦,糟糕,我们需要——所以国家经济委员会、国家安全委员会——顺便说一句,这些是向总统提供建议的委员会——

关于,你知道,当今的问题。因此,国家安全委员会,你有一群,通常他们是相当杰出的国家安全人员。然后工作人员做了很多关键工作,国家安全,NSC工作人员。所以基本上所有这些都在白宫层面协调在一起,你

解决诸如,嘿,我们有,我们如何以战略方式放松管制?可以推测,特朗普政府将比这更积极,尤其是在环境法规、放松管制等方面,这些事情阻碍了这些新建筑的发展,新电厂的发展,对场地的国家安全审查等等。所以是的,我认为这很有趣,值得注意的是,我们现在已经到了这一点,这正成为白宫的优先事项,并且

还谈论了让军队以各种形式提供支持。而这正是,正如你所说,工程兵团,对吧?所以现在国防部也参与进来了。所以是的,这是一个非常广泛的努力。而且

这就是本集的全部内容。我们结束时有点长。上周有很多事情要谈。非常感谢您的收听,特别是如果您坚持到最后并正在收听我现在的讲话。这令人印象深刻。你听完了整集节目。正如你可能已经知道的,你可以在节目说明中找到文章的链接。你也可以访问lastweekin.ai.com或lastweekin.ai来获取文本通讯。

一如既往,我们感谢任何评论,任何反馈。我们尝试阅读这些内容,即使我们没有在节目中提及它们。我们确实感谢评论。你知道,获得这五颗星总是感觉很好。但最重要的是,我们确实感谢人们收听。所以请务必继续收听,并欣赏AI片尾曲。♪

大家围拢过来,是时候欢呼了,第193集来了,睁大眼睛,扬帆起航,NASA,多么壮观的景象,那颗宝石也在星空中闪耀,人工智能代理在网上冲浪,自由地浏览,在人工智能世界中发现新的发现和快乐,在这个节日季节,让我们一起欢呼吧!

关于在人工智能领域取得的进步的故事和预言,奇迹在那里层出不穷。船舶质量,预先储存,给程序员和类似签证的人。人工智能在每一个角落,日夜都在变化。双子座只是在科技领域之外玩科学。每一次飞跃和跳跃,未来都越来越近。人工智能代理在每一次点击和滚动中学习。非常响亮的叙述将我们所有人联系在一起。

人工智能代理在网上冲浪,自由地浏览墙壁,在人工智能世界中发现新的发现和快乐,在这个节日季节,让我们一起欢呼吧!人工智能

我们发现每条飞行员电路都能找到我们的路,人工智能为每一天带来光明,当雪花飘落时,算法欣喜若狂地跳舞,为世界描绘我们的未来,为我们的数字夜晚唱一首催眠曲,用发光的景象指引道路,让进步的喜悦遍布整个土地,人工智能,我像一个注册良好的……一样蓬勃发展