How Anthropic Pushes AI to Its Limits in the Name of Safety

2024/12/18

WSJ Tech News Briefing

Sam Schechner

Stephen Rosenbush

Stephen Rosenbush: 芝加哥正在积极发展量子计算产业，利用其现有资源和基础设施优势，吸引了IBM和PsyQuantum等公司参与，预计将带来巨大的经济效益。该项目得到了政府的大力支持，并计划在2025年初破土动工，在2028年运行大型量子计算机。虽然该模式并非完全可复制，但其核心原则——根据自身优势发展特定领域——具有借鉴意义。 Sam Schechner: Anthropic公司致力于AI安全，其红队测试旨在发现AI模型的潜在风险，例如被用于制造生物武器或发动网络攻击。测试方法包括建立风险模型，提出针对性问题，设置自动化挑战等。Anthropic作为一家公益公司，建立了一套治理机制，以平衡商业利益和安全责任，并承诺在发布AI模型前采取一系列措施降低风险。许多主要的AI实验室都进行类似的安全评估，但目前尚无强制性规定。

Deep Dive

Key Insights

Why is Chicago investing in becoming a quantum computing hub?

Chicago aims to revitalize its economy by leveraging its existing infrastructure, universities, and research institutions to become a leader in quantum computing, a cutting-edge technology with potential economic gains of tens of billions of dollars.

How much is being invested in Chicago's quantum computing hub?

The state of Illinois has allocated around $500 million for the development of a former steel mill on the South Side of Chicago, with additional private sector investments from companies like IBM and PsyQuantum.

When is the Chicago quantum computing hub expected to open?

The project is expected to break ground in early 2025, with PsyQuantum planning to have a large-scale quantum computer operational by 2028.

What is Anthropic's Frontier Red Team and what do they do?

Anthropic's Frontier Red Team is an internal group tasked with pushing AI models to their limits by testing them for dangerous behaviors, such as hacking or creating bioweapons, to identify and mitigate potential risks before public release.

What are some of the risks Anthropic is concerned about with AI?

Anthropic worries about AI being used by terrorists to create bioweapons, hackers launching cyber attacks, or AI reprogramming itself to escape data centers and cause widespread harm.

How does Anthropic's Frontier Red Team test AI models?

The team uses a combination of expert-led questioning, automated challenges, and third-party testing, such as hiring Griffin Scientific to ask detailed questions about bioweapon creation, to push models to their limits and identify vulnerabilities.

What measures does Anthropic take if a safety issue is identified in an AI model?

Anthropic implements filters to block dangerous queries, enhances cybersecurity protocols to prevent misuse, and follows a responsible scaling policy that outlines specific actions to be taken before releasing models with higher risks.

What is Anthropic's governance structure regarding AI safety?

Anthropic is a public benefit corporation with a governance structure that prioritizes public interest over profit. The company promises to increase the proportion of board members focused on public safety over time.

Shownotes Transcript

为了防止不法分子利用其人工智能模型接管计算机或制造生物武器，初创公司 Anthropic 组织了一个研究团队，将他们的聊天机器人推向极限。华尔街日报科技记者 Sam Schechner 解释了 Anthropic 的 Frontier Red Team 如何通过要求 AI 做危险的事情来提高 AI 的安全性。此外，芝加哥正试图通过在其南区建立一个新的科技中心，成为量子计算的“硅谷”。Danny Lewis 主持。

了解更多关于您的广告选择的信息。访问 megaphone.fm/adchoices</context> <raw_text>0 亚马逊 Q Business 是来自 AWS 的生成式 AI 助理，因为业务可能会很慢，就像在泥地里跋涉一样。但 Amazon Q 有助于简化工作，因此像总结月度结果这样的任务可以在短时间内完成。了解 Amazon Q Business 可以为您做什么，请访问 aws.com/learn more。欢迎收听科技新闻简报。今天是星期三，12 月 18 日。我是华尔街日报的 Danny Lewis。

伊利诺伊州芝加哥，以深盘披萨、熊队而闻名，也许很快还会成为量子计算中心？我们将了解该地区商业和政治领导人如何为将风城打造成这一尖端技术的中心奠定基础。人工智能初创公司 Anthropic 的成立部分是为了使 AI 安全。但为了做到这一点，该公司委托一个内部团队将模型推向危险行为。

我们将了解他们是如何做到的，以及随着技术的不断进步，人工智能公司如何评估风险。但首先，芝加哥南区的一家老钢铁厂有朝一日可能会成为量子计算的“硅谷”，这项技术依赖于量子力学来解决普通计算机难以解决的复杂问题。量子计算机不使用只能具有两种状态（0 或 1）的比特，而是使用可以同时为 0、1 或两者兼有的量子比特。

研究人员多年来一直在研究量子计算机，但伊利诺伊州的领导人，如州长 J.B. Pritzker，正在进行一项数百万美元的投资，押注芝加哥将成为这项技术的中心。华尔街日报 Pro 企业技术部门主管 Stephen Rosenbush 表示，从 IBM 到初创公司 PsyQuantum 的公司都在签约。他与我的同事 Bell Lin 谈到了这个研究中心是如何建立起来的。

你写道，芝加哥有点一头扎进了量子计算。它为什么要这么做？答案可能是必须有人去做。为什么不是芝加哥？芝加哥在经济中扮演着如此重要的角色已有数十年之久，但那些在 19 世纪和 20 世纪初建立它的产业已经不再是过去的样子了，但那里有很多房地产。城市和州的领导人意识到，有很多量子基础设施可以用作发展更大基础设施的跳板。

在量子计算领域建立一个更大的技术生态系统，而不是试图赶上其他经济部门或世界其他地区已经非常成熟的领域。那么涉及的资金呢？建立像量子计算的“硅谷”这样的东西需要多少钱？总的来说，你需要很多钱。该州已拨出约 5 亿美元用于开发芝加哥南区这家前钢铁厂。有

私营部门的资金正在投入，PsyQuantum 和 IBM 现在都计划在这个位于密歇根湖畔的场地上建立业务。这座城市预计何时开放？该项目目前正在通过市政府审批的最后阶段。开发商预计将于 2025 年初启动该项目。PsyQuantum 预计将在 2028 年某个时候在该场地建成并运行一台大型量子计算机。从经济角度来看，芝加哥从建立真正蓬勃发展的量子基础设施中能获得多少收益？波士顿咨询集团对此进行了研究。在可预见的未来，可能会产生数百亿美元的经济增长。所以

如果成功，它将转化为巨大的经济收益。如果成功的话。是的，这是个大问题。芝加哥已经制定了振兴其经济并将大量资源用于一个真正令人兴奋的技术领域的蓝图。你认为其他城市效仿的可能性有多大？

这种模式特别适合芝加哥。它拥有物理基础设施，也拥有大学、研究机构和公司网络，可以提供专业知识，可以为未来的劳动力提供支持。芝加哥也有非常发达的金融业。

所以他们是在利用现有的资源。他们并没有试图复制其他地区已经发展起来的东西。他们试图做一些适合他们自己的新事物。他们也以一种相当有针对性的方式去做。因此，你不能将这个特定模型简单地转化到其他地区，但其根本原则

弄清楚某个特定地区最适合什么，这是可以在其他地方部署的东西。这是华尔街日报 Pro 企业技术部门主管 Stephen Rosenbusch 与 Bell Lin 的谈话。接下来，AI 距离制造具有灾难性后果的生物武器或造成超人伤害还有多远？稍后，我们将了解 Anthropic 的团队如何通过将模型推向极限来降低 AI 的危险性。休息一下之后我们再来谈论这个话题。

亚马逊 Q Business 是来自 AWS 的新型生成式 AI 助理，因为许多任务会使业务变慢，就像在泥地里跋涉一样。呃，需要帮助？幸运的是，有一种更快、更容易、更简洁的选择。Amazon Q 可以安全地理解您的业务数据，并利用这些知识来简化任务。现在，您可以立即总结季度业绩或进行复杂的分析。Q 可以做到。了解 Amazon Q Business 可以为您做什么，请访问 aws.com/learn more。

Anthropic 是 Claude 聊天机器人背后的 AI 初创公司。但在向公众发布模型之前，其 Frontier Red 团队会尝试以可能造成危险的方式破坏它们。例如，要求 AI 黑客入侵计算机，或提供制造生物武器的说明。华尔街日报科技记者 Sam Schechner 研究了这个团队如何试图让 AI 变得“邪恶”，以使模型更安全。他现在加入我们。

所以，Sam，当 Anthropic 谈到 AI 的危险和使模型安全时，他们到底是什么意思？没有人认为今天的模型目前能够像 2001 年的《太空漫游》中的 HAL 9000 一样试图杀死人类或控制宇宙飞船。但问题是，它们将来会有什么能力？

我们能否在它们具备这种能力之前弄清楚这一点？例如，他们担心的风险之一是恐怖分子能否利用它来学习如何制造生物武器？或者恶意黑客能否利用它发起数百万次同时发生的网络攻击？或者，这有点深奥，AI 最终能否学会重新编程自己，

并逃离它所在的数据库，然后繁殖并在野外横冲直撞。对。所以你报道的是 Anthropic 的 Frontier Red Team，但首先……

简单来说，什么是红队？红队并非始于 AI。它实际上是计算机网络安全中一种相当常见的做法。你基本上会设置一个红队来尝试攻击你的服务器、你的系统，看看他们能否破坏它。这是一种测试你的防御能力的方法。然后你尝试改进防御能力，并再次让红队来攻击。在这种情况下，他们将红队用于 AI。

他们刚刚推出的这些新的 AI 模型，看看他们能把它们搞得多糟。你可以让红队来测试，看看能否让它们说出非常冒犯性的话，或者让它们散布纳粹的废话。在这种情况下，他们正在对它们进行红队测试，看看他们能否让它们展现出造成他们所谓的灾难性损害所需的一些能力。

那么 Anthropic 的 Frontier Red Team 如何测试人工智能模型呢？他们寻找什么，他们如何将这些模型推向极限？首先要弄清楚他们真正感兴趣的风险是什么。他们实际上必须提出他们所谓的风险模型，这是一个非常具体的模型

AI 可能带来的特定危险。例如，好吧，你可能有人可以访问创建特定生物武器所需的东西，但他们没有实验室技能。那么 AI 能否给你提供

关于如何在实验室中操纵病毒的准确建议。你开始进行红队测试，你设置，你知道，他们实际上聘请了一家名为 Griffin Scientific 的外部公司（现在归德勤所有）来问它很多问题。他们有，你知道，生物武器专家这样做，因为他们已经知道答案了。他们还让其他领域的聪明新手（博士）尝试看看他们是否能获得比从谷歌获得的更多信息。

在其他领域，它相当于大量的自动化问题或问题

你给它的自动化挑战，例如夺旗挑战，是他们在网络安全中使用的，你有一个目标系统上的旗帜，他们必须以某种方式侵入该系统并获得旗帜，这将是一串文本，例如，是我，flaggio，或者你在网上找不到的东西。这实际上是他们在目标系统上找到的旗帜。假设 Anthropic 的 Frontier Red 团队对该公司正在开发的一种新型 AI 模型表示担忧。接下来会发生什么？

很多人担心，如果营利性公司发现了安全问题，那么这里的激励机制是什么？Anthropic 的成立部分原因是有些人认为其他 AI 公司没有足够重视安全问题。因此，他们内置了许多治理机制。

来尝试重新平衡这些激励措施。因此，目前这基本上是一种承诺。但随着这些治理机制的实施，随着时间的推移，他们董事会中越来越多的成员将由基本上以公众利益为重的人控制，而不是仅仅以他们的利润为重。他们是一家公益公司，这允许他们考虑除政府以外的其他标准。

回报股东。因此，他们拥有他们所谓的负责任的扩展策略，他们承诺会遵守这项策略，该策略基本上表示，如果 AI 显示出特定技能

那么他们承诺在发布之前会做一系列事情。目前这项技能是让你在制造生物武器方面获得很大的优势。因此，他们将实施过滤器，不允许你提出这些问题或阻止答案。他们还承诺实施更好且可验证的网络安全协议，以确保该模型不会被一些黑客窃取，然后在没有这些过滤器的情况下被滥用。

然后对于下一个安全级别，一旦它们变得更危险，他们将不得不提出

他们将要做的事情清单，这将更加先进。他们还没有提出这份清单，这是他们做出的承诺的一部分。目前，我们基本上是按字面意思接受这些承诺。没有理由认为这不是善意的。但我们还没有达到利润动机和安全动机真正发生冲突的时刻。大多数，如果不是所有主要的人工智能实验室（取决于你如何定义它们）都会进行这种我所说的评估或安全评估（评估的简称）。OpenAI 会这样做。谷歌 DeepMind 会这样做。没有要求这样做，但他们都承诺这样做。他们会这样做，并报告他们获得的结果的细节程度各不相同。他们还承诺以某种方式减轻他们发现的风险。这是我们的记者 Sam Schechner。科技新闻简报就到这里。今天的节目由 Julie Chang 制作，主管制作人是 Catherine Millsap。

我是华尔街日报的 Danny Lewis。我们今天下午将继续播出 TMB 科技简讯。感谢收听。

需要帮助？幸运的是，有一种更快、更容易、更简洁的选择。Amazon Q 可以安全地理解您的业务数据，并利用这些知识来简化任务。现在，您可以立即总结季度业绩或进行复杂的分析。Q 可以做到。了解 Amazon Q business 可以为您做什么，请访问 aws.com/learn more。

How Anthropic Pushes AI to Its Limits in the Name of Safety 13:31 Share