Insights from OpenAI's AMA: The Next Breakthrough in AI

2024/11/2

AI Chat: ChatGPT & AI News, Artificial Intelligence, OpenAI, Machine Learning

AI Deep Dive AI Chapters Transcript

People

OpenAI

OpenAI 工程副总裁

Topics

Kevin Wale (OpenAI): OpenAI 持续降低 API 成本，GPT-4 mini 的成本仅为原始 GPT-3 的 2%。未来，语音模型和其他模型的成本也将持续降低，这将促进开发者利用先进技术构建更多应用。 Sam (播客主持人): API 成本的降低将促进开发者利用先进语音技术构建更多应用，例如 AI 虚拟教练、AI 机械师等。 Sam Altman (OpenAI): OpenAI 将遵守欧盟政策，并希望欧盟政策日益合理，以促进 AI 技术在欧洲的发展。OpenAI 的目标是在所有基准测试中占据领先地位。 OpenAI 工程副总裁: OpenAI 预计推理成本将持续下降，过去一年的下降幅度约为 10 倍。 OpenAI: OpenAI 认为 AI 智能体是 GPT 产品线的下一个重大突破，未来将重点发展 AI 智能体技术。 Kevin Wale (OpenAI): OpenAI 优先发布核心模型，之后再逐步添加功能，例如多模态工具支持。Sora 模型的延迟发布是由于需要完善模型、提升安全性以及扩展计算能力。OpenAI 将同时改进基础模型和提升推理计算效率。 OpenAI 工程副总裁: 希望 ChatGPT 能够更好地理解个人信息并采取行动。 Kevin Wale (OpenAI): OpenAI 将继续发布 O 系列模型，并最终融合 GPT 系列模型。 Kevin Wale (OpenAI): OpenAI 正在努力提升语音模型的音乐能力，但受到版权等因素的限制。 Sam Altman (OpenAI): 传统大型语言模型在医疗诊断和软件工程方面展现出巨大潜力。OpenAI 将发布更新的文本图像模型，但尚未确定发布计划。Ilya Sutskever 的远见卓识对 OpenAI 的发展至关重要，特别是对 O 系列模型的构想。 Kevin Wale (OpenAI): OpenAI 正在努力提升 ChatGPT 的内存容量，但需要解决持久化存储问题。

Deep Dive

Chapters

OpenAI executives discussed future advancements in AI models, cost reduction, and the introduction of AI agents during their AMA session.

OpenAI is reducing API costs to make advanced AI tools more accessible.
The company is focusing on improving efficiency and hardware to lower costs further.
Regulatory challenges and compute limitations were acknowledged as significant hurdles.

Shownotes Transcript

在OpenAI的城市里，Sam和一些其他顶级AI OpenAI高管刚刚在Reddit上进行了一场AMA（问答环节），回答了人们提出的问题。

我想向你们展示一些答案，因为他们详细介绍了诸如Sora（视频模型）、Dolly（新图像模型）的项目更新时间表，以及GPT的未来发展方向，虽然他们没有给出确切的日期，但他们提供的信息、时间框架和想法都非常有价值，还包括价格变化。今天播客中我会分解所有他们的回应，以及我看到的那些最有趣的回应。让我们一起探索吧。

在开始之前，我想说一点，如果你对用AI工具赚钱，或者帮助发展或扩展你现有的业务感兴趣，我很乐意邀请你加入AI创业学校社群。每周我都会与我的合伙人Jamie一起录制精彩内容，我们深入探讨不同的AI工具、不同的赚钱方法，以及在产品、软件、工作流程等方面可以公开分享的内容，以及幕后运作方式。这个社群拥有超过200名成员。

其中一些成员来自已经创办了价值超过1亿美元的公司，另一些则刚刚起步，所以你可以获得各种各样的视角和项目反馈。我们很乐意欢迎你加入AI创业学校社群，目前每月费用为1000美元。

我们最终会提高价格，但如果你现在加入，你将锁定这个价格，我保证不会再提高。我很乐意欢迎你加入AI创业学校社群，分享你的项目和幕后工作。

我不会分享任何文字。你可以在描述中找到链接。让我们回到这次AMA的讨论。我从Kim（又名Travel）在X平台上得到了一个很好的总结。感谢Kim提供了一些截图和有趣的总结。

首先，有人问他们是否计划降低高级语音API的成本。许多人都在问这个问题，因为成本有点高。我们真正希望看到的是高级语音成本的下降。

这些东西价格越低，开发者就越有可能使用它们来构建真正令人兴奋的新功能和工具。所以，API成本影响着开发者将这些功能添加到他们的软件中的能力。这是一个令人兴奋且重要的问题，因为你可以想象出高级语音的各种应用。

就像你正在制作AI生活教练、健身教练，或者你可以与他们交谈，他们可以帮你修理汽车（AI机械师）一样。有如此多的有趣用例，但如果成本过高，就不具有可行性。所以成本会下降。

OpenAI的首席执行官Kevin Wale表示，我们已经连续两年在降低API成本了。我认为GPT-4 mini的成本比最初的GPT-3低了大约2%。

预计语音和其他功能的成本也会继续下降。这是一个非常积极的信号，这些东西会变得越来越便宜。他们正在提高效率，这本质上降低了成本。

运行它们的硬件也会变得越来越强大，旧模型会变得更好，最优质、最好的模型和所有新功能的成本可能保持不变，但旧的东西会迅速变得更便宜。我们今天使用的大多数旧东西，在许多不同的用例中都更容易使用。

所以，如果你不需要最先进的功能来完成特定任务，成本将会大幅下降。有人问，是否有计划与欧盟进行谈判，以便欧盟用户能够更快地获得功能，而不是被排除在外。

我们正在关注这个问题，例如苹果的智能功能无法在欧盟推出，以及由于法规而导致功能在欧盟被屏蔽或至少延迟推出。Sam表示，我们将遵守欧盟政策。当然，我们都希望欧盟的政策越来越合理。

一个强大的欧洲对世界很重要。所以，我个人觉得这种做法很好，很容易批评欧盟，说他们很糟糕。

我整个夏天都在那里。我的意思是，那是一个不错的去处。我喜欢那里。只是有些政策可能会让一些AI技术发展放缓。这可能是一个需要更多讨论的论点，我认为Sam并没有试图批评他们，他只是说一个强大的欧洲对世界很重要。

他是在说，伙计们，让我们一起努力，但最终取决于欧洲，他们将遵守自己的政策。有人在OpenAI的AMA中问Sam一个大胆的2025年预测，他说，将所有基准都提升到最佳水平，这意味着所有模型的基准都将达到最佳水平。这并非总是如此，他们通常表现良好，尤其是在新版本发布时，他们的模型通常处于领先地位。

但有时并非如此。当新的AI图像模型出现时，它们可能会领先。所以，我认为他真正希望OpenAI的产品能够达到最佳水平。

我们拭目以待，这个预测意味着，他希望他们正在开发的产品以及即将推出的产品能够做到这一点。这并非今天就必须实现。有人问OpenAI的推理成本降低的速度，以便能够实现链式思考或多层思考树。

从商业角度来看，我们希望尽可能快速、廉价地执行推理更改。所以，这里要谈论的是链式思考。所以，你提出一个问题，它会运行一系列问题，以确保得到最佳答案。

但这需要更多时间。OpenAI的工程副总裁表示，如果我们看到过去一年的趋势，推理成本将继续下降，例如降低10倍。

这令人兴奋。看起来事情会变得越来越便宜、越来越快。这真是太棒了，太不可思议了。

有人问GPT产品线的下一个突破是什么，以及OpenAI的预期时间表。他说，我们将拥有更好的模型。但我认为，感觉像下一个重大突破将是代理。

这对我来说非常有趣。你知道，他们真正关注的下一个重点，在现有模型的推理能力得到提升之后，是代理。OpenAI正在努力实现这一点。

这将非常棒。我认为有趣的是，他说“更好的模型”，这意味着他们已经拥有所有基础模型，他们希望拥有图像、视频、音频和文本。

因此，这些方面将会有渐进的改进。我不期望出现巨大的飞跃，但这些东西变得越来越聪明，可能和人类一样聪明。

如果训练数据是基于此，那么除非我们能找到一些巧妙的方法让它们比人类更聪明，否则我们可能会有瓶颈。但无论如何，让它们能够自主完成任务，我认为是下一步，我对此非常兴奋。

有人问那些想为AI革命做出贡献的年轻人的建议，OpenAI的首席执行官Kevin Wale表示，我的建议是每天使用它。用它来学习你想要学习的东西，无论是编码、写作还是产品设计，任何东西。如果你比其他人学习得更快，你就能做到任何事情。这是一个普遍的好建议，但没有太多令人兴奋的内容。

有人问为什么没有人支持图像输入，Kevin表示，我们专注于让产品尽快推出，而不是等待完整的图像输入功能。总的来说，在接下来的几个月里，将会有更多多模态工具可用。

这很好。我认为每个人都希望先获得模型，然后再获得所有功能，而不是等待额外3到4个月才能获得所有功能。这将非常酷。有人问何时能获得更多关于GPT-4图像和3D模型生成的详细信息，他回答说“很快”。然后他给ChatGPT一些HTML，并让它渲染，我能够在网络浏览器中渲染该HTML，这意味着他们将拥有本质上类似于Covi之类的功能，以及一些非常酷的功能。顺便说一句，这是OpenAI研究部门的副总裁Mark Chen。

有人问Sora是否因为推理所需的计算时间而延迟，或者是因为安全问题。OpenAI的首席执行官Kevin Wale表示，我们需要完善模型，解决安全/身份验证等问题，并扩展计算能力。所以，基本上，你们需要在推理方面获得15倍的性能提升。这并不是说他们没有在努力，但他们现在有太多不同的项目。

这并不是说这家公司只是在努力开发Sora，因为OpenAI的项目很多，计算能力有限。

如果计算能力不足，那么其他项目就会受到很大的影响，这很糟糕。你可以想象，如果有一家公司像OpenAI一样大，一个团队负责图像，一个团队负责音频，一个团队负责视频，一个团队负责文本。我们希望所有这些方面都能更快地发展。

但由于他们只有一家公司，所以他们必须优先考虑哪些项目。目前看来，图像模型似乎受到了影响，直到他们解决了一些问题并获得更多计算能力。有人问何时能发布完整的Sora版本，Kevin表示“很快”，这显然不是一个具体的日期，所以人们可能会开玩笑，希望得到一个日期。但至少我们正在朝着这个方向前进，这很好。有人问Sora将如何影响规模模型，你们是否会继续按照规模定律扩展规模模型，或者推理计算是否会专注于更小模型的扩展，以便推理计算更快更长。Kevin表示，两者兼而有之。

更好的基础模型加上更强大的推理计算能力。有人问ChatGPT希望能够做但目前还做不到的事情，OpenAI的工程副总裁表示，我希望ChatGPT能够更好地理解我的个人信息，并代我采取行动。这与代理有关。有人问ChatGPT最终是否能够自主完成任务，OpenAI的首席执行官Kevin Wale表示，我认为这将在2025年成为一个重要主题。有人说，我们在2024年就听说过类似的事情。

总而言之，就像你们一样，每个人都对OpenAI充满乐观情绪，他们拥有令人难以置信的技术。但有时，当事情发展得如此之快时，你就能看到下一步是什么，所以你可能会想，为什么他们没有迈出下一步。

最终，原因可能是安全、计算能力、优先级或资金等限制。所以，我们希望看到技术进步，但有时我们只是希望看到技术进步，而不是仅仅因为我们知道如何做而做。希望这将在2025年成为一个重要主题。

但没有关于这一点的具体信息。有人问是否计划继续发布Sora模型，并对GPT-3、GPT-4和GPT-5模型进行改进，或者对这些模型进行组合。OpenAI的首席执行官Kevin Wale表示，两者兼而有之。在某个时候，我希望它们会融合。

我认为这里正在发生的事情是，GPT-4在GPT-3之后很快发布，但这两个模型在ChatGPT发布之前就已经在开发中了很长时间。所以，当GPT-4发布时，感觉功能上有了巨大的飞跃。

你甚至可以回忆起埃隆·马斯克以及其他一些人签署的信件，他们说政府需要禁止或每个人都需要禁止比GPT-4更好的模型。当然，每个人都希望OpenAI的模型能够更进一步。感觉他们想推出GPT-5，但最终只是推出Sora，但从GPT-3到GPT-4到Sora，并没有那么大的差异。

所以他们没有称之为GPT-5，他们只是称之为Sora或其他名称。最终，当他们有另一个巨大的进步时，他们会称之为GPT-5。

但他们正在进行更新，他们正在训练新的模型，他们正在努力工作。只是，感觉不像以前那样。我听说过他们的一些评论，他们计划做一些事情，他们会考虑将其称为GPT-5。

这将非常令人印象深刻，但也非常有野心，需要大量的计算能力。有人问是否会看到高级语音功能在音乐方面放宽限制，例如唱歌。有人问是否有时间表。Kevin表示，我希望听到ChatGPT唱歌。

这很酷。这就像这些功能已经存在，只是由于版权原因等等。

有趣的是，像Sora这样的公司已经开始做这些事情，我认为这些公司之所以能够领先，是因为他们愿意打破一些法规，可能包括版权等。公平地说，OpenAI在最初收集互联网数据进行训练时也做了一些类似的事情，并且为此受到了批评，包括对新工作时间和苏丹的批评。所以，他们愿意承担一些诉讼风险。

你可以成为像Sora这样的公司，真正率先开发出可靠的视频模型。一旦他们做到这一点，他们就能取得巨大的领先优势，而OpenAI最终也会做到这一点。但如果他们能够取得领先优势，这正是像Eleven Labs这样的公司能够做到的，他们在语音方面取得了巨大的领先优势。

现在OpenAI也开始做语音了。但Eleven Labs在语音方面非常有名，他们做得很好，他们开发了许多应用和工具，并将其整合到许多产品中。所以，你可以获得这种优势，你可以抢先一步，并获得一些优势。

有人问他们迄今为止在野外看到的传统AI的最佳用途是什么，以及未来几年AI可能在哪些领域有所改进。Sam表示，有很多很棒的例子，例如人们发现疾病原因并最终治愈的案例，这些案例非常令人鼓舞。

但能够成为一名优秀的软件工程师，感觉仍然没有得到足够的重视，更普遍的是，能够帮助科学家更快地发现新知识，这将非常棒。我同意，所有这些都非常有趣，非常有用，我对此感到兴奋。有人问是否计划增加ChatGPT的内存，Kevin表示，你的意思是更长的上下文窗口，还是每个账户的内存轨迹故事数量？

内存容量不断增加，并迫使我们选择要删除哪些记忆，以便为新的记忆腾出空间，以便持久记忆。有人对此表示赞同。所以，这有点有趣，我认为我们还没有对此做出回应，但这是一个定义问题。我与其他一些人交谈过，他们也遇到了同样的问题。有人问关于Chargebee的发布状态，以及它的功能，他们表示，今年晚些时候将有一些非常好的发布。

目前还没有什么可以称之为“Jup ty five”的东西。好吧，有人说，认真来说，埃利奥特看到了什么？一些女性说，超越未来的埃利奥特是一位不可思议的远见者，比几乎任何其他人更清晰地把握未来。

他早期的想法、兴奋和远见对我们所做的事情至关重要。例如，他是早期探索者和倡导者之一，一些最终成为“一”的想法。这个领域很幸运有他。因此，这些想法以及最终成为“一”的思维链至关重要。

所以我看到他提出了那些本质上构成了思维链的想法，这确实，公平地说，极大地推动了“开眼”项目，并帮助他们领先于一些竞争对手。有人问及他，我个人认为他并没有回应。有人说，你们什么时候会给我们一个新的文本图像模型，比如文本图像模型“莉莉三”已经有点过时了。一位妈妈说，下一次更新将非常值得等待，但我们还没有发布计划。哇，这真糟糕。

听到它值得等待总是令人沮丧，因为，你知道，我们现在不能想要它。但事情就是这样。已经发生了很多事情，进展非常迅速。我今天会继续关注任何其他来自“开眼”的更新，我不知道具体是哪些，但这次AMA让我对他们一些核心功能、一些主要产品的计划时间线有了更深入的了解。

我们将期待这些，我们将能够实际使用这些。所以绝对令人兴奋，令人激动。如果您有兴趣使用这些工具在网上赚钱，再次建议您加入“AI创业学校”社群，链接在描述中。我希望您度过美好的一天。

Insights from OpenAI's AMA: The Next Breakthrough in AI 17:04 Share

AI Chat: ChatGPT &amp; AI News, Artificial Intelligence, OpenAI, Machine Learning

Deep Dive

Shownotes Transcript

Insights from OpenAI's AMA: The Next Breakthrough in AI

AI Chat: ChatGPT & AI News, Artificial Intelligence, OpenAI, Machine Learning