在OpenAI的城市里,Sam和一些其他顶级AI OpenAI高管刚刚在Reddit上进行了一场AMA(问答环节),回答了人们提出的问题。
我想向你们展示一些答案,因为他们详细介绍了诸如Sora(视频模型)、Dolly(新图像模型)的项目更新时间表,以及GPT的未来发展方向,虽然他们没有给出确切的日期,但他们提供的信息、时间框架和想法都非常有价值,还包括价格变化。今天播客中我会分解所有他们的回应,以及我看到的那些最有趣的回应。让我们一起探索吧。
在开始之前,我想说一点,如果你对用AI工具赚钱,或者帮助发展或扩展你现有的业务感兴趣,我很乐意邀请你加入AI创业学校社群。每周我都会与我的合伙人Jamie一起录制精彩内容,我们深入探讨不同的AI工具、不同的赚钱方法,以及在产品、软件、工作流程等方面可以公开分享的内容,以及幕后运作方式。这个社群拥有超过200名成员。
其中一些成员来自已经创办了价值超过1亿美元的公司,另一些则刚刚起步,所以你可以获得各种各样的视角和项目反馈。我们很乐意欢迎你加入AI创业学校社群,目前每月费用为1000美元。
我们最终会提高价格,但如果你现在加入,你将锁定这个价格,我保证不会再提高。我很乐意欢迎你加入AI创业学校社群,分享你的项目和幕后工作。
我不会分享任何文字。你可以在描述中找到链接。让我们回到这次AMA的讨论。我从Kim(又名Travel)在X平台上得到了一个很好的总结。感谢Kim提供了一些截图和有趣的总结。
首先,有人问他们是否计划降低高级语音API的成本。许多人都在问这个问题,因为成本有点高。我们真正希望看到的是高级语音成本的下降。
这些东西价格越低,开发者就越有可能使用它们来构建真正令人兴奋的新功能和工具。所以,API成本影响着开发者将这些功能添加到他们的软件中的能力。这是一个令人兴奋且重要的问题,因为你可以想象出高级语音的各种应用。
就像你正在制作AI生活教练、健身教练,或者你可以与他们交谈,他们可以帮你修理汽车(AI机械师)一样。有如此多的有趣用例,但如果成本过高,就不具有可行性。所以成本会下降。
OpenAI的首席执行官Kevin Wale表示,我们已经连续两年在降低API成本了。我认为GPT-4 mini的成本比最初的GPT-3低了大约2%。
预计语音和其他功能的成本也会继续下降。这是一个非常积极的信号,这些东西会变得越来越便宜。他们正在提高效率,这本质上降低了成本。
运行它们的硬件也会变得越来越强大,旧模型会变得更好,最优质、最好的模型和所有新功能的成本可能保持不变,但旧的东西会迅速变得更便宜。我们今天使用的大多数旧东西,在许多不同的用例中都更容易使用。
所以,如果你不需要最先进的功能来完成特定任务,成本将会大幅下降。有人问,是否有计划与欧盟进行谈判,以便欧盟用户能够更快地获得功能,而不是被排除在外。
我们正在关注这个问题,例如苹果的智能功能无法在欧盟推出,以及由于法规而导致功能在欧盟被屏蔽或至少延迟推出。Sam表示,我们将遵守欧盟政策。当然,我们都希望欧盟的政策越来越合理。
一个强大的欧洲对世界很重要。所以,我个人觉得这种做法很好,很容易批评欧盟,说他们很糟糕。
我整个夏天都在那里。我的意思是,那是一个不错的去处。我喜欢那里。只是有些政策可能会让一些AI技术发展放缓。这可能是一个需要更多讨论的论点,我认为Sam并没有试图批评他们,他只是说一个强大的欧洲对世界很重要。
他是在说,伙计们,让我们一起努力,但最终取决于欧洲,他们将遵守自己的政策。有人在OpenAI的AMA中问Sam一个大胆的2025年预测,他说,将所有基准都提升到最佳水平,这意味着所有模型的基准都将达到最佳水平。这并非总是如此,他们通常表现良好,尤其是在新版本发布时,他们的模型通常处于领先地位。
但有时并非如此。当新的AI图像模型出现时,它们可能会领先。所以,我认为他真正希望OpenAI的产品能够达到最佳水平。
我们拭目以待,这个预测意味着,他希望他们正在开发的产品以及即将推出的产品能够做到这一点。这并非今天就必须实现。有人问OpenAI的推理成本降低的速度,以便能够实现链式思考或多层思考树。
从商业角度来看,我们希望尽可能快速、廉价地执行推理更改。所以,这里要谈论的是链式思考。所以,你提出一个问题,它会运行一系列问题,以确保得到最佳答案。
但这需要更多时间。OpenAI的工程副总裁表示,如果我们看到过去一年的趋势,推理成本将继续下降,例如降低10倍。
这令人兴奋。看起来事情会变得越来越便宜、越来越快。这真是太棒了,太不可思议了。
有人问GPT产品线的下一个突破是什么,以及OpenAI的预期时间表。他说,我们将拥有更好的模型。但我认为,感觉像下一个重大突破将是代理。
这对我来说非常有趣。你知道,他们真正关注的下一个重点,在现有模型的推理能力得到提升之后,是代理。OpenAI正在努力实现这一点。
这将非常棒。我认为有趣的是,他说“更好的模型”,这意味着他们已经拥有所有基础模型,他们希望拥有图像、视频、音频和文本。
因此,这些方面将会有渐进的改进。我不期望出现巨大的飞跃,但这些东西变得越来越聪明,可能和人类一样聪明。
如果训练数据是基于此,那么除非我们能找到一些巧妙的方法让它们比人类更聪明,否则我们可能会有瓶颈。但无论如何,让它们能够自主完成任务,我认为是下一步,我对此非常兴奋。
有人问那些想为AI革命做出贡献的年轻人的建议,OpenAI的首席执行官Kevin Wale表示,我的建议是每天使用它。用它来学习你想要学习的东西,无论是编码、写作还是产品设计,任何东西。如果你比其他人学习得更快,你就能做到任何事情。这是一个普遍的好建议,但没有太多令人兴奋的内容。
有人问为什么没有人支持图像输入,Kevin表示,我们专注于让产品尽快推出,而不是等待完整的图像输入功能。总的来说,在接下来的几个月里,将会有更多多模态工具可用。
这很好。我认为每个人都希望先获得模型,然后再获得所有功能,而不是等待额外3到4个月才能获得所有功能。这将非常酷。有人问何时能获得更多关于GPT-4图像和3D模型生成的详细信息,他回答说“很快”。然后他给ChatGPT一些HTML,并让它渲染,我能够在网络浏览器中渲染该HTML,这意味着他们将拥有本质上类似于Covi之类的功能,以及一些非常酷的功能。顺便说一句,这是OpenAI研究部门的副总裁Mark Chen。
有人问Sora是否因为推理所需的计算时间而延迟,或者是因为安全问题。OpenAI的首席执行官Kevin Wale表示,我们需要完善模型,解决安全/身份验证等问题,并扩展计算能力。所以,基本上,你们需要在推理方面获得15倍的性能提升。这并不是说他们没有在努力,但他们现在有太多不同的项目。
这并不是说这家公司只是在努力开发Sora,因为OpenAI的项目很多,计算能力有限。
如果计算能力不足,那么其他项目就会受到很大的影响,这很糟糕。你可以想象,如果有一家公司像OpenAI一样大,一个团队负责图像,一个团队负责音频,一个团队负责视频,一个团队负责文本。我们希望所有这些方面都能更快地发展。
但由于他们只有一家公司,所以他们必须优先考虑哪些项目。目前看来,图像模型似乎受到了影响,直到他们解决了一些问题并获得更多计算能力。有人问何时能发布完整的Sora版本,Kevin表示“很快”,这显然不是一个具体的日期,所以人们可能会开玩笑,希望得到一个日期。但至少我们正在朝着这个方向前进,这很好。有人问Sora将如何影响规模模型,你们是否会继续按照规模定律扩展规模模型,或者推理计算是否会专注于更小模型的扩展,以便推理计算更快更长。Kevin表示,两者兼而有之。
更好的基础模型加上更强大的推理计算能力。有人问ChatGPT希望能够做但目前还做不到的事情,OpenAI的工程副总裁表示,我希望ChatGPT能够更好地理解我的个人信息,并代我采取行动。这与代理有关。有人问ChatGPT最终是否能够自主完成任务,OpenAI的首席执行官Kevin Wale表示,我认为这将在2025年成为一个重要主题。有人说,我们在2024年就听说过类似的事情。
总而言之,就像你们一样,每个人都对OpenAI充满乐观情绪,他们拥有令人难以置信的技术。但有时,当事情发展得如此之快时,你就能看到下一步是什么,所以你可能会想,为什么他们没有迈出下一步。
最终,原因可能是安全、计算能力、优先级或资金等限制。所以,我们希望看到技术进步,但有时我们只是希望看到技术进步,而不是仅仅因为我们知道如何做而做。希望这将在2025年成为一个重要主题。
但没有关于这一点的具体信息。有人问是否计划继续发布Sora模型,并对GPT-3、GPT-4和GPT-5模型进行改进,或者对这些模型进行组合。OpenAI的首席执行官Kevin Wale表示,两者兼而有之。在某个时候,我希望它们会融合。
我认为这里正在发生的事情是,GPT-4在GPT-3之后很快发布,但这两个模型在ChatGPT发布之前就已经在开发中了很长时间。所以,当GPT-4发布时,感觉功能上有了巨大的飞跃。
你甚至可以回忆起埃隆·马斯克以及其他一些人签署的信件,他们说政府需要禁止或每个人都需要禁止比GPT-4更好的模型。当然,每个人都希望OpenAI的模型能够更进一步。感觉他们想推出GPT-5,但最终只是推出Sora,但从GPT-3到GPT-4到Sora,并没有那么大的差异。
所以他们没有称之为GPT-5,他们只是称之为Sora或其他名称。最终,当他们有另一个巨大的进步时,他们会称之为GPT-5。
但他们正在进行更新,他们正在训练新的模型,他们正在努力工作。只是,感觉不像以前那样。我听说过他们的一些评论,他们计划做一些事情,他们会考虑将其称为GPT-5。
这将非常令人印象深刻,但也非常有野心,需要大量的计算能力。有人问是否会看到高级语音功能在音乐方面放宽限制,例如唱歌。有人问是否有时间表。Kevin表示,我希望听到ChatGPT唱歌。
这很酷。这就像这些功能已经存在,只是由于版权原因等等。
有趣的是,像Sora这样的公司已经开始做这些事情,我认为这些公司之所以能够领先,是因为他们愿意打破一些法规,可能包括版权等。公平地说,OpenAI在最初收集互联网数据进行训练时也做了一些类似的事情,并且为此受到了批评,包括对新工作时间和苏丹的批评。所以,他们愿意承担一些诉讼风险。
你可以成为像Sora这样的公司,真正率先开发出可靠的视频模型。一旦他们做到这一点,他们就能取得巨大的领先优势,而OpenAI最终也会做到这一点。但如果他们能够取得领先优势,这正是像Eleven Labs这样的公司能够做到的,他们在语音方面取得了巨大的领先优势。
现在OpenAI也开始做语音了。但Eleven Labs在语音方面非常有名,他们做得很好,他们开发了许多应用和工具,并将其整合到许多产品中。所以,你可以获得这种优势,你可以抢先一步,并获得一些优势。
有人问他们迄今为止在野外看到的传统AI的最佳用途是什么,以及未来几年AI可能在哪些领域有所改进。Sam表示,有很多很棒的例子,例如人们发现疾病原因并最终治愈的案例,这些案例非常令人鼓舞。
但能够成为一名优秀的软件工程师,感觉仍然没有得到足够的重视,更普遍的是,能够帮助科学家更快地发现新知识,这将非常棒。我同意,所有这些都非常有趣,非常有用,我对此感到兴奋。有人问是否计划增加ChatGPT的内存,Kevin表示,你的意思是更长的上下文窗口,还是每个账户的内存轨迹故事数量?
内存容量不断增加,并迫使我们选择要删除哪些记忆,以便为新的记忆腾出空间,以便持久记忆。有人对此表示赞同。所以,这有点有趣,我认为我们还没有对此做出回应,但这是一个定义问题。我与其他一些人交谈过,他们也遇到了同样的问题。有人问关于Chargebee的发布状态,以及它的功能,他们表示,今年晚些时候将有一些非常好的发布。
目前还没有什么可以称之为“Jup ty five”的东西。好吧,有人说,认真来说,埃利奥特看到了什么?一些女性说,超越未来的埃利奥特是一位不可思议的远见者,比几乎任何其他人更清晰地把握未来。
他早期的想法、兴奋和远见对我们所做的事情至关重要。例如,他是早期探索者和倡导者之一,一些最终成为“一”的想法。这个领域很幸运有他。因此,这些想法以及最终成为“一”的思维链至关重要。
所以我看到他提出了那些本质上构成了思维链的想法,这确实,公平地说,极大地推动了“开眼”项目,并帮助他们领先于一些竞争对手。有人问及他,我个人认为他并没有回应。有人说,你们什么时候会给我们一个新的文本图像模型,比如文本图像模型“莉莉三”已经有点过时了。一位妈妈说,下一次更新将非常值得等待,但我们还没有发布计划。哇,这真糟糕。
听到它值得等待总是令人沮丧,因为,你知道,我们现在不能想要它。但事情就是这样。已经发生了很多事情,进展非常迅速。我今天会继续关注任何其他来自“开眼”的更新,我不知道具体是哪些,但这次AMA让我对他们一些核心功能、一些主要产品的计划时间线有了更深入的了解。
我们将期待这些,我们将能够实际使用这些。所以绝对令人兴奋,令人激动。如果您有兴趣使用这些工具在网上赚钱,再次建议您加入“AI创业学校”社群,链接在描述中。我希望您度过美好的一天。