踏入标题梦境,像素栩栩如生,AI实时绘制物种,代码洗刷未来。
大家好,欢迎收听最新一期的《上周AI》,我们将聊聊AI领域的最新动态。和往常一样,我们将总结和讨论上周一些最有趣的AI新闻。我是你们的常驻主持人之一,我的背景是在研究生院学习AI,现在我工作于一家AI初创公司。杰里米这次因为感恩节假期和工作原因缺席了,所以我们邀请了一位客座主持人,他就是加文·纽瑟姆。
我做到了。是的,我是加利福尼亚州州长,我的名字是加文·纽瑟姆。
我的名字是加文·纽瑟姆,但我好像错过了什么,我显然想太多关于加州的事情了。
没关系,我经常会感到困惑,这是常有的事。是的,大家好,我是加文。
我之前来过这里,我是一个名为“AI for Humans”播客的联合主持人,你可以在音频或YouTube上找到它。我的背景是媒体。
我曾经是《今夜秀》的节目制作人,后来进入了AI领域,参与了一些奇怪的初创公司项目,但我主要关注的是这个领域,特别是从媒体的角度。AI领域有很多快速发展的媒体事件,不仅仅是大型语言模型。还有更多。
是的,确实有很多,我很享受关注它,我很高兴能参与其中。
是的,我也很喜欢,这真是一个有趣的脑洞。是的,很高兴你本周能来,正如你将看到的,本期节目主要关注工具和应用以及新技术。有很多这方面的新闻,你的播客也关注人们日常生活中或娱乐中可以使用AI。是的,我们在本期节目中讨论了很多这方面的内容。是的,我们非常专注于此。
我们试图让它更容易被理解,我不会说面向所有普通观众,因为AI受众可能需要一些技术背景,但对于非常好奇的、非技术性的技术人员来说,我们也吸引了一些技术人员,主要是因为我们会说一些愚蠢的话。
是的,这是其中一部分。是的,你们有一个非常有趣的节目。我觉得你们有时会做一些演示,有时你们会有AI联合主持人,我觉得这很不错。是的,这很有趣,在我们进入新闻之前,像往常一样,我想感谢一些评论和评价,这里有一些新的评价,“必听的新闻分享,关于对AI工程师有帮助的事情和技能”。看到这些总是很高兴,我们也收到了一篇非常详细的评论。
标题是“索引传感器AI播客”,来自一位科技公司CEO和初创公司创始人,我想知道我是否在湾区见过你,但我读了你的评论,这里有一个请求,就是继续报道Meta和Gemini AI的现状以及它们之间的比较,我认为这是一个很好的请求。我们有一段时间没有谈论Gemini的质量了,只是稍微谈一下,我会说我时不时会尝试Gemini。
我总是感到失望,并且有点困惑为什么它落后了,至少对于我更依赖编码的应用来说,通常更像是长篇幅文档和代码。我没有发现它很好,我不知道你的经验如何。
我也有同样的感觉。我的一部分认为谷歌的某个人应该对Gemini的现状负责。我不想批评他们,因为我知道Logan Chipkin或Karthik Ramaswamy非常活跃,并且试图推广它,他们会推出一些处于领先地位的东西。
但我的意思是,它的表现并不出色。但每次我使用它时,我都很失望。我最近使用Gemini。
他们最近发布了iOS应用程序,它与OpenAI的进展差距太大了。我不明白像谷歌这样的大公司怎么会如此笨拙地处理它。但我知道我这么说有点不好,但每次我打开它时,我都没有得到我想要的结果。
这对我来说有点奇怪,而且可能令人惊讶,因为他们确实有一个很棒的DeepMind团队,并且拥有大量的硬件资源,但与OpenAI相比,它每次都更差,这让我很失望。
我想说一件事,说到谷歌,我知道这是一件很随机的事情,但有一位名叫Josh Wardle的谷歌谷歌实验室副总裁发布了一篇文章,基本上,顺便说一句,这非常有趣,我希望他们能多做一些这样的事情。它被称为Jeopardy Chess。
你听说过这个吗?Jeopardy Chess基本上是一个他们创建的小型愚蠢的东西,它允许你创建棋子。你可以用普通的提示来玩国际象棋游戏。
所以我创建了热狗队对阵寿司队,每个棋子都是一个热狗,这是一个非常有趣的小玩具,我觉得这很酷。当然,这在更大的事情中并不重要。没有人会使用Jeopardy Chess来改善他们的业务。
但这感觉很新颖,就像一本新书。我觉得他可能认为谷歌擅长的是这些小分支,不幸的是,这些并不是业务,这可能是谷歌未来面临的一个大问题。
是的,我认为还要说一件事,Gemini可能足够好,将其集成到各种谷歌产品中将非常有用。例如,一些人用它来完成语音笔记、会议记录等的总结,谷歌确实受益于拥有自己的大型语言模型来用于谷歌文档。
谷歌文档很大一部分依赖于此,对吧?在谷歌文档中,你可以用它来写作或完成句子等等。
是的,完全正确。所以我认为使用Gemini会非常有用。但作为ChatGPT或Claude的替代品,它并不那么好。
它不起作用,我的意思是,当然,它不起作用。但我再也不会用它了。
我再也不会用它了。是的,完全正确。另一件事,如果你有的话,这非常有益,它是一个关于如何比较不同图像生成器的指南。
加文,我不知道你是否每次我们最近在播客中介绍新的图像生成器时都收听。我们总是说,我无法判断哪个更好,因为它们现在看起来都非常好。所以这篇评论更关注的是提示工程以及它们执行你想要操作的能力,这是真的。在这方面,很难判断,但不同图像生成器之间确实存在差异。
我还要说关于图像生成的一件事,这对我来说很奇怪,那就是用户体验。我知道这听起来很疯狂,大多数人都不关心用户体验。
但事实上,这就是人们将如何使用它。我认为Midjourney现在正成为我最喜欢的图像生成器。
我一直在为Stable Diffusion付费,我很快就会取消订阅,因为Midjourney的用户体验更好。现在它是一个桌面应用程序,但我仍然觉得我无法从中获得我想要的结果。
还有视频生成器,Midjourney相当不错,当然,很多人都在构建。
Flux的用户体验很棒,我相信我们今天会讨论其中一些内容,还有Dream Machines,一个新的开源项目,但Flux太棒了,提示工程也非常好。但我还没有获得完美的用户体验。
但我认为这就是为什么用户体验如此重要,也许这就是这类东西的未来,就像没有大型语言模型一样。随着事物变得更好、更快、更相似,人们如何实现它比它实际执行的操作更重要,这有道理吗?
是的,完全正确。最终,你对技术的了解越少,它在实践中对你越有用。
就像建筑物的钢梁仍然是钢材一样。真正重要的是围绕它的建筑是什么样子,以及你真正想要的是什么,最终,我的感觉是,管道有效。管道有效地输送水,而我喝的是水,对吧?
是的,感谢你对这篇详细评论的评价,你的问题和评论对我们很有用,请随时发送你的评论。长篇幅的评论总是很高兴阅读。
在我们讨论新闻之前,还有一件事,我们有一个赞助商要推广,最近是The Generator,这是一个专注于AI创业的AI实验室,来自波士顿学院。波士顿是美国创业教育的重点院校之一,排名很高。去年秋天,波士顿学院的教授与学生合作启动了这个Generator实验室,它有各种关注点,例如AI创业和商业、AI与社会、AI艺术和表演等等。
所以他们的工作涵盖多个领域。他们培训教师了解AI概念和工具。他们实际上很喜欢播客,这就是他们联系我们并要求我们推广他们的原因。
最近,他们举办了一个关于AI和写作的研讨会,邀请了来自主要大学的不同代表,例如麻省理工学院和塔夫茨大学。这让你了解了他们的工作内容,这是一个非常有趣的倡议,我很想知道它会产生什么结果。
最后,我们进入新闻,首先是工具和应用。第一个新闻是刚发布的,我们稍后会详细讨论,这很不寻常,是周三。
我认为就在昨天,这个消息被宣布或报道,OpenAI的Sora视频生成器似乎泄露了。泄露的方式很不走运,我一开始很兴奋,因为我想,哇,OpenAI。但泄露的方式是,Hugging Face上有一个界面,你可以用它来生成10秒钟的视频。
似乎有人可以访问API,可以提交请求来生成视频,他们对OpenAI的一些做法感到不满。所以有一个自称Sora PR木偶的组织声称,OpenAI向测试人员施压,要求他们积极宣传Sora,并批评它以PR为中心,而不是真正友好。所以似乎是这样,有人这样做了,结果访问权限很快就被关闭了,但这又是一个关于OpenAI的戏剧性故事。
这里有几件事需要讨论。一个是输出是什么样的,另一个是我认为围绕OpenAI意味着什么的更广泛的讨论。让我们从输出开始吧,它们看起来相当不错,我认为每个人都听说过,Sora并不像我们在Runway和Luma或特别是中国模型中看到的那样好。
我认为这里有很多值得称赞的输出。你知道,有很多很酷的东西从它中产生。也有一些有趣的事情。
只是让大家知道,据我所知,这个新的Sora模型被称为Sora Turbo,它允许人们更快地混合,因为关于Sora的另一个说法是,当Sora第一次发布时,一个简短的视频需要10个小时才能生成。我不知道这是否完全正确,但这是一个很长的时间。所以这是一个Turbo模型。
我认为我对此印象深刻,我很想。显然,这我从未接触过。我们在节目中采访过一位艺术家,他获得了早期访问权限。
他对此有有趣的体验。我实际上和OpenAI的人谈过。我前几天晚上和一位与OpenAI的创作者合作的女士共进晚餐,所以我了解到他们非常关心创作者。
所以我认为这是一件棘手的事情。我认为对我来说更大的问题是,这对于OpenAI意味着什么,因为我要说的是,对于一家娱乐公司来说,AI视频在法律方面和可能由此产生的合作关系方面是一个很大的难题。
现在睁开眼睛,正如大多数人所知,已经面临神经时报和所有其他人的诉讼,因为他们的数据训练,也就是文本,我认为Sora为他们带来了另一系列的大问题。而且我的天哪,他们宣传的方式,抱歉,与其说是一种消费产品,不如说是一种专业产品。因此,他们不必处理一些那些令人头疼的问题。
所以这里有趣的是,你可能就像控制Sora内部的人一样,OpenAI。顺便说一句,OpenAI现在是一家非常大的公司,比我们第一次介绍它时大得多。而且可能有一些人,他们那种铁腕统治,人们可以说些什么,他们可以谈论什么,这对公司来说从来都不是好事。
我的意思是,就像你,你对一家公司来说从来都不是好事,比如你只能说好话,你知道,如果你看看市场上Brownlee对YouTube上两家公司的评论,你就知道情况就是这样。我认为这里有趣的是,我希望他们能把它拿出来说,这里就是Sora,我认为你们让我们玩玩它。显然,我认为他们可能有点担心的是,它可能与顶级中国模型,尤其是顶级中国模型相比,并不那么出色,但我们还不知道。
你知道,我看到的一些视频结果令人惊叹。感觉上,在很多方面,Sora在那种素材片段提示方面比甚至Topaz或其他任何东西都好得多,很明显它有很多素材片段背景。我喜欢通过OpenAI官方频道发布的艺术家视频,比如官方的那个。
有一个很棒的艺术家,名字叫Nice,她制作了关于她自己的令人难以置信的超现实AI视频。你知道,那种韩国语法的氛围,那些东西太酷了。但我认为没有人真正知道,直到他们发布它。我试图弄清楚并想知道,你认为这会降低它发布的可能性吗?还是现在他们更有可能发布它?
是的,这是一个好问题。我意识到我没有提到Sora是什么。所以希望所有听众都已经知道,Sora是OpenAI在今年年初的第一次展示会上推出的视频生成器,对吧?我认为在那时,它让每个人都震惊了,因为它比你见过的任何视频生成器都好得多。
正如你所说,从那以后,你看到了更多的东西。当时,真的没有公开可用的生成视频的方法。现在你有了像Luma、Runway这样的东西。
它们做得相当不错。呃,特别是如果你以一种可用的方式使用它,它的速度足够快,你可以实际用于某些事情。在那段时间里,OpenAI对Sora一直很安静。
他们已经接触到一些人,并且他们进行了一些私密的合作,但他们并没有展示很多新的结果,而且他们总体上也没有谈论太多。我认为这是有原因的。原因之一,正如你所说,是整个法律方面,OpenAI因为使用某些数据而陷入困境,Sora肯定是在……
…公司数据上训练的,对吧?是的,完全正确。
所以我怀疑他们想要那样。对我来说,从各个角度来看,我都不认为他们发布它有什么好处。没错,因为他们有GPT在印钞票,那是他们的业务。是的。
我的意思是,那是他们的业务,而且Sora很贵,我敢打赌,生成它很贵,对吧?那么他们该怎么办?他们真的需要另一台巨型计算机,对吧?没错,他们确实需要。
你知道。是的。而且一切都很像,不像图像生成和ChatGPT,视频生成对大多数人来说只是一件新鲜事,除非你是一个创意专业人士,你可以把它用于某些事情,比如,也许作为一个YouTube,可以为工作的人赚钱。你更倾向于专业产品,你想获得特定……
…真实的,你告诉我让婴儿乔·罗根和……
…婴儿霍华德·斯特恩说话是一份专业工作。但不是,那是我的意思。人们可以使用它并为此付费。
但这相对较小。不,非常小。你……
…绝对是,非常小的市场。没错。所以是的,OpenAI,我认为,呃,发布它的好处很小,是的,他们不需要炫耀太多,但他们是领导者,是的,所以我……是的,但在某些方面……
…这几乎是相反的,就像他们发布了它,结果有点令人失望。这可能会让他们有点难堪,对吧?我的意思是,就像我们现在都知道的,AI是一个炒作游戏。OpenAI的炒作部分在于他们是尖端技术。他们拥有某种程度的垄断地位,即使它是真是假,我们也不知道,显然,希望稍后能谈谈DeepSeek和所有其他支持者。
你可能已经谈论过这个了,但是,如果OpenAI发布它,结果还不错,并且与一些更尖端的模型相比,结果还可以,这对他们的公司来说不是什么好事,如果他们不需要它,也许他们会做这种事,对吧?所以也许这种泄露很奇怪,因为他们并没有计划这样做。所以这可能是……
…一个因素,对吧?然后回到一个问题,泄露会使它更有可能或更不可能公开发布,这很难说。但我猜想这会促使他们比以往更加谨慎地对待Sora?呃,这种向某些人提供访问权限的方法现在已经适得其反了。我猜想,他们会继续这样做,并且会更加严格或更加小心。
关于这一点,我想说的是,你读一下Hugging Face页面上的艺术家声明。这很有趣,因为你知道,对于那些想要使用OpenAI工具的艺术家来说,这是一件矛盾的事情,但他们经常在受版权保护的作品或作品上进行训练。
我认为即使在那份声明中,你也可以读到一些内容,对吧?我认为这种持续的冲突会在艺术家的脑海中出现,比如,我们是否信任这些公司?以及这条信息的含义是什么,那就是,为什么?比如,开源工具真的很有趣。
我知道我们离它还有很长的路要走,那里有一个新的开源视频模型,我认为叫做LT X,这很有趣,但它并不令人惊叹。我认为最终,像视频和音频工具的开源将会导致一些有趣的事情。但现在,我们仍然受到这些巨型……
…公司的控制,是的,绝对同意,Hugging Face上的那份声明非常有趣,是的,你应该读一下,是的,它很好。
但重点是,这些似乎是一些……已经获得访问权限的人,他们不是测试人员和创意合作伙伴,他们说他们被诱导参与艺术粉饰,为艺术家们向世界宣传,并且有点像,你知道,说这是好的,而不是批评它,我们称之为公司艺术粉饰,这就是这里的动机,哦,我们已经转向下一个故事了,是关于Mistral和他们的一些更新。首先,他们现在有了Pixtral Large,这是对他们去年首次发布的模型的更新。
所以这是一个更好的版本,能够更好地处理图像并处理图像输入。其次,我认为更重要的事情是,他们的Leh Chat有了很大的改进,这是一个使用他们大型语言模型的平台,非常类似于ChatGPT的网络界面或Claude的网络界面。所以这个网络界面有很多更新。
他们添加了图像生成、网络搜索和交互式画布。呃,他们有文档和图像注释,他们甚至说有任务代理。所以他们似乎在一举之间添加了ChatGPT和Claude在过去一年中逐步添加的所有内容,比如画布,当然现在它同时出现在ChatGPT和Claude上,这是一个很好的界面,用于处理文档和编辑元素等等。
你很兴奋,输出不再是文本。然后,当然,网络搜索是针对你的问题的,它有丰富的生产力,它确实看起来像他们试图将其定位为与ChatGPT竞争,这在我看来之前并不是这样。我之前觉得他们更像是为了让人们付费访问API而竞争。但这部电影似乎表明他们可能想要那些类型的用户,这很有趣。
我认为这是AI公司的一次伟大的重新定位,当涉及到这一点时,对吧,我认为商业人士就是这样想的。我参与商业活动已经相当长一段时间了,并且通过我的职业生涯对产品思考了很多。
我认为每个人都在试图弄清楚他们将在赚钱的堆栈中占据什么位置,对吧?我认为这是一件重要的事情。如果Anthropic和OpenAI成为某种API管道,就像在某种程度上,就像Meta显然会制作他们自己版本的类似于Llama的应用程序一样。
Mistral处于一个奇怪的位置,对吧?就像,它很棒。你知道,开源,它本身就是开源的,它是由一家位于欧洲的开源公司设计的。
所以它有点不同,但这可能是基于欧洲AI规则而对他们造成的不利因素。但我认为他们都必须开始以不同的方式定位自己,因为有一个真正的论点。这是真的。
我们在播客中讨论过这个,但ChatGPT收购了chat.com,因为ChatGPT正在迅速成为AI的中心,对吧,就像所有东西都可能通过OpenAI进入主流一样。所以Mistral和所有其他公司都必须开始……以某种方式区分自己。
所以,我想知道这是否是他们朝着这个方向迈出的第一步,试图成为一个……类似于ChatGPT的替代版本。Anthropic试图……
…我觉得成为一些稍微不同的东西。就像Anthropic不断推出这些有趣的东西,你知道,计算工具和所有这些东西,感觉它们对开发者来说将非常重要。我不知道这对我来说是一件多么有趣的事情,但是,我们正到达一个点,整合可能会发生,而像Mistral这样的公司可能会被排除在外。
我认为是的,他们在提供与OpenAI竞争的API方面面临真正的挑战,因为它在这一点上已经有点晚了。是的,完全正确。
开源工具,对吧?
没错。我们有开源工具和API工具,总的来说,OpenAI、谷歌和Anthropic都能提供免费的、廉价的,可能在这一点上是不盈利的费率,是的,这很难与之竞争。
所以你是对的,也许他们可以走的其中一个方向是面向更多消费者和日常使用,这回到了你提到的一个观点,即聊天机器人的一个重要方面,在一年以前并非如此,那就是用户体验,以及呃,我认为图像生成能够进行网络搜索。所有这些都是过去一年中使用大型语言模型作为聊天机器人的用户体验方面的改进。所以在这个领域是有空间竞争的。从某种程度上说,他们正在将自己定位为竞争对手。
是的,我的意思是,我经历了Web 2.0,年纪足够大到可以参与其中。我认为Web 2.0的有趣之处在于,我觉得它是在互联网的基础上增加了更好的用例,对吧,就像互联网在90年代出现一样。然后Web 2.0带来了有趣的动态用户体验和用户界面。突然之间,你可以拥有像Digg这样的东西,或者你可以更新东西,人们可以在上面分享东西,感觉我们正在进入AI领域的变化有点像,我们从哪里开始?就像将原始信息放在某些地方,现在它会变得更好一点,更好的用例……
…然后进入闪电轮,我们将尝试加快速度。我们还有大约十个故事要讲,是的,是的,是的。首先,我们有一些关于微软的新内容。
他们最近举行了Ignite 2024的发布会,他们宣布了一件大事,那就是AI代理的概念。所以他们正在添加这些所谓的代理,它们与我们之前讨论过的代理意义不同。这里有一些例子,你有一个解释器代理,它是一个用于团队会议的实时翻译工具。
一个促进者或代理,基本上是一个记录员。并总结团队会议,他们有一个用于SharePoint的代理,它处理数据和oasis。一些员工服务方面的东西,所以他们称之为代理。
这些感觉就像这些产品的更多功能。它们不是我们一直在谈论的那种代理,也就是,你知道,你有一个AI工具,你给它一些指令,它就会为你完成任务。这些更像是你可以贯穿微软产品使用的附加功能。
你知道这是关于什么的?这是关于马克,一份声明说,像软人工智能并不重要,未来都是代理,所以阿德拉说,嘿,我必须开始说“代理”这个词,但我确实认为,像人工智能实体,我觉得可能是2025年的故事,萨姆·阿尔特曼和达拉·特洛皮克也这么说,但对我来说,这是我们今天播客中发现的潜力,播客今天发布,这就像2025年三大转变。我认为,真正的代理即将到来,我认为让人们习惯于电脑做事情很重要。但我同意,这些更像是功能,而不是其他任何东西。
对吧?所以,从技术上讲,呃,翻译,实时翻译在某种意义上是一个代理,因为它,就像和你一起做事。所以你可以称之为代理,这并不完全错误,但这与它通常的使用方式不同。
说到代理,我们现在要谈论一家名为H的初创公司,它位于巴黎。他们在今年早些时候筹集了2.2亿美元,现在他们推出了他们的第一个产品,叫做Runner H,它旨在用于代理应用程序。所以他们有自己的,呃,紧凑型LLM,有20亿个参数,他们现在有一个API,用于预构建和自定义代理应用程序。所以他们认为这将对电子商务和银行等领域有用,你可以在其中应用,嗯,你知道,不同的H类型的业务流程,比如处理表单和模板,质量保证之类的东西。所以是的,很有趣,再次,一个例子,它没有试图完全在LLM访问上竞争,它没有打算推出一个新的聊天机器人,而是推出了一些更适合企业的东西,这是有道理的。
这一切都会发生。我认为这很有趣,我想说的是,几周前我和投资界人工智能领域的一个非常重要的人,一个非常重要的人谈过话,嗯,可以说是最大的一个,他说,涌现出的代理公司变得非常难以投资,因为它们数量无限。我认为这些总是有趣的故事。
我认为这些东西也可能走向底层,就像我担心这些公司一样,比如为什么OpenAI和Anthropic不能以某种形式推出它们,然后突然整个公司就消失了。当然,也许这些公司正在使用这些API。所以也许,正如我们之前讨论过的,他们的用户体验会比那些公司更好。但我只是觉得很难想象很多这样的公司会成功,嗯,最好的公司将是那些……
让它变得容易,我觉得是的,所以是的,这是一个有趣的情况,在这个例子中,它似乎是通过这个重建代理,我们现在针对的是更多领域特异性,比如像大型语言模型都是通用的。
也许答案的一部分是,你根据具体的事情定制你的产品,尽管我也认为他们想成为,你知道,最好的代理人工智能和餐厅,是的,并继续讲述更多关于大型语言模型的故事,接下来我们有Anthropic,他们推出了一项非常新的功能,在云端,那就是风格。所以现在,当你在网络界面中使用它时,你可以选择你想要它如何回应。它可以正式地回应,简洁地解释,或者正常地回应,这就像上述内容的混合。
所以,呃,是的,这是一个我没有在Anthropic中见过的用户体验调整。我没有花很多时间在Anthropic上。这很有道理。我想我会尝试一下,看看我更喜欢哪一个。
是的,我甚至还没有玩过这个。但我认为风格的概念,所以,我之前在节目中谈到的让我真正兴奋的事情,一旦我开始喜欢使用ChatGPT。但我想要的是实例,这意味着,就像,我想要一个我可以分离并控制的ChatGPT,就像,那是我的业务ChatGPT,或者那个ChatGPT,就像我的个人ChatGPT,或者那个我可以和20岁的自己对话的ChatGPT,对吧?而且,我想把这些列在左边,它们并不是像谷歌设想的那样真正的GPT。
然后还有更多的人格,对吧?我认为这是人工智能将带给我们的一个步骤,即使当你想到代理时,如果我想要一个代理去为我,我不知道,我的孩子研究一些东西,我不想让它像个生意人。我希望它像一个充满情感的人,能够理解我为我的孩子想要什么。所以我认为这将是一个奇怪的未来,我们自己的AI将分裂成各种不同的东西,这取决于我们想要什么。我认为这对于代理的出现,聊天行为的融合,当你想到代理时,不仅仅是能够为你做一些事情的东西,而是作为你的一部分的东西,这感觉像是我们正在展望的未来。
没错。我认为这确实说明了我们倾向于关注的代理的另一种含义,一种是推理,它们可以自行制定计划。但我们从未真正考虑过它,那就是拥有一个角色,拥有一个持久身份的概念。没错。
这是代理的另一个方面,它肯定正在兴起。事实上,说到下一个故事,与之非常相关的是ElevenLabs,它现在提供了构建对话式AI代理的能力。所以ElevenLabs是通常进行文本转语音的语音服务,该领域的领导者。
现在用户可以构建,这是一个对话式AI代理,你可以定制,返回一个声音和回应,就像,我猜,嗯,像ChatGPT的聊天体验,具有高级语音。小费,呃,这大概是一种类似的用户体验,能够以非常实时的方式与一个有声音的AI交谈。是的。所以我们稍微研究了一下。
我们是ElevenLabs的忠实粉丝,我们在节目中已经使用了一年半了,穆斯,我们开始真正地……我认为这将是许多事情的未来。
事实上,凯文和我正在做一个项目,我会向研究人员喊话,因为可能会有开发者参与这个项目,如果你是一位对AI语音感兴趣的开发者,我们希望与一位感兴趣的人联系,并将这些东西整合在一起,因为我们对此有一个想法。对我来说,我认为这是一件大事的原因和论点是,我认为语音被低估了。语音将成为未来用户体验的程度有多大?我的意思是,我认为人们将开始习惯与这些AI交谈。就像我过去看到有人在公共场合打电话时感到很奇怪一样,现在没有人关心了,因为每个人都一直戴着耳机。
我认为与AI交谈也会是这样的。很快就会像,你在和那个东西说话吗?我们会说,是的,我在。然后五年后,实际上每个人都会和它们说话。所以我认为这,所有这些都指向一个未来,是的,我们仍然会在我们的电脑上打字。我们仍然会在我们的手机上打字,但根据一切的发展方向,包括像增强现实之类的东西,我真的认为语音是未来的交互元素,我认为每个人都在某种程度上朝着这个方向发展。
或其他方式,没错。而且,呃,我认为语音,就像这里有很多事情交织在一起一样,因为你会有代理,指的是具有身份和记忆的持久AI程序,它们是你个人的助手,但了解你,了解你想要什么,你可以通过文本与这些代理互动,就像你通常一样,你知道,通过Slack与同事聊天,或者你可以和它们说话。我认为这很可能是未来,正如你所说。
它很简单。我喜欢,对,就像我最喜欢的科幻系列之一是《碳变》系列,我只读了几本书。但理查德·K·摩根再次出现,就像他的书中谈到的那样,比如,一家酒店有自己的AI来运行它,对吧?而且,就像那种互动,它有自己的个性,但它就在那里与你互动,感觉很奇怪。
它在电影中被著名地引用过,当然,是的,如果你看过这部电影。
它似乎在电影中……顺便说一句,电影做得不好。
我们……是的,我们再次顺利过渡到相关的主题,下一个是关于Gemini,它现在有一个记忆功能。所以Gemini现在将记住个人信息、偏好和上下文,以增强用户交互。这似乎与你之前问到的Anthropic的记忆功能相同,它已经存在了很长时间,现在已经有一段时间了。所以现在用户可以指示Gemini记住特定的偏好,嗯,你知道,让体验更适合他们,是的,我的意思是,再次。
就像,好吧,Gemini,你正在处理我使用过的产品和其他东西,我想,给我更多上下文,对吧?让我们加快速度,给我更多上下文,但这很酷。
我的意思是,再次,你之前关于谷歌产品都与之深度集成这一想法的观点。这可能是最合理的地方。我喜欢ChatGPT的一件事是,它现在记住,当我想要为人类写一些关于节目的东西时,它会给我那种感觉。
所以我可以想象,如果我在谷歌文档中,我说,嘿,我正在写一封邮件给我的老板,我需要你记住我为此使用的语气。那将非常酷。我认为这可能是它最有趣的地方。
绝对的。我认为,呃,能够定制它如何进行电子邮件和其他完成工作的方式是一个很大的进步。有时你需要有意识地不要总是这样做。
是的,没错。继续前进。下一步是Perplexity,他们正在为美国专业用户推出购物功能。
Perplexity再次是一个AI驱动的搜索引擎,在AI搜索领域是一个大玩家,现在他们将能够,呃,查看、购物、直接在搜索结果中下订单,我认为你也可以在谷歌上做到这一点。对我来说非常有趣。购物工具与Shoppy等卖家网站集成,并表示VISA通过累积积分提供赞助插槽。呃,嗯,很容易将其视为Perplexity的货币化途径,我认为这非常重要,因为订阅可能不会奏效。
我对这件事有很多想法。我认为最重要的一点是,是的,我认为Perplexity是这些公司中的一种,要么很快就会失败,要么就会起飞。我认为这可能是他们看到收入来源的地方,因为正如我们所知,谷歌的重大突破是谷歌解锁了广告,对吧?就像,特别是针对人们的非常有针对性的广告,其中很大一部分是购物。
现在,并非所有都是这样,对吧?还有其他服务和其他你可以针对特定人群的东西,如果Perplexity能够做到这一点,如果通过这种方式向购买者提供真正的价值,他们实际上拥有一家真正的公司。我现在回到这个问题,这是一个,你知道,Perplexity非常擅长控制返回多少东西,以及那些链接是什么。
那么,是否会设置一个限制,让你只能通过几样东西?这对这些企业的其他竞争对手意味着什么?其次,当你想到过去的算法结果时,互联网,我猜我们在这部分,我不喜欢加拿大,对吧?
是的,很好。好的。我认为我们认为我们的目标是……
我们认为算法的结果是互联网是什么。它已经成为一场闹剧,对吧?感觉就像人们找到了SEO,让那些结果冒泡出来。
所以我对Perplexity购物应用程序的担忧是,如果我只得到三个结果可以选择,或者甚至只有一个,因为AI世界的梦想是它会提供我想要的东西,我怎么知道那是最好的一个?我不知道。
就像,你知道,The Wirecutter在你的时代做了一笔非常好的生意。The Wirecutter从弄清楚这是最好的东西,这是最经济的东西中发展壮大,从购物的角度来看,这非常有用,Perplexity是否有足够的资源来做到这一点?这是我的大问题。
这是一个像这样的业务,这是一个真正的业务。他们可以解决这个问题。这也是一个结果空间业务。所以如果结果不好,那就不是一个好……
商业方面肯定如此。是的,你说得对。在研究引擎游戏中,你总是试图领先于那些为了自身利益而破解研究引擎的人。是的,我们各自的观点之一对我来说是,AI 如何在这种领域提供优势并不十分明显,例如,显然是为了研究目的进行深入搜索,Perplexity 很有优势,因为他们拥有非常好的东西。但是,如果你只是在寻找降噪耳机,我不知道除了总结已经比较它们的那些文章之外,它们还能提供什么,对吧?我会看看。
这是一个我认为在 Perplexity 或其他任何地方都非常有趣的业务。我认为这是我想要扩大规模的业务,即 AI 代理,而不是考虑一个你可以在其中搜索并提取这些东西的地方。
我认为更有趣的事情是,如果我有一个 AI 代理,它可以出去寻找东西,对吧?这是一种略微不同的商业模式,就像我训练了自己的 AI 代理一样,我控制它知道什么和它想要什么。我个性化了它,并把它送到了互联网上进行搜索,然后回来。对我来说,作为消费者,这感觉比一家公司控制管道要好得多。我认为这才是最吸引人的地方。
我认为我们这里还有更多故事。下一个是 Suno 音乐生成,他们现在有了 Suno V4,所以音乐生成领域现在发展得非常迅速,Snow 和 Audiocraft 都提供了非常好的文本转歌曲功能,用户体验也得到了快速发展。
所以现在我们有一个名为“重制”的新功能,可以增强旧曲目,还有一个 AI 驱动的歌词助手,用于更轻松地创作歌词内容。我必须说,我发现这些工具的歌词生成非常糟糕。所以 V4 当然会让你的生成更好。啊,你可以将它与现有的工具一起使用,比如翻唱,重新构想现有的音频,以及具有音乐风格的人物,是的,这是一些仍然需要改进质量的地方,作为经常使用音频的人,你会经常看到奇怪的 AI 伪影,是的,有时你会疯掉,你知道,你读到歌词,但 AI 只是发出听起来像单词但不是单词的声音,所以我在用 V4。在 V5 中,我们将开始看到这种情况消失。
AI 现在已经很成熟了。我们之前在节目中讨论过 Audiocraft。我刚刚重新订阅了 Pro,到目前为止我的体验大多不错,并非完美,我必须说。我知道 Suno 意识到到目前为止 Force 中存在一些问题。
你说的那件事对我来说真的很有趣,我可能有六次生成中有一次这样的经历,这在 3.5 中我没有遇到过,那就是,你听到音频,而文字实际上就像,它就像人类的文字,但只是含糊不清的东西。我觉得这像是新模型的开始,他们仍在微调并发布它,总的来说,音频保真度得到了极大的提高。就像它没有开始,它听起来不像你之前在音频中听到的那种微弱的声音,那种声音消失了。
我也同意你的观点,歌词生成并不出色,我认为如果你真的想自己创作歌曲,事实上,有趣的是,我正在制作一张愚蠢的圣诞专辑,打算在某个时候发布,关于 AI 圣诞专辑,只是为了体验一下。你真的必须几乎完全自己创作它们,即使我使用 ChatGPT,ChatGPT 也做得不错。给你一些想法。
创作歌曲并不容易,对吧?这不像 LLM 一样能够完全掌握它。所以,我认为如果你要使用这些东西,最好自己修改歌词,而不是试图完全让它吐出来。
是的,是的。我为 Ultra 每集生成一首歌曲。你知道,我试图只提供主题,并说“Last Week in AI 播客生成物理学”。它只是反复使用相同的东西,相同的单词,相同的短语。它变得非常通用。
所以,如果你想做一些更有趣、更个性化的事情,你几乎必须对其进行大量调整,才能让它真正拥有好的、有趣的歌词。没错。接下来,我们来看图像编辑和生成。
我们有 Flux.1 工具。Blackbox Labs 的 Flux 一直很出色。我认为就在上周,我们讨论了 Flux Pro 和原始编辑。
现在他们有了这套工具,其中包含你在这些编辑器中通常会看到的绘画和外出绘画等功能。他们还有一个 Flux.1 深度工具,用于基于深度图的结构引导,以及用于基于边缘的引导的 Kenndy 工具。此外,我们还有一个工具可以创建图像的变体和重新着色。
我喜欢它。首先,Flux 太棒了。Flux 的事情,人们要记住的是,它是 Stable Diffusion 的人启动的。
记住。
第一个版本仍然是我最喜欢的 AI 模型,一个视频,对不起,一个图像模型,因为你可以做令人难以置信的事情。就像在 Civitai 早期,如果你在 Civitai 上,并且从那里下载了模型,有一些非常棒的东西。你可以看出那个团队在 Stable Diffusion 之后真的在努力推进,然后 Stable Diffusion 爆发了。
你知道,我相信这个播客的听众记得,比如 CEO 离开了,还发生了其他事情,那些人去了 Blackbox Labs,看到一个最先进的前沿图像模型,顺便说一句,将来还会出现视频模型,这真的在推动行业向前发展。我认为这很棒。
而 Midjourney 对我来说现在感觉有点疯狂,我觉得它们没有像应该的那样快。你们中的一些人玩过 Midjourney 的工具,但它们感觉有点奇怪。有时结果并不理想。
所以我认为这受到了很大的影响。有趣的是,我一直想知道这些公司的后端业务是什么样的,你知道,图像的 API 和视频的 API,它是一个业务吗?我不知道它是不是。
我几乎认为,我喜欢他们在做这件事。我认为这令人难以置信,但很难弄清楚业务在哪里。这是我唯一的问题。我相信有人可以告诉我。我只是不知道它是什么。如果你知道,如果你知道的话,我很乐意你在 AI 人类节目上联系我,然后谈谈它,因为我很想了解更多关于开源视频和音频的业务是什么样的。
对吧?完全正确的更正。为了清楚起见,我可能听起来像是这里有一个网络工具,并且有深度,这实际上是一系列模型。
所以,外出绘画、所有这些东西都是单独的模型,似乎正在添加到其 API 中。我认为,对于 Blackbox Labs 来说,我们可能有一个非常明确的商业案例。他们还提到,这些模型将提供给他们的合作伙伴,作为免费赠品。现在,Cat 用户使用 Flux。
用于想象力创作和合作伙伴关系,如果他们付费的话。
所以,在我看来,他们实际上并没有瞄准消费者市场。他们的目标是成为其他工具的提供商,这些工具建立在其之上,接下来是 OpenAI。我刚刚谈到了 OpenAI,它进行了一次重大的创造力更新,所以这个故事是 GPT-4 的新版本,据说它具有更好的创意写作能力。如果他们短暂地超过了 Google Gemini,我认为那是一个新的 Gemini 版本,又回到了榜首。所以,这表明了大型语言模型聊天机器人的一个有趣时期,它们正在进行更多调整,更多小的更新,以更渐进的方式改进事物,而不是进行大型发布,是的,我的意思是,对我来说,最好的事情是,如果他们可以开始逐渐发布更新,我认为这是最好的事情。很难知道它有多好,这就是问题所在。对于 OpenAI 的更新来说,这总是很棘手,比如,“它写得更好”,我试过了,我觉得我不知道,对于一个以写作谋生、做过很多事情并且很有创造力的人来说,它从来都不是。
就像它一直还可以,而且经常停滞不前。所以我希望他们能更具体地说明他们是如何看待它的。就像我想看一个视频,比如“这就是我们看待它的方式,但我们不会那样做”。
这只是一个简单的发布。我仍然认为考虑 ChatGPT 为 ChatGPT 的第二个大学准备了什么,这很有趣。会不会有什么东西出现,因为你知道,你永远不知道那些家伙会带来什么。
这有点出乎意料,所以谁知道呢?我们将拭目以待。但是,这很好。我喜欢他们不断改进,这很好。
最后一个故事。我们有一个关于 Runway 的故事,他们有 Frames,这是一个新的 AI 图像生成器。它具有增强的样式列表控制,当然还有好看的图像。所以,我认为这个名字指出了我们前进的方向,Frames 可能指的是电影的画面,你拥有的单个镜头。
所以他们强调了控制和获得非常风格化的图像的能力,比如 1980 年代的妆容或迷幻风格,以及经典电影的经典数字肖像画之类的东西。再说一次,正如我通常发现的那样,Runway,大概的想法是,这将是人们可以在实践中使用的东西,而不是一个通用的图像生成器。或者,这在你的工作流程中会更有用?我不知道。我认为……
就是这样。我认为和你一样,有人做了很多 AI 视频生成。我认为转折点已经到来,文本转图像很好,但实际上是图像转视频,对不起,文本转视频很好,但实际上是图像转视频才是真正的大事。
因为有了图像转视频,你可以控制一致性。你可以确保角色相同。你可以做所有这些事情,如果你正在制作一部电影,作为一名艺术家,你需要做这些事情。当你想到,比如当一个电影制作人绘制电影的故事板时,他们在做的是,你将整个东西以某种图像的形式放在那里,然后才……
所以我认为这非常有意义。
Runway 需要这样一个工具,因为最终,如果我制作一个 Runway 视频,我的第一步总是先在其他地方创建一个图像,然后将其放入图像转视频中。所以这非常有意义。我希望它和其他的工具一样好。我们对 Runway 的突出之处是,有时我知道这是这些公司和大型公司之间来回进行的事情,他们对最终你能生成什么内容的控制非常严格,有时甚至到了……
你想制作一个关于穿着性感连衣裙的女人旋转的视频,这并不是什么色情内容,但“性感”这个词对他们来说太过了,对吧?知道吗?或者类似的事情,感觉很难找到那条线。但我发现自己经常无法在 Runway 上毫无理由地生成某些东西。我认为关于你能生成什么和不能生成什么,这场斗争将会持续下去。
是的,我想一旦他们有了付费客户,他们想要生成的东西,大概就是他们主要工厂中的一个。我完全同意。
我认为图像转视频,甚至可能是视频转视频,我认为这被低估了,文本转视频是所有炒作的地方,但如果你想要特效,那就是视频外出绘画,也就是说,你知道,去除任何模糊或从镜头中去除这辆车,去除行人,这是我能想到的最有用的东西,然后你有了图像转视频,如果你想获得特定的视觉效果,你可以真正控制事物,正如你所说,获得你想要的东西,而文本转视频可能就像这些应用程序的补充,我们有一个非常简短的应用程序和业务部分,它将从一个非常有趣的小故事开始。啊,所以我们再次有一些 OpenAI 的戏剧要报道。这次是发生在很久以前的一些戏剧。
所以在埃隆·马斯克和 OpenAI 之间正在进行的诉讼中,在埃隆、山姆·阿尔特曼、伊利亚·苏茨凯弗和格雷格·布罗克曼之间有很多邮件被发布,追溯到 OpenAI 的信息,直到埃隆·马斯克基本上离开并不再是 OpenAI 的一部分,在 2018 年或 2017 年,其中一个。所以你实际上可以阅读这些邮件,看看这些人是如何互相交谈的,这很有趣。
您可以阅读山姆·阿尔特曼于2023年5月23日发送给埃隆·马斯克的初始邮件,邮件开头写道:“我一直在思考,是否有可能阻止人类发展人工智能。我认为答案几乎绝对是否定的。如果人工智能无论如何都会出现,那么最好由某个善意者,比如谷歌,率先完成。您对启动一个类似于‘曼哈顿计划’的人工智能项目有何想法?”马斯克回复道:“值得讨论。”
山姆·阿尔特曼还有一封很长的邮件,基本上描述了OpenAI最初的样子——一个人工智能实验室,以及马斯克对此的回应。同意所有条款,非常有趣。之后,当您看到与OpenAI从非营利组织转变为营利组织,以及可能与特斯拉合并并让马斯克担任CEO的对话时,就会看到更多戏剧性的内容。实质上,格雷格·布罗克曼和伊利亚·苏茨凯弗不同意正在讨论的计划,而马斯克基本上无法控制OpenAI。
哦,那是一封非常长的邮件。我们得到了一个合理的论点,埃隆·马斯克在某个时刻感到厌倦了。
他在一封邮件中写道:“这太烦人了。请鼓励山姆去创办一家公司。我受够了。”
“伙计们,我受够了。这是压死骆驼的最后一根稻草。要么自己去做点什么,要么继续让OpenAI保持非营利组织的状态。”
非常直接,有点对抗性的语言。所以,是的,读起来很有趣。就我们所知,我认为没有什么新东西,但是……
如果我说听到山姆十到十二年前提到“曼哈顿计划”,而现在美国正在为人工智能开展一项实际的“曼哈顿计划”,这将很快启动,这将非常有趣。是的,关于这一点,我刚刚读到了一本书,书中讲述了埃隆·马斯克收购推特和X的故事,这并没有描绘埃隆·马斯克的正面形象。
但我认为埃隆·马斯克是一个复杂的人物,我认为你必须权衡他所做过的令人难以置信的事情,以及他为了做这些令人难以置信的事情而冒的巨大风险,以及他的人格,我认为称之为自负和难以相处是公平的,对吧?我认为这里有趣的是,埃隆·马斯克让当今世界的一些最伟大的事情成为可能,对吧?这可是件大事。
就像我有一段时间在测试特斯拉一样。我刚退了租约。但是他的电动汽车随处可见,这已经成为现实。
他现在把东西送入太空,而太空竞赛已经有点停滞了。这是埃隆·马斯克与山姆和所有这些人开始对话的方式,然而埃隆·马斯克的戏剧性也渗透到了其中。我的意思是,这只是回顾过去并思考“事情就是这样开始的”的一件有趣的事情。但它也让我了解了埃隆·马斯克的个性,我认为它展示了其中存在的一些复杂性。
没错,而且在讨论2018年OpenAI的未来时,它确实变得有点细微,当时谷歌似乎即将成为领导者,在邮件中,你会很有趣地看到谷歌在论文提交方面占据主导地位。
这实际上来自安德烈·卡帕西,他给马斯克发邮件,谈论进行ICO(首次代币发行)以筹集资金,埃隆·马斯克对此表示反对,我想他会认为这会损害信誉。好主意,马特,那本书我想读。
我想读的那本书,我希望有人正在写,是关于谷歌是如何出错的。顺便说一句,像那本书一样,我认为我们会有一些有趣的故事可以讲述。
现在,你是否能从谷歌那里得到这些故事,我不知道,但有人应该写下这个故事,这个故事基本上发生在这个时期,也许是人工智能时代的兴起,你可以这样称呼它,但听到谷歌内部的故事。他们是怎么让……不,我认为没有人知道布朗。
他们是怎么让他离开去创办Character.AI的?我当时并没有……有点像,“不管那家伙叫什么名字,我们得开除他。”布莱克·莱莫因,因为在那个时代说过的话而被解雇,所有这些事情都发生在这个时期,他们本应该粉碎这一切。他们本应该彻底粉碎这一切。但是,幕后发生了什么导致他们没有这样做,这是一件非常重要的事情。
我相信有人正在写一本关于大型语言模型历史的书。这基本上是从2017年开始的,对吧?Transformer的出现。
当然,在Transformer之前也有语言模型,但大型语言模型是过去六七年来的故事。是的,是的,是的。特别是谷歌,我一直提到这一点,人们现在都忘了。
但我想他指的是谷歌允许其内部人员自定义聊天框并通过警报创建个人聊天机器人的聊天机器人平台。所以他们拥有它,然后LaMDA半年后发布,就是这样,对吧?也许在另一个宇宙中,也许他们会成为第一个获得主流媒体的关注和认可的人,谁知道呢。
顺便说一句,这也会拍成一部好电影,因为你已经可以看到《社交网络》的版本,拉里和谢尔盖在他们的游艇上,通过手机讨论这件事,我认为,然后六个月后,他们就像在办公室里脱下夹克一样,“我们必须认真对待这件事,伙计们!”这非常戏剧化。我觉得是的。
现在我们来说几个小故事。首先,我们确认亚马逊将再向Anthropic投资40亿美元,我相信我们之前已经讨论过这是一个持续进行的讨论,但现在已经确定了。因此,亚马逊对Anthropic的总投资额达到了80亿美元。
所以,当Anthropic寻求更多资金时。所以这大概对他们来说是一个好消息,而且……是的,亚马逊和Anthropic之间似乎存在某种伙伴关系或联盟,而且……你知道,Anthropic处于一个艰难的境地,基本上试图与OpenAI竞争,试图在消费者端和API端直接与OpenAI对抗。
他们的技术做得非常好。许多人会说,我个人更喜欢Claude,但他们并不那么出名。一个真正的问题是,他们能否生存足够长的时间,成为第二大玩家,甚至是第一大玩家。你知道怎么……
这可以立即解决吗?我已经问了六个月了,我真的不明白为什么他们没有这样做,让Alexa使用Claude,让它这样做,就这么简单。这可能是“了解你的受众”,可能会像“莱克斯,太蠢了”。
但是永远,我家有五个Alexa设备,我们卧室里有一个,厨房里有一个,我女儿卧室里有一个,还有……
对不起,隐私,人们道歉。无论如何,我想要的只是一个我可以问随机问题的房间设备,这样我就不用拿起我的手机了。我不需要做任何事情。
你只需要说,“嘿,随便什么。你能给我这个答案吗?”Alexa太蠢了。它基于……现在。
很多时候,如果你问它一个问题,它会给你一个博客文章的答案,或者来自互联网民意调查的随机内容。将Claude直接集成到Alexa中,你将立即为每个人提供一个用例。我不明白他们为什么这样做。
一定是什么法律方面的担忧,亚马逊对Alexa有。但对我来说,这感觉就像……这是最愚蠢的事情。我们家里都有这些设备,我们和它们说话。为什么他们不积极这样做呢?
我不知道。好吧,是的,我只是谷歌了一下,看看有没有更新。我想你会很高兴地注意到,亚马逊没有宣布将Claude集成到Alexa服务中,这似乎是一项付费服务。因此,我看到了这一点。是的。
我记得,你还要为Claude额外付费,好吧,但这又怎么样呢?如果我每月为Claude订阅付费,我应该能够直接使用它,这感觉就像……这就像我要使用大量令牌一样,我不会过度使用,也许如果你想给我设定一个上限,那就这样吧。这感觉就像这些大公司存在,他们可以集成这些东西,这感觉就像一场噩梦。
是的,你知道,这是你可以写的另一本书。也许有人已经写过了。Alexa发生了什么?我认为Alexa可能是第一个……也许是Pretty Theory,它大约是在同一时间。
它大约是在同一时间。但是,是的,即使是Alexa,我认为很多人都在家里使用它,我们用它来设置计时器和播放音乐,对吧?这就是我们用它做的全部事情。
以及烦人的灯控。
而且更先进,对吧?就像大多数拥有Alexa的人一样,他们用它来控制灯,因为……
他们知道插头,说到亚马逊,下一个故事是关于他们的机器人。现在有报道称,亚马逊的自主机器人似乎难以跟上人工操作员的速度。所以,呃,我们有机器人,它们没有……它们没有被用来分拣、装载和卸载包裹……包裹,它们做得很好。
他们在仓库里部署了很多机器人来搬运和运送东西。他们在过去十年里部署了很多机器人。现在他们试图添加这些机械臂和更先进的人工智能,但似乎仍然存在问题,例如目标拾取。
所以你需要进入一堆东西,然后从中取出一个特定的东西。呃,还不能完全取代人工操作员,做得更好,我认为这值得注意,因为我认为这是我们在未来五到十年内会看到的事情,我认为这将是令人兴奋的,大型语言模型将成为通用的……
人工智能的进步。但在幕后,在仓库里,你知道,在卡车上,你会看到这种自动化开始真正影响低端就业市场。是的,我的意思是……
这真的很有趣,老实说,对我来说,机器人技术将是未来十年最有可能发生的事情,是的,我们仍然会有这些AI代理。所有这些事情在早期都很重要。
但是,当你有一个机器人,而不是一个可以像人一样积极工作的人形机器人时,这在就业方面将是一件大事,以及其他任何事情,但最重要的是,我认为我们将开始习惯在家里拥有它们。这又是另一件奇怪的事情,对吧?就像我们习惯与这些AI交谈一样,我们将习惯在我们家里拥有某种版本的机器人,它可以做……我们现在已经有机器人吸尘器了。但很快就会有一个机器人,它可以想象在你的房子里走动,然后在晚上给自己充电,然后,你知道,为你做一些事情,然后为你做很多事情,这就是我们正在进入的世界,这非常令人兴奋。
对吧?是的。而且你知道,这将是……
比人们……更具颠覆性。
变化是惊人的。从技术上来说,就你能用它做什么而言,这真的是一个新的时代。但与此同时,在物理层面的自动化可能会产生更大的影响。人工智能的早期,例如,有180万人从事仓库工作……在物流方面,你知道,这将开始下降,我们将看到下降的速度有多快。但是建筑业呢?
就像我刚刚想到的。想想建筑业。你可以很容易地看到建筑工作被机器人取代。
是的,因为它需要精确,对吧?所以,想象一下,一开始,它就像一两个机器人,它们可以举起……它们可以举起人类无法举起的重物。然后突然之间,你会看到整个机器人团队在建造建筑物,因为A,它们可以不间断地工作。
A,B,它们可以……你知道,每次都以同样的方式做事情,而人类有时会偷懒,有时我会偷懒,或者你可能会在某些事情上变得马虎,或者你可能不如该领域最优秀的人。一个非常擅长做事的机器人建筑工人团队,他们会继续前进,砰砰砰砰砰。
所以,这就是论点,就像,是的,很多白领工作已经被某种程度上吸走了,至少现在是这样,甚至是一些创意工作。但体力劳动工作,这实际上是世界上大部分劳动力的工作,我认为仍然是体力劳动,它很快就会受到干扰。当你想到这对世界经济意味着什么,以及,是的,经济会因为更多机会和更多事物而增长。当你想到那些不会成为这种破坏的一部分或不会成为这种增长的一部分的人时,就会在我们将要面对的事情方面变得有点可怕。
十年后。我的意思是,我们总是看到机器人这样做,对吧,在过去几年中,在汽车工厂等地方,你都见过机器人。区别在于,它们只能做基本上相同的事情一遍又一遍。
它们可以在那里很聪明,字面意思是预先编程的动作,作为它们构建的一部分,它们真的很擅长在一个特定的点上焊接东西。但是,嗯,我们认为它们缺少人们在建筑等领域拥有的能力,那就是能够灵活应变,并满足特定地点的特定需求。所以我认为建筑业有很多情况,不同的建筑工地有不同的布局,到处都是一堆东西。
而这就是人类更胜一筹的地方。这需要一些时间。我认为你会的。我已经知道有一些特定用途的机器人可以用于绘画等工作。
你是否与人类一起工作?在最初的一段时间内,我们肯定会有更多机器人与人类一起工作。但最终,你将拥有能够做人类能做的事情的人形机器人。
而且那是玉米绘画。这是我最讨厌的事情,粉刷角落和粉刷墙壁。所以机器人能做到这一点,已经能节省我很多时间了。现在进入项目和开源,这里有一些非常棒的故事。第一个是关于DeepSeek。他们现在有一个名为R1-Lite-Preview的推理模型。所以这是一个推理模型,就像OpenAI的Orca是一个推理模型一样。
它是一个经过优化的模型,当你给它一个提示时,它会花20到30秒来思考,对吧,分解任务,规划回答它的方法,然后执行像个体步骤一样的思考,直到它给你答案。所以他们现在有了这个开源版本,人们可以用于商业用途或非商业用途。我认为他们还没有发布,但我们说过,在处理这类事情的各种基准测试中,它在更具挑战性的基准测试中不如Orca预览版好,但比愚蠢的GPT-4好得多。
所以他们似乎正在复制OpenAI Orca预览版的大部分性能提升。你可以去。你可以玩他们的网络UI,嗯,看起来非常相似,在实践中似乎也是如此。
你玩过那个吗?我花了一些时间玩它。
我和你一样,我不知道。我很想知道你发现了什么。
所以它非常有趣。嗯,这里不同的是,如果我刚才提到了这一点,请原谅,但它实际上向你展示了推理过程,而OpenAI隐藏了它,对吧?所以Orca特别是不向你一步一步地展示它在做什么,这是一个非常有趣的事情,可以通读它。
我们上周在节目中提到了其中一件事,有人指出,它,它查看了推理过程,因为它被问到如何在草莓中计算有多少个“r”,当它到达第三个“r”时,推理过程说,“等等,还有一个‘r’”,就像它以一种非常人性化的方式发现这件事一样。我发现关于这件事的一点是,首先,它是一家中国公司,所以你知道他们在与美国公司不同的模式下工作。我认为有一句来自DeepSeek首席执行官(一位联合创始人)的引言,如果我稍后能找到的话,我会发给你,他基本上说:“听着,OpenAI拥有的模式并没有那么大。
我们的模式是我们团队,是我们是谁。这不是技术,而是我们作为团队正在做的事情。”我认为这是一个值得思考的有趣的事情,那就是那些将不断在此基础上开发新事物的人可能是模式,就像,你是否拥有正确的人才?你知道,OpenAI失去了很多人,现在他们又招募了更多人。
但就像,这是一个总的来说很有趣的论点,你可以现在就做到这一点,就像你可以访问deepseek.com并玩它一样。你大约可以得到50个请求,这是一个相当多的数量,而且这样做真的很有趣。绝对值得在感恩节周末花一些时间玩它,或者花一些时间玩它,因为它真的很有趣。
看看AI是如何推理你的请求的,是的,完全正确,你可以通过他们的DeepSeek聊天界面使用它。
对,那就是他们的网站,也许我没有把那部分说清楚。
是的,是的,它,它在某个地方,你可以谷歌搜索DeepSeek,是的。另外,如果你还没有玩过大型语言模型,总的来说,看看我们能够做到什么,是非常有趣的。对于我这个从事编程工作的人来说,Orca一直非常非常有用,我一直在从事一些复杂的项目。
嗯,我已经进行了,你知道,超长的对话,我们一起编写复杂的程序。我们来回修改,你知道,它并不完美。你不能总是第一次就做对,很多时候是这样。
但是,嗯,它做得相当不错,绝对能让我节省几天的时间,对吧?接下来,我们还有一个开源故事。它是OpenScholar。
这是一个由艾伦人工智能研究所和华盛顿大学开发的AI系统。它旨在帮助研究人员访问和总结科学文献。它似乎比Duolingo或其他聊天机器人更有效。正如你可能预期的那样,它检索了他们所说的4500万篇开放获取的学术论文。所以你可以问它一个问题。
它可以在所有这些已发表的研究和论文中查找,然后它可以用这些论文来回答你的问题,嗯,是的,我认为它并不完全让我感到惊讶,有可能构建一个主要针对特定领域并且通过直接将其连接到一个良好的研究数据库并针对正确性和精确性进行优化而工作得更好的东西,所以是的,非常令人兴奋。我知道学术界和从事研究的人可以使用它来回答问题,在你需要了解某个你可能不太熟悉的主题时。而这些类型的系统将使这变得容易得多。
我希望它们是可信的。这是我一直反复提到的问题。再说一次,我知道我们会到达那一步。
我一直反复提到的最难的事情是,几年前我为一个YouTube视频制作了一个脚本,我使用了Orca并做了一堆事情。我认为这将有助于它变得可信。但我不得不再次检查一些事情,它大部分都是正确的。但如果我说过某件事,那将是非常错误的,这很糟糕。
有时候,你知道,是的,嗯,你知道,对于从事研究的人来说,嗯,这非常重要。
说的是实际情况,嗯,有一些关于虚构信息进入研究论文等的笑话。所以,你知道,如果这是由大学与这种研究机构合作完成的,嗯,我猜他们真的针对这类人群进行了优化,并且可能经过测试和优化,不会导致很多虚构信息。接下来是研究进展。
我们在这一方面的内容比较短,今天可能不会像我们和杰里米一起做的那样详细地介绍每一个论文,他喜欢花五分钟来真正分解每一篇论文的细节。嗯,我们将更高级别一些。第一篇论文是来自OneProc的一篇博文,名为“对模型评估的统计方法”,这是一篇论文,它有一个令人兴奋的有趣标题,“为评估添加误差线:对语言模型评估的统计方法”。
所以这篇论文的大意是,总的来说,当我们介绍基准测试结果时,我们介绍你在一项特定测试中获得的数字,我们是在告诉你所有问题的平均值,例如,平均正确率是多少?根据这篇论文,这不是理想的。他们认为这些并不是我们报告性能的最佳方式。
嗯,如果你查看统计数据,你可以对给定实验的实际结果进行更精确的估计,例如,你可以多次评估不同的问题子集。与其只提供平均值,你还可以提供平均值的平均值,你还可以提供不同分数的分布。所以这是一个建议。
他们的建议是使用中心极限定理来做到这一点。我们不需要深入研究它,但注册,嗯,嗯,多次评估子集,并查看这些不同评估的分布。这里还有几个类似的建议,我们在这里讨论标准误差、减少问题的变化、进行配对差异。
它深入到相当复杂的细节。但在高层次上,我认为这里有趣的一点是,有一种更好的方法来进行评估,这种方法更精确,可能也更准确,并且对基准测试的差异不太敏感,所以它们的目标是做同样的事情。对我来说非常有趣,我想看看人们是否会开始使用它,嗯,绝对很明智的是,你会想要使用适当的统计技术。
是的,我的意思是,我将代表杰里米对此发表意见,因为这不是我的专业领域,但这听起来非常酷,我的意思是,我几天前读到了一篇关于前沿数学的故事,它谈到了这样的想法,即你如何知道它正在通过创造非常非常困难的问题来推动这些模型的极限。我认为基准测试总是一件奇怪的事情。
回到电子游戏,如果你还记得的话,电子游戏是一个很大的领域。但就像,你知道,它从来都不是一件确定的事情。就像你如何测试它,它是什么。对于普通大众来说,他们就像,当然,我们想要更好的版本,这似乎是通往更好地理解这些事物如何运作的途径。
对吧?这让我想到,多年来,随着我们进入一个非常依赖基准测试的领域,在AI学术界已经出现过很多类似的论文。例如,在强化学习中,比在监督学习中更难进行基准测试。
你像在一个环境中启动一个代理,然后训练它,它。事实证明,调整一个参数会完全改变你的性能,它可能是因为你的随机种子更好。所以已经有一些朝着这个方向的运动。
现在,当你报告性能时,你不仅报告平均值。你还会报告方差的误差线。这与这一点相关,我认为这更有意义。这里第二篇论文,这篇论文已经几周了,我只是想指出,我可能会在我们的缩放剧集中更深入地研究它,无论我们什么时候开始录制它,杰里米,这篇论文是关于“精确度的缩放定律”。
所以我们谈到了缩放定律,对吧,那就是随着你增加模型的参数数量和数据集的大小,在训练中,你会在核心指标上得到一个相当可预测的性能变化,即你预测事物的能力有多好。在这里,他们表明,嗯,在量化中,我们也经常提到这一点,你用分辨率较低的权重进行训练,或者你应该将训练好的模型转换为具有较低分辨率权重的模型以提高效率,你正在使用更少的空间。简而言之,他们表明,减少量化实际上与减少模型中的权重数量类似。
所以在你的模型中,没有免费的午餐。嗯,量化你的模型,使它更小,确实会导致可预测的性能损失。所以我的结论是,你知道,没有办法避免缩放。我们不可能无限期地训练出更好、更小的模型,或者通过例如具有较低分辨率权重的方法来训练出更小的模型,在某个时刻,你不会得到4000亿个参数的Llama 2 4000亿参数的性能。
让我问一个关于这个的问题,仅仅是因为这是我不太了解的东西,当你看到这个并说,你知道,推理计算的论点,即更多的缩放将来自推理计算,对我来说,这很有意义,它不是关于更小的模型,而是可能是关于更小的特定数据集或在大型模型上运行的特定AI代理,这可以给你带来你正在寻找的这种行为。这是否就是这篇论文所说的?
好吧,这对于单个模型来说,呃,如果你在训练之前或之后对其进行量化,我认为你是事后量化,其中一个重要的是,比如说,你训练了一个像Llama这样的4000亿参数模型,呃,很多时候都表明你可以对其进行矢量量化,使其更小,但保留大部分性能,是的,重点是,现在你不能,是的,就像你无法无限压缩它而不会损失性能一样。因此,就目前扩大数据中心规模的趋势而言,这是一个非常重要的见解,对吧?只是我们需要继续扩展。
中心的力量,宝贝。
也就是说,没错。在第一条新闻周围还有几个故事,我们有一段时间没谈论过的Survive。他们有一个新的创纪录的芯片,在Meta的Llama 405B等大型模型上表现非常好。
所以他们有这种专用芯片,一种巨大的方式芯片,它与标准GPU非常不同。即使是像Llama这样的模型也能实现非常非常快的性能,比基于GPU的解决方案快75倍。这是通过使用针对新模型或基本上是无CS系统进行优化的东西来实现的。
所以超级昂贵的芯片,我想,要获得其中一个要花费数百万美元。它们确实有一个缺点,那就是你无法批量处理一堆输入。因此,当你查看收费或类似的东西时,它们通常会并行地获取大量单个输入进行计算以获得大量输出。
而这就是它们如何能够快速运行的原因。对于单个输入,你快得多。所以,如果你有一个内部部署的原因来使用Llama和LM,也许这会对你有益。但是,对于GPU用户来说,不一定很重要,是的,我很好奇。
了解这种AI,我不会称之为新奇事物,但特别是针对GPU业务,因为它确实感觉,你知道,存在一个世界,这些东西可能令人难以置信地重要,而另一个世界,这只是VHS的Betamax,对吧?这始终是一件棘手的事情。
如果绝大多数用例都在VHS上,如果它是一种略逊的技术,那是不是不会成为最终获胜的那一个?H,我认为两者都是反向的,我认为Rockchip也在做类似的事情,对吧?就像他们正在做类似的,就像他们自己的芯片一样。
而且我使用了相当多的Rockchip。嗯,它的速度令人难以置信。你知道,如果它的速度令人惊叹,我只是不太了解后端规模,人们是否想要这样扩展?
对我来说,这感觉就像IGG QC,H有他们的,我认为是语言处理单元,LPU,这就像谷歌的TPU,但更适合语言模型。
他们提供API,并在API领域与快速、无差异、满意、廉价的竞争。所以,是的,我认为这是一个非常重要且有趣的问题。然而,Rockchip可以通过拥有定制硬件或GPS的优势来领先或为自己开辟空间。
是的,完全正确。让我们继续讨论政策和安全。这次只有两个故事。
第一个是,呃,非常具体到我所在的世界区域,海湾地区,Sam Altman将共同主持旧金山当选市长Daniel Lurie的过渡团队。我不知道这对很多人来说是否会很有趣,就我个人而言,我想我对这个很感兴趣,所以OpenAI总部设在旧金山,我们最近举行了选举。
现在有一位新市长即将上任,他将负责旧金山,根据这个故事,Sam Altman将成为他的过渡团队的联合主席,这意味着这对夫妇大概会与科技行业建立更强的联系。嗯,旧金山在某种程度上是AI初创公司的中心,尤其是在湾区。如果你从事AI工作,你可能在旧金山,而不是在Palo Alto或Mountain View。
因此,这实际上可能对该地区的AI初创公司产生重大影响。虽然我不太了解政治,不知道Sam Altman有多少影响力,但Sam Altman也经常去华盛顿,与许多政客交谈,并试图影响政策。这似乎与这一目标一致。
好吧,在加州政府下。我对这个有很多话要说。我认为我确实有一些话要说,但我认为有趣的是,我正在考虑搬到旧金山,只是因为我是一个洛杉矶人。
我在洛杉矶和纽约工作过,从事媒体工作。但是,我深入研究了AI,我认为AI更具体地围绕服务,所以它是应该去的地方。它感觉,再次回到网络世界。
它感觉就像2002年到2006年,你看到很多人搬到湾区为谷歌、Facebook等公司工作。我认为旧金山经历了PR。
在过去三到五年中经历了噩梦,实际上是在疫情爆发之前就开始了。但疫情让情况变得更糟。显然,无家可归以及所有这些问题都已成为一件大事。我对旧金山当地政治不太了解,但我确实知道Daniel Lurie的一大目标是让这个地方更安全,让人们觉得这是一个他们想回来居住的地方。
旧金山是一个令人难以置信的城市,顺便说一句,我住在纽约市的布鲁克林,它与西海岸的纽约非常接近,比洛杉矶好得多。我认为旧金山将经历文艺复兴。这对Sam来说恰逢其时。我认为这将实现的时候到了。
而且,在很多方面,他对此有着巨大的既得利益,因为他的公司有可能成为下一个谷歌,或者下一个更大的公司,那里可能有成千上万,甚至可能是数万名员工来OpenAI工作。我认为他想留在城市里。现在,也许不是,但我想这座城市本身就是一个特别的地方,硅谷显然以其自身的方式很特别,但有时这座城市非常神奇。总的来说,我认为如果一切顺利,这对每个人来说都是好时机。
是的,完全正确。旧金山近年来一直在苦苦挣扎。呃,疫情后,例如办公室空置率很高,许多科技公司都在离开,商店也在关闭。就其真正集中在城市中的OpenAI而言,它一直是亮点之一。我认为OpenAI从一开始就在那里,并且随着其扩张,我认识很多创始人。我可以去那里租公寓,甚至还有一个Cerebras Valley,这是一个街区,很多人都在那里,是的,是的,是的,我说,别相信那些PR噩梦。
这不像世界末日,有些地区很糟糕,但无论如何,看看这位新市长,几周前他以相当大的优势击败了前任市长,他会为科技企业家和AI做些什么,我想我们会拭目以待。还有一个故事,一个非常简短的故事。标题是拜登与习近平的最后一次会晤就人工智能和核武器达成协议,呃,在他们最近亲自会面后,他们确实宣布他们同意避免让AI控制核武器系统,呃,我想我们都希望如此。很高兴看到它实现了,你知道,我希望这对这些领导人来说不是一个艰难的让步。但尽管如此,知道这是计划还是很好的。
绝对的。我认为这更有意义。
还有一件事要讨论,以及一个合成媒体艺术故事。这更像是一篇博客文章而不是新闻故事,但我认为它很有趣。所以Astral Codex Ten,这是一个大型博客,被许多居住在湾区的人、理性主义者等等阅读,最近做了一个小实验,他们称之为AI图灵测试。
有50张图片,一半是AI生成的,一半是人类创作的,他们有11000名参与者。试图找出哪些是AI生成的,哪些是人类生成的,试图区分它们。结果是60%的正确率。所以,你知道,随机机会会让你得到50/50。结果是大多数人无法真正分辨它是否来自AI,人们实际上更喜欢AI,呃,我想这对我来说并不奇怪,你对此感到惊讶吗?不。
对我来说并不奇怪,我知道,关于这一点,我有一个有趣的后续问题。他们看到了上周发布的Cope AI广告。有一个大新闻,就像你可以,我知道制作其中一个的人之一,有几个,其中一个。
他告诉我,那个广告的测试结果非常高,人们并不真的在意它是用AI生成的。我认为很多人并不知道。显然,我认为这就是我们讲述的故事比艺术本身更重要的原因。
顺便说一句,如果披萨感动了我,而且它确实感动了,我不在乎它是AI生成的。对我来说,我的具体解释是什么并不重要,现在有些人可能非常不同意我的观点。他们可能会说,我需要知道有一个人的参与。
再说一次,我想知道他们的故事。我认为大多数人在看到视觉事物时,只是会做出反应,对吧?他们不会先问自己,这是电脑做的还是人做的,他们只是在看东西。
而且,部分原因是,现在很难分辨什么是真实的,什么是假的。现在有些人可以非常具体地说,那不是真人,因为我可以看出他们脸上这部分的阴影不对。但是,他们修复了手,修复了很多东西。
我认为我们必须停止,就像也许我们必须停止思考它是否重要。最终,重要的是,你知道,学分、报酬、他们使用的一切、训练。我认为所有这些都很重要,艺术就是艺术。
我认为这是人们永远都在纠结的奇怪事情。人们争论说,波洛克的作品不是艺术,因为它只是涂鸦和拼贴画,因为它是偶然的,而它至今仍然被保存着。或者毕加索,这个人正在创作什么,这些奇怪的、看起来不像肖像的东西,这只是我们作为人类所经历的世界。
而且奇怪的是,我怀念AI的怪异方面。有时AI艺术不像以前那么怪异了,我怀念那一点。我认为那更像艺术。有时。
是的,我有一个偏好,现在的AI艺术是使用文本到图像的Tony Mous,你知道,看起来,你可以回到2028年或2029年。人们正在用GAN做非常酷的事情。是的,令人惊叹的东西。
那不是文本到图像。那是像训练你自己的模型,并做一些更外向的事情。所以我认为有一些真正的艺术家使用AI,你知道,在这个实验中,再次,并不太令人惊讶。
我认为是时候承认AI作品通常看起来很不错了。它不一定看起来像高端艺术,但它看起来非常不错,是的,现在的问题更多的是关于效果、经济方面,而不是美学方面。虽然我想另一个问题是它可能泛滥互联网,最终导致过多的AI通用图像,这将是一个问题。
我想我从我们的观众那里不时听到的是关于AI电影和人们对它们会抢走他们工作的想法感到害怕的想法。我认为很多人谈论的是成本方面的竞争,以及这如何回到我们之前的谈话,你知道,每个人都可以创作听起来不错的音乐。
现在,对于很多人来说,录制音乐的价值是什么?很快每个人都可以制作电影提示,故事的价值是什么?我只是希望人们仍然对特定的事物充满热情,顺便说一句,这可能是AI创作者或普通创作者。但是,热情很重要,并且真正关心事物。
我认为制作AI作品的人仍然会有那些粉丝和观众。我认为通用的东西可能会。这没问题。但如果太多了,它可能会降低其价值。
这是一个棘手的谈话。是的,你知道,就我个人而言,我肯定发现能够用AI制作小歌曲非常有趣。我知道自从我开始为播客做这件事以来,它一直非常令人愉快和有趣。
所以你最终会解锁新类型的你以前从未拥有过的东西,就是这样,这就是本集的全部内容。感谢大家的收听,嗯,就像商业广告一样,你可以访问lastweekin.ai查看文本通讯,再次感谢你的付出。我认为你的经验对这次很有用。
非常感谢,这总是很有趣。如果你有机会,来看看我们的节目《AI For Humans》。它在YouTube上。你可以在那里找到它,或者你可以在我们的网站AIforhumans.show上找到它,该网站有音频和……的链接。
所有其他内容。是的,很有趣。去看看,你知道,如果你需要视觉效果,我们确实感谢你分享它、订阅它、点赞它,所有那些通常的好事。
但最重要的是,我们想看看人们在收听并从中受益。所以希望我们下周会再有一集。有时我对日程安排不太好,但是,嗯,大家,享受这首AI超棒歌曲。
走进小小的梦境,像素栩栩如生,AI实时绘制物种,冲刷未来,代码。
对于C现实,新的群体。
采取。新的。在你知道你。Rhinds很快。
可以开始了?
电脑却比现在。
公开故事,它是AI,不会消失。没有比这更好的了。一起。三个。男孩。高每最后一天都很棒。相当空气在一个小的应该预测是我们所在的地方。它不是非常。
享受权利。