cover of episode Will Smith eating spaghetti and other weird AI benchmarks that took off in 2024

Will Smith eating spaghetti and other weird AI benchmarks that took off in 2024

2025/1/3
logo of podcast TechCrunch Industry News

TechCrunch Industry News

People
播音员
主持著名true crime播客《Crime Junkie》的播音员和创始人。
Topics
播音员:将威尔·史密斯吃意大利面的视频作为AI视频生成器的基准测试,已成为一种潮流和衡量标准。这种测试方法简单易懂,也更易于被大众理解和接受。此外,还有其他一些奇特的非官方基准测试在AI社区流行,例如,16岁开发者开发的Minecraft AI建筑测试应用,以及AI玩Pictionary和Connect Four的游戏平台。这些测试虽然并非完全客观或普遍适用,但它们反映了AI技术发展的一个侧面,也为AI技术的发展提供了新的思路。 许多行业标准的AI基准测试对普通人来说意义不大,因为它们通常关注的是AI在数学奥林匹克竞赛或博士级别问题上的表现,而普通人使用聊天机器人更多的是处理邮件和进行基础研究等任务。众包的行业衡量标准也不一定更好或更有信息量,例如Chatbot Arena,其评价标准容易受到参与者个人偏好的影响。许多AI行业基准测试的一个问题是,它们没有将系统的性能与普通人的性能进行比较。缺乏对AI在医疗、法律和建议质量等领域的基准测试是一个缺陷,因为人们已经在使用AI系统处理这些事情。 像Connect4、Minecraft和威尔·史密斯吃意大利面这样的奇特AI基准测试并非完全客观或普遍适用,一个AI通过了威尔·史密斯测试并不意味着它就能很好地生成其他东西,例如汉堡。一位AI基准测试专家建议,AI社区应该关注AI的下游影响,而不是其在狭窄领域的性能。奇特的AI基准测试之所以流行,是因为它们易于理解且具有娱乐性,同时也能帮助AI行业将复杂的技术转化为易于理解的营销信息。 Ethan Malek:缺乏对AI在医疗、法律和建议质量等领域的基准测试是一个缺陷,因为人们已经在使用AI系统处理这些事情。 一位AI基准测试专家:AI社区应该关注AI的下游影响,而不是其在狭窄领域的性能

Deep Dive

Shownotes Transcript

当一家公司发布新的AI视频生成器时,很快就会有人用它来制作威尔·史密斯吃意大利面的视频。这已经成为一种模因,也是一种基准:看看新的视频生成器能否真实地渲染史密斯吸溜着一碗面条。了解更多关于您的广告选择的信息。访问podcastchoices.com/adchoices</context> <raw_text>0 这是TechCrunch。

当一家公司发布新的AI视频生成器时,很快就会有人用它来制作演员威尔·史密斯吃意大利面的视频。这已经成为一种模因,也是一种基准测试,看看新的视频生成器能否真实地渲染史密斯吸溜着一碗面条。史密斯本人在2月份的Instagram帖子中模仿了这一趋势。

威尔·史密斯和意大利面只是去年席卷AI界的几个奇怪的非官方基准测试之一。一位16岁的开发者开发了一个应用程序,可以让AI控制Minecraft并测试其设计结构的能力。在其他地方,一位英国程序员创建了一个平台,让AI玩诸如Pictionary和Connect Four之类的游戏。

并不是说没有更多关于AI性能的学术测试,那么为什么更奇怪的测试会爆火呢?

首先,许多行业的标准AI基准测试对普通人来说并没有什么意义。公司经常引用他们的AI在数学奥林匹克竞赛中回答问题或找出博士级别问题的合理解决方案的能力。然而,大多数人使用聊天机器人来回复电子邮件和进行基本的搜索。

众包行业指标并不一定更好或更有信息量。例如,Chatbot Arena就是一个公共基准,许多AI爱好者和开发者都痴迷地关注它。Chatbot Arena允许网络上的任何人对AI在特定任务(例如创建网络应用程序或生成图像)上的执行情况进行评分。

但是评分者往往没有代表性。大多数人来自AI和科技行业领域,并根据个人难以确定的偏好进行投票。沃顿商学院管理学教授伊森·马莱克最近在X上的一篇文章中指出了许多AI行业基准测试的另一个问题。他们没有将系统的性能与普通人的性能进行比较。

他说,在医学、法律和建议质量等方面没有来自不同组织的30个不同的基准测试,这真是令人遗憾,因为人们无论如何都在使用这些系统。

像Connect4、Minecraft和威尔·史密斯吃意大利面这样的奇怪的AI基准测试当然不是经验性的。甚至也不是完全普遍适用的。仅仅因为AI通过了威尔·史密斯测试并不意味着它会生成,比如说……

一个汉堡做得很好。一位AI基准测试专家建议,AI社区应该关注AI的下游影响,而不是它在狭窄领域的性能。这是合理的,但人们感觉奇怪的基准测试不会很快消失。它们不仅有趣,谁不喜欢看AI建造Minecraft城堡呢,但是

它们很容易理解。正如Max Zeff最近所写的那样,该行业仍在努力将像AI这样复杂的技术提炼成易于理解的营销信息。唯一真正出现的问题是,2025年哪些奇怪的新基准测试会病毒式传播?TechCrunch有一个专注于AI的新闻通讯。您可以注册并每周三将其发送到您的收件箱。