当一家公司发布新的AI视频生成器时,很快就会有人用它来制作威尔·史密斯吃意大利面的视频。这已经成为一种模因,也是一种基准:看看新的视频生成器能否真实地渲染史密斯吸溜着一碗面条。了解更多关于您的广告选择的信息。访问podcastchoices.com/adchoices</context> <raw_text>0 这是TechCrunch。
当一家公司发布新的AI视频生成器时,很快就会有人用它来制作演员威尔·史密斯吃意大利面的视频。这已经成为一种模因,也是一种基准测试,看看新的视频生成器能否真实地渲染史密斯吸溜着一碗面条。史密斯本人在2月份的Instagram帖子中模仿了这一趋势。
威尔·史密斯和意大利面只是去年席卷AI界的几个奇怪的非官方基准测试之一。一位16岁的开发者开发了一个应用程序,可以让AI控制Minecraft并测试其设计结构的能力。在其他地方,一位英国程序员创建了一个平台,让AI玩诸如Pictionary和Connect Four之类的游戏。
并不是说没有更多关于AI性能的学术测试,那么为什么更奇怪的测试会爆火呢?
首先,许多行业的标准AI基准测试对普通人来说并没有什么意义。公司经常引用他们的AI在数学奥林匹克竞赛中回答问题或找出博士级别问题的合理解决方案的能力。然而,大多数人使用聊天机器人来回复电子邮件和进行基本的搜索。
众包行业指标并不一定更好或更有信息量。例如,Chatbot Arena就是一个公共基准,许多AI爱好者和开发者都痴迷地关注它。Chatbot Arena允许网络上的任何人对AI在特定任务(例如创建网络应用程序或生成图像)上的执行情况进行评分。
但是评分者往往没有代表性。大多数人来自AI和科技行业领域,并根据个人难以确定的偏好进行投票。沃顿商学院管理学教授伊森·马莱克最近在X上的一篇文章中指出了许多AI行业基准测试的另一个问题。他们没有将系统的性能与普通人的性能进行比较。
他说,在医学、法律和建议质量等方面没有来自不同组织的30个不同的基准测试,这真是令人遗憾,因为人们无论如何都在使用这些系统。
像Connect4、Minecraft和威尔·史密斯吃意大利面这样的奇怪的AI基准测试当然不是经验性的。甚至也不是完全普遍适用的。仅仅因为AI通过了威尔·史密斯测试并不意味着它会生成,比如说……
一个汉堡做得很好。一位AI基准测试专家建议,AI社区应该关注AI的下游影响,而不是它在狭窄领域的性能。这是合理的,但人们感觉奇怪的基准测试不会很快消失。它们不仅有趣,谁不喜欢看AI建造Minecraft城堡呢,但是
它们很容易理解。正如Max Zeff最近所写的那样,该行业仍在努力将像AI这样复杂的技术提炼成易于理解的营销信息。唯一真正出现的问题是,2025年哪些奇怪的新基准测试会病毒式传播?TechCrunch有一个专注于AI的新闻通讯。您可以注册并每周三将其发送到您的收件箱。