Will Smith eating spaghetti and other weird AI benchmarks that took off in 2024

2025/1/3

TechCrunch Industry News

People

播

播音员

主持著名true crime播客《Crime Junkie》的播音员和创始人。

Topics

播音员：将威尔·史密斯吃意大利面的视频作为AI视频生成器的基准测试，已成为一种潮流和衡量标准。这种测试方法简单易懂，也更易于被大众理解和接受。此外，还有其他一些奇特的非官方基准测试在AI社区流行，例如，16岁开发者开发的Minecraft AI建筑测试应用，以及AI玩Pictionary和Connect Four的游戏平台。这些测试虽然并非完全客观或普遍适用，但它们反映了AI技术发展的一个侧面，也为AI技术的发展提供了新的思路。许多行业标准的AI基准测试对普通人来说意义不大，因为它们通常关注的是AI在数学奥林匹克竞赛或博士级别问题上的表现，而普通人使用聊天机器人更多的是处理邮件和进行基础研究等任务。众包的行业衡量标准也不一定更好或更有信息量，例如Chatbot Arena，其评价标准容易受到参与者个人偏好的影响。许多AI行业基准测试的一个问题是，它们没有将系统的性能与普通人的性能进行比较。缺乏对AI在医疗、法律和建议质量等领域的基准测试是一个缺陷，因为人们已经在使用AI系统处理这些事情。像Connect4、Minecraft和威尔·史密斯吃意大利面这样的奇特AI基准测试并非完全客观或普遍适用，一个AI通过了威尔·史密斯测试并不意味着它就能很好地生成其他东西，例如汉堡。一位AI基准测试专家建议，AI社区应该关注AI的下游影响，而不是其在狭窄领域的性能。奇特的AI基准测试之所以流行，是因为它们易于理解且具有娱乐性，同时也能帮助AI行业将复杂的技术转化为易于理解的营销信息。 Ethan Malek：缺乏对AI在医疗、法律和建议质量等领域的基准测试是一个缺陷，因为人们已经在使用AI系统处理这些事情。一位AI基准测试专家：AI社区应该关注AI的下游影响，而不是其在狭窄领域的性能

Deep Dive

Shownotes Transcript

When a company releases a new AI video generator, it’s not long before someone uses it to make a video of actor Will Smith eating spaghetti. It’s become something of a meme as well as a benchmark: Seeing whether a new video generator can realistically render Smith slurping down a bowl of noodles.

Learn more about your ad choices. Visit podcastchoices.com/adchoices)

Will Smith eating spaghetti and other weird AI benchmarks that took off in 2024 04:29 Share

TechCrunch Industry News

Deep Dive

Shownotes Transcript

Will Smith eating spaghetti and other weird AI benchmarks that took off in 2024