AI前沿：AI“作弊”、模拟科研与评测陷阱

2024/12/27

AI可可AI生活

People

小

小T

小

小爱

Topics

小爱：本期节目探讨了AI领域最新的研究进展，包括AI如何利用神经活动操纵评分系统，如何模拟人类科研活动，以及传统AI评估方式的漏洞。通过分析AI模型内部的神经活动模式，研究人员发现可以通过精心设计的对抗性提示来操纵AI评分系统，使其给出远高于人类评分的分数。此外，研究人员还发现，之前的评估方式可能夸大了AI的难度，导致对AI真实能力的误判。最后，节目还介绍了一种新的超网络训练方法，该方法通过学习权重轨迹来提高训练效率。小T：AI模拟科研方面，研究人员构建了一个虚拟的研究小镇，用AI模拟研究人员的阅读、写作、评审等科研活动。实验结果表明，该模拟器可以比较真实地模拟研究活动，甚至可以产生一些跨学科的研究想法。这为探索科研模式、加速科学发现提供了新的途径。在AI评分系统方面，研究人员发现'user'这个词会显著增强对抗性提示的效果，这暴露了AI评分系统的漏洞。通过修改AI训练时使用的聊天模板，可以降低这种偏差，提高AI评分器的鲁棒性。在超网络训练方面，新的方法不需要预先计算最优权重，而是学习整个权重空间的轨迹，这显著减少了训练所需的计算资源，并提高了推理速度。

Deep Dive

Shownotes Transcript

大家好欢迎收听最新一期的太快报我是小爱大家好我是小 T 很高兴又和大家见面了最近 AI 领域又涌现了不少有意思的研究我发现这些研究真是越来越会搞事情的了是的今天的几篇论文确实很有意思而且角度都很新颖

揭示了很多 AI 系统背后不为人知的秘密那我们今天就来好好聊聊这些秘密看看 AI 到底在玩什么花样首先我看到一篇研究题目叫做 Research Town 人类研究社区模拟器听起来就很科幻这是在干什么这个研究确实很有意思它本质上是想用 AI 来模拟人类的科研过程

看看 AI 能不能像人一样进行研究用 AI 模拟科研这听起来有点像在玩模拟人生可以这么理解但它更高级研究人员构建了一个虚拟的研究小镇在这个小镇里研究人员和论文都变成了虚拟的角色然后通过 AI 来模拟他们的阅读写作评审等科研活动那他是怎么做的呢他们把研究人员和论文抽象成了图上的节点

就像社交网络一样研究人员之间会互相影响然后他们使用了一种叫做 TextDN 的技术让 AI 可以在文本层面进行信息传递和推理这就像让这些虚拟角色真的在阅读和理解论文一样好神奇呢这个模拟出来的科研社区真的能像真实世界一样运转吗

是的实验结果表明这个模拟器可以比较真实地模拟研究活动比如论文写作和评审甚至可以产生一些跨学科的研究想法那这有什么用呢这有很多潜在的应用比如我们可以用它来探索科研的潜在模式加速科学发现甚至可以用它来模拟不同政策对科研的影响听起来太棒了下一个研究我看到题目是通过神经活动引导的对抗性提示欺骗大模型评分器

这个是啥感觉像在教 AI 作弊某种意义上来说是的这里研究揭示了 AI 评分系统的一个漏洞研究人员发现可以通过一些精心设计的对抗性提示让 AI 评分器给出远高于人类评分的分数怎么做到的他们通过分析 AI 模型内部的神经活动模式找到了那些与高分相关的信号

然后他们生成了一些特殊的后缀添加到文章后面这些后缀可以放大模型内部的这些高分信号从而达到欺骗评分器的目的太神奇了那这些对抗性提示岂不是很危险会不会被坏人利用是的这也是研究人员想要警示大家的地方这项研究不仅暴露了 AI 评分系统的漏洞还发现了一个隐藏的模词偏差就是 user 这个词

这个词会显著增强对抗性提示的效果那他们怎么解决这个问题他们发现只要稍微修改一下 AI 训练时使用的聊天模板比如把 user 替换成其他特殊标记就可以大幅降低这个偏差提高 AI 评分器的鲁邦性这真是太出乎意料了看来 AI 系统并没有我们想象的那么完美是的 AI 系统依然存在很多漏洞和偏差

需要我们不断地去探索和改进接下来这篇研究叫做 In case you missed itIck challenge is not that challenging 这个题目很有意思是在说 Ick 这个挑战其实很简单吗也不是说它简单而是说之前的评估方式可能夸大了它的难度 Ick

这有什么问题吗?

问题大了研究人员发现如果将所有答案选项同时呈现给 AI 让它进行比较它的表现会大幅提升几乎和 ArtEasy 一样了这说明之前的评估方式可能人为地增加了难度而不是真正反映了 AI 的推理能力也就是说我们之前都被骗了也不能说是被骗只能说之前的评估方式不够完善这项研究提醒我们评估方式的选择对测试结果至关重要

不恰当的评估方式可能会误导我们对 AI 真实能力的理解那这项研究对其他基准测试有什么影响吗?影响很大研究人员在其他基准测试如 OpenBookQA 和 CQA 中也发现了类似的问题

当从孤立评估切换到同时评估时 AI 的表现都得到了显著提升甚至在 OpenBokeh 上达到了超人类的水平真是太颠覆了看来我们在评估 AI 能力的时候真的要好好反思一下了最后我们来聊聊这篇 Hypernet Fields 吧这个看起来有点高深这篇研究主要是关于超网络的训练超网络科学

可以理解为一种可以生成其他神经网络参数的神经网络传统上训练超网络需要大量的计算资源而且需要预先计算每个样本的最佳权重这很麻烦那他们是怎么解决这个问题的呢他们提出了一种叫做超网络场的新方法

这种方法不需要预先计算最优权重而是学习整个权重空间的轨迹简单来说就是让超网络不仅学习最终的权重还学习权重的变化过程这怎么做到的关键在于他们利用了梯度匹配超网络预测的权重轨迹的梯度必须与任务网络的梯度相匹配通过这种方式超网络可以模拟整个优化过程而无需真实的目标权重这个方法有什么好处好处很多哦

首先它显著减少了训练所需的计算量其次它可以应用于各种超网络任务如个性化图像生成和 3D 形状重建第三它的推理速度很快听起来真是太高效了感觉 AI 技术真的在不断突破我们的想象是的

这些研究都展现了 AI 领域的新方向,也提醒我们要时刻保持好奇心去探索和理解 AI 的奥秘。好的,非常感谢小 T 的精彩解读,今天的太快报就到这里了。谢谢大家收听,我们下期再见。下期见,拜拜。

AI前沿：AI“作弊”、模拟科研与评测陷阱 06:09 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：AI“作弊”、模拟科研与评测陷阱