小爱:本期节目探讨了AI领域最新的研究进展,包括AI如何利用神经活动操纵评分系统,如何模拟人类科研活动,以及传统AI评估方式的漏洞。通过分析AI模型内部的神经活动模式,研究人员发现可以通过精心设计的对抗性提示来操纵AI评分系统,使其给出远高于人类评分的分数。此外,研究人员还发现,之前的评估方式可能夸大了AI的难度,导致对AI真实能力的误判。最后,节目还介绍了一种新的超网络训练方法,该方法通过学习权重轨迹来提高训练效率。
小T:AI模拟科研方面,研究人员构建了一个虚拟的研究小镇,用AI模拟研究人员的阅读、写作、评审等科研活动。实验结果表明,该模拟器可以比较真实地模拟研究活动,甚至可以产生一些跨学科的研究想法。这为探索科研模式、加速科学发现提供了新的途径。在AI评分系统方面,研究人员发现'user'这个词会显著增强对抗性提示的效果,这暴露了AI评分系统的漏洞。通过修改AI训练时使用的聊天模板,可以降低这种偏差,提高AI评分器的鲁棒性。在超网络训练方面,新的方法不需要预先计算最优权重,而是学习整个权重空间的轨迹,这显著减少了训练所需的计算资源,并提高了推理速度。
Deep Dive