大家好,欢迎来到本期的太快报,我是小爱。大家好,我是小 T,很高兴又跟大家见面了,我们直接从第一篇开始吧。好耶,第一篇听起来很酷,叫 Dynamic Cheat Sheet Test Time Learning with Adaptive Memory。这名字感觉像学生时代的备忘单,你能解释一下它在干嘛吗?可以想象一下你在考试时有一本可以不断更新的笔记本。
每次遇到难题都能记下解决方法下次遇到类似问题就直接翻开看这就是动态备忘单的核心想法传统 AI 模型在处理问题时每次都是从零开始没有记忆这篇论文提出了一个框架叫 dynamic cheat
简单来说,他给 AI 模型加了一个会自我调整的记忆库这个记忆库能记录他之前解决问题的策略和代码比如数学题、逻辑谜题,甚至是需要写代码的计算任务哇,这听起来像 AI 终于学会了举一反三那他具体怎么做到呢?是不是像我们人类一样,遇到问题就翻笔记?差不多,他有两个主要步骤
生成解决方案比如用 AI 生成一个数学公式的解答第二管理记忆根据这个方案的好坏决定是记下来还是丢弃这篇论文还涉及了两种方法一种是累积式记忆另一种是检索过去案例后再更新实验结果很惊人比如在 AIMEI 数学考试中 Cloud 3.5 Sonnet 的准确率翻了 1
还有有趣的例子 24 页游戏中 GPT-4O 通过记住一个 Python 解法正确率从 10%蹦到了 99%这表明简单地的给 AI 加个记忆就能让它表现得更聪明这太厉害了那是不是说 AI 再也不用重复犯错了但它会不会记太多无用东西变得杂乱无章这是一个好问题研究发现记忆的管理非常关键不能随便堆砌信息
Dynamic Cheat Sheet 会筛选出有用的策略比如那些能解决类似问题的代码或思路他甚至发现任务越相似记忆效果越好就像我们学东西时相关知识更容易串起来这也启发我们未来 AI 可能需要像人类一样有选择的遗忘或有重点的复习真有趣那这种技术能用到哪里呢比如帮我们写作业还是设计游戏
应用前景非常广比如教育领域 AI 可以记住学生的学习习惯针对性的给出建议或者在编程中 AI 能快速调出之前用过的代码片段提高效率甚至在自动驾驶或医疗诊断中 AI 能积累经验避免重复错误不过研究也指出这对大模型效果好小模型可能提升有限因为小模型脑容量不够明白了那我们接着聊第二篇 Stephlerism Fast and Accurate Inference
Time Compute via Speculative Reasoning 这名字听起来像科幻小说你能用通俗点的话解释吗好想像你在做一道复杂的数学题你不会一步步慢慢算而事先大致猜个解法然后快速检查这个猜想对不对
Spec Reason 就是这样的思路他针对大型 AI 模型推理速度慢的问题提出了一种快速推测的方法传统 AI 推理像一台老旧电脑慢慢生成每一个步骤而 Spec Reason 用一个小模型先猜出中间步骤再让大模型快速验证这样大模型就不用从头到尾都亲自上阵了这听起来像团队合作小助手先干粗活
大老板最后检查效果怎么样?效果很不错,实验显示,SpecReason 让推理速度提高了 1.5 到 2.5 倍,同时准确率还提升了 1%到 10%,比如在数学和逻辑问题上,它既快又准。更酷的是,它还能和另一种加速技术推测解码结合,延迟再减少,近 20%到 44%。
不过这需要权衡比如你想更快就可能稍微牺牲点准确率但研究提供了灵活的调整方法这不就是 AI 版的快思慢想真的吗那他会不会猜错太多导致答案离谱不会研究发现 AI 推理对中间步骤的近似很宽容只要最终结论靠谱
这有意思呢它能应用在哪些场景呢比如实时翻译或客服机器人对
实时翻译客服聊天甚至是金融市场预测都需要跨而准的推理 Static Reason 让这些应用更高效比如客服机器人能更快理解问题给出回复翻译系统也能在几毫秒内生成自然语言这技术还提醒我们 AI 不一定要追求完美细节有时候差不多就够了
听起来 AI 越来越像人类了那第三篇呢 Task Circuit QuantizationLeveraging Knowledge Localizationand Interpretability for Compression 什么这个名字好长感觉很学术别担心我来简化简单说这篇研究解决了一个问题 AI 模型很大占用很多内存和计算资源但我们希望让它更小更省电同时不失效果
这篇论文提出了任务回路量化方法相当于给 AI 做瘦身手术它会找出模型中对特定任务最重要的一部分比如处理数学问题的电路保留高精度其他部分就压缩到很低的精度比如二到三位就像我们收拾行李只带最需要的衣服其他的都扔了吗
對極了,它用了一種叫顯著性度量的技術,類似給每個部分打分,重要的留著不重要的壓縮。實驗結果很驚人,比如萊瑪 3 模型,用 3.1 位精度就能恢復 96%的原性能,比之前最好的方法強了 5%以上。這對手機或物聯網設備特別有用,因為這些設備資源有限,但又需要 AI 幫助。
太棒了
第四篇 relevance isn't quite all you needscaling reg systems with inferencetime computevayum multi-criteriareranking 呢这名字感觉在说相关性不是万能的你猜对了这篇研究挑战了一个常见观念信息检索系统比如搜索引擎只要找最相关的资料就够了
但他们发现单纯追求相关性可能会让答案质量变差因为相关不等于有用这篇提出了 Rebel 框架让检索系统不仅看相关性还考虑深度多样性权威性等多个标准动态调整搜索策略这就像我们找餐厅不仅看距离还要看口味和服务对吧对 Rebel 有两种模式一种是单轮直接用固定标准重排文档另一种是双轮根据问题动态生成标准
实验显示这种方法让答案质量和相关性都提升了尤其适合需要精准信息的场景比如法律咨询或学术研究不过双轮模式需要更多计算可能不适合实时性要求很高的应用这样我想到 AI 是不是越来越像人脑会根据情况调整策略就后那篇的 Alice Proactive Learning with TeacherWise Demonstrations for Weak to Strong Generalization 什么
这篇很厉害他解决了一个问题如何让一个强 AI 从一个弱 AI 那里学到东西而不被误导传统方法是弱 AI 叫强 AI 但弱 AI 可能出错太多影响强 AI 的表现 Alice 框架让强 AI 主动出击她会问弱 AI 问题
观察 RAW AI 的不确定性然后自己生成更好的答案来学习还提出了提炼方法先让 RAW AI 教中间模型再让中间模型教强 AI 这听起来像学生反过来教老师效果怎么样效果很惊人在数学逻辑和知识问答任务上 Alice 让强 AI 的性能提升了 4%到 22%
比如数学推理能力提升了 22%以上这说明强 AI 完全可以利用弱 AI 的线索自己摸索出更好的方法这也让我们思考未来 AI 学习可能是双向的甚至是协作的太酷了这些研究让我觉得 AI 离我们越来越近了他们的应用前景和挑战是什么呢应用前景很广比如 Dynamic CheatSheet 能让 AI 更会解决问题 SpecCreason 让实时应用更快
Task CircuitQuantization 让 AI 跑在小设备上 Rebound 让信息检索更智能 Alice 则为 AI 的持续学习铺路但挑战也很多比如内存管理计算成本模型依赖性等未来我们可能需要更多跨学科合作比如结合硬件优化和软件创新听完这些我真的觉得 AI 研究像一场冒险既有突破也有挑战感谢小 T 的精彩讲解下期太快报我们再见
谢谢小爱期待下次和大家分享更多 AI 的前沿故事下期见拜拜