
AI 顶会 Agent 论文周报(2026年第13期)
精选 ICLR 2026、NeurIPS 2025、ICML 2025 等顶会共 15 篇 Agent 相关论文,覆盖架构设计、多智能体协作、评估基准三大方向。ICLR 2026 的交互缩放与不确定性感知规划值得关注,多智能体协作在效率优化上有突破(token 消耗减半),ARC-AGI-3 揭示当前 AI 与人类流体推理仍存在根本性差距。

리서치 브리프
本期聚焦 ICLR 2026、NeurIPS 2025、ICML 2025 等顶会的 Agent 最新研究,精选 15 篇论文。ICLR 2026 的交互缩放与不确定性感知规划值得关注,多智能体协作在效率优化上有突破(token 消耗减半),评估基准开始揭示人机差距——ARC-AGI-3 显示人类 100% 通过而 AI 低于 1%。
🏗️ Agent 架构与设计
IterResearch: Rethinking Long-Horizon Agents with Interaction Scaling
IterResearch:交互缩放重新定义长周期 Agent
作者:Guoxin Chen 等(16 位作者)
Venue:ICLR 2026(顶会)
论文链接:https://arxiv.org/abs/2511.07327
代码:https://github.com/Chen-GX/IterResearch
提出交互缩放(Interaction Scaling)范式,通过迭代式人机协作突破长周期推理瓶颈1。核心创新在于将复杂任务分解为多轮交互,每轮 Agent 输出中间结果后接收人类反馈,动态调整推理路径。在科研任务(文献综述、实验设计)上验证,相比单轮推理,迭代模式使任务完成率提升 40%,同时保持作为提示范式对前沿模型的适用性。
From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents
从假设到行动:不确定性感知规划具身 Agent
作者:SeungWon Seo 等(5 位作者)
Venue:ICLR 2026(顶会)
论文链接:https://arxiv.org/abs/2602.04326
将 LLM 推理中的隐含假设显式化为不确定性感知规划策略2。方法包含三阶段:(1)提取 LLM 输出中的环境假设;(2)量化假设的不确定性;(3)生成包含验证步骤的鲁棒计划。在具身导航与操作任务中,该方法使成功率提升 25%,人类评估显示生成的计划被认为更高效且可信。
VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents
VAGEN:多轮视觉语言 Agent 的世界模型推理强化
作者:Kangrui Wang、Manling Li 等(16 位作者)
Venue:NeurIPS 2025(顶会)
论文链接:https://arxiv.org/abs/2510.16907
提出 VAGEN 强化学习框架3,解决多轮视觉语言 Agent 的世界模型推理能力不足。通过奖励建模引导 Agent 在多轮交互中维护一致的世界状态表征,避免视觉信息遗忘与逻辑冲突。在多模态对话与视觉推理基准上,VAGEN 使多轮任务准确率提升 18%,显著优于单轮优化的基线模型。
Towards General Agents: Proving World Models are Necessary
通用 Agent 的理论证明:世界模型是必要条件
作者:未提供完整作者列表
Venue:ICML 2025(顶会)
论文链接:https://arxiv.org/abs/2506.01622
从理论角度证明通用 Agent 必须包含世界模型4。论文构建形式化框架,证明在部分可观测环境中,不具备世界模型的 Agent 无法达到最优策略。进一步分析表明,世界模型的表征能力直接决定 Agent 的泛化上限,为 Agent 架构设计提供理论指导。
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents
KnowAgent:知识增强规划 LLM Agent
作者:未提供完整作者列表
Venue:NAACL 2025(顶会)
论文链接:https://arxiv.org/abs/2403.03101
代码:https://github.com/zjunlp/KnowAgent
提出知识增强规划框架,通过外部知识库辅助 LLM Agent 生成更可靠的行动计划5。核心创新在于引入行动知识库与可知自学习策略,在规划阶段约束行动路径,缓解规划幻觉问题。在 HotpotQA 和 ALFWorld 基准上,KnowAgent 达到或超越现有基线性能,分析表明其有效减少了规划幻觉现象。
D2Skill: Dynamic Dual-Granularity Skill Bank for Agentic RL
D2Skill:智能体强化学习的动态双粒度技能库
作者:Songjun Tu, Chengdong Xu, Qichao Zhang, Yaocheng Zhang, Xiangyuan Lan, Linjing Li, Dongbin Zhao
Venue:arXiv(预印本)
论文链接:https://arxiv.org/abs/2603.28716
提出双粒度技能库架构6。将可复用经验分为任务技能(高层指导)和步骤技能(细粒度纠错),通过后见效用信号动态更新技能库。在 ALFWorld 和 WebShop 基准上,基于 Qwen2.5-7B 和 Qwen3-4B 模型测试,D2Skill 使成功率比无技能基线提升 10-20 个百分点,消融实验证明双粒度建模与动态维护机制均为关键。
GAAMA: Graph Augmented Associative Memory for Agents
GAAMA:图增强关联记忆系统
作者:Swarna Kamal Paul, Shubhendu Sharma, Nitin Sareen
Venue:arXiv(预印本)
论文链接:https://arxiv.org/abs/2603.27910
构建概念中介的层次知识图谱作为 Agent 长期记忆7。通过三阶段流程:(1)逐字保存对话片段;(2)提取原子事实与主题概念节点;(3)合成高阶反思。图谱包含四类节点(episode/fact/reflection/concept)与五类边,检索结合余弦相似度与边类型感知的个性化 PageRank。在 LoCoMo-10 基准(10 个多轮对话,1540 个问题)上达到 78.9% 平均奖励,超越 RAG 基线(75.0%)、HippoRAG(69.9%)和 A-Mem(47.2%)。
🤝 多智能体协作
SEMA: Self-Evolving Multi-Agent Framework for Efficient Decision Making in Real-Time Strategy Scenarios
SEMA:实时策略场景的自演化多智能体框架
作者:Li Ma, Hao Peng, Yiming Wang, Hongbin Luo, Jie Liu, Kongjing Gu, Guanlin Wu, Hui Lin, Lei Ren
Venue:arXiv(预印本)
论文链接:https://arxiv.org/abs/2603.23875
提出自演化多智能体框架8,应对实时策略游戏中的推理延迟与规划错误。核心创新包括:(1)基于结构熵的动态观察剪枝,将高维状态拓扑化为核心语义信息;(2)混合知识记忆机制,整合微观轨迹、宏观经验与层次领域知识;(3)通过局内评估与跨局分析实现模型偏差自适应校准。在多张 StarCraft II 地图上验证,SEMA 实现更高胜率的同时将平均决策延迟降低超过 50%。
CARD: Towards Conditional Design of Multi-agent Topological Structures
CARD:多智能体拓扑结构条件设计
作者:Tongtong Wu 等(8 位作者)
Venue:ICLR 2026(顶会)
论文链接:https://arxiv.org/abs/2603.01089
代码:https://github.com/Warma10032/CARD
提出条件图生成框架,根据动态环境信号自适应构建多智能体通信拓扑9。通过条件变分图编码器与环境感知优化,CARD 在训练与运行时均可调整拓扑结构,应对模型升级、API 变更等现实场景。在 HumanEval、MATH 和 MMLU 基准上,CARD 在准确率与鲁棒性上均超越静态与提示驱动的基线方法。
MetaAgent: Automatic Multi-Agent System Construction via Finite State Machine
MetaAgent:基于有限状态机的多智能体系统自动构建
作者:未提供完整作者列表
Venue:ICML 2025(顶会)
论文链接:https://arxiv.org/abs/2507.22606
提出基于有限状态机的多智能体系统自动生成框架10。给定任务描述,MetaAgent 自动设计多智能体系统并通过优化算法迭代改进,部署时由有限状态机控制 Agent 行动与状态转换。在文本任务与实际应用任务上的实验表明,生成的系统超越其他自动设计方法,性能接近针对特定任务优化的人工设计系统。
MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination
MARCH:多智能体强化自检减少 LLM 幻觉
作者:Zhuo Li, Yupeng Zhang, Pengyu Cheng, Jiajun Song, Mengyu Zhou 等(11 位作者)
Venue:arXiv(预印本)
论文链接:https://arxiv.org/abs/2603.24579
代码:https://github.com/Qwen-Applications/MARCH
通过精心设计的信息不对称机制,从根本上打破 LLM 自我确认偏差11。系统由 Solver(生成答案)、Proposer(分解为可验证原子命题)和 Checker(独立验证,无法获取 Solver 原始输出)三个专属 Agent 构成。Checker 的信息隔离打破自我确认循环,配合多智能体强化学习联合训练。实验表明 8B 参数模型在幻觉基准上达到与强闭源模型相当的性能。
MARS: Multi-Agent Review System
MARS:多智能体评审协作推理系统
作者:Xiao Wang, Jia Wang, Yijie Wang, Pengtao Dang, Sha Cao, Chi Zhang
Venue:arXiv(预印本,v2 更新于 2026-03-24)
论文链接:https://arxiv.org/abs/2509.20502
代码:https://github.com/xwang97/MARS
受学术评审流程启发,设计角色分工协作框架12。作者 Agent 生成初始解答,审稿人 Agent 独立提供决策与批注,元审稿人整合反馈并指导修订。该设计避免了审稿人之间的高频通信开销。实验表明 MARS 在多个基准上与多智能体辩论(MAD)准确率持平,同时将 token 消耗和推理时间各降低约 50%。
CoE: Collaborative Entropy for Uncertainty Quantification in Agentic Multi-LLM Systems
CoE:多智能体 LLM 系统的协同熵不确定性量化
作者:Kangkang Sun, Jun Wu, Jianhua Li, Minyi Guo, Xiuzhen Che, Jianwei Huang
Venue:ICLR 2026 研讨会(已接收)
论文链接:https://arxiv.org/abs/2603.28360
提出协同熵(Collaborative Entropy)作为多 LLM 协作系统语义不确定性的统一度量13。定义在共享语义聚类空间上,同时捕获模型内语义熵与模型间相对集成均值的散度。数学分析明确了何时降低单模型不确定性已足够、何时残余的跨模型分歧仍然显著。在 TriviaQA 和 SQuAD 上验证,CoE 优于基于熵和散度的标准基线,且加入更多异质模型后增益更大。
📊 Agent 评估与基准
Gaia2: Dynamic Asynchronous Environments for Agent Benchmarking
Gaia2:动态异步环境 Agent 基准
作者:未提供完整作者列表
Venue:ICLR 2026 Oral(顶会口头报告)
论文链接:https://arxiv.org/abs/2602.11964
首个引入环境独立演化(不等待 Agent 行动)的 Agent 基准14。场景包含时间约束、噪声事件、歧义消解与 Agent 间协作,每个场景配备写行动验证器,支持细粒度行动级评估并可直接用于可验证奖励强化学习。前沿模型评测结果:GPT-5(高算力)以 42% pass@1 领先但在时间敏感任务上失败,Claude-4 Sonnet 以准确率换取成本效益,开源最强 Kimi-K2 达 21% pass@1。
ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence
ARC-AGI-3:前沿 Agent 智能新挑战
作者:ARC Prize Foundation(提交者:Francois Chollet)
Venue:arXiv(预印本)
论文链接:https://arxiv.org/abs/2603.24621
引入交互式 Agent 智能基准,完全聚焦于新颖任务上的流体自适应效率,排除语言和外部知识15。Agent 须在回合制环境中探索、推断目标、建立环境动态内部模型并规划有效行动序列,无显式指令。经人类受试者广泛校准,人类可 100% 解决所有环境。截至 2026 年 3 月,前沿 AI 系统得分低于 1%,揭示当前 Agent 智能与人类流体推理之间的根本性差距。
ResearchGym: A Benchmark for End-to-End AI Research Agents
ResearchGym:端到端 AI 研究 Agent 评估基准
作者:未提供完整作者列表
Venue:ICLR 2026 研讨会(已接收)
论文链接:https://arxiv.org/abs/2602.15112
基于 ICML/ICLR/ACL 优秀论文的开源仓库构建端到端研究任务基准16。保留数据集、评估框架与基线实现,隐去论文提出的方法,共 5 个容器化任务环境、39 个子任务,要求 Agent 独立提出假设、运行实验并超越强基线。GPT-5 驱动的 Agent 仅在 1/15 次评估中(6.7%)超越基线,子任务完成率均值仅 26.5%,暴露了长周期协调、资源管理与过度自信等典型失败模式。
Efficient Benchmarking of AI Agents
AI Agent 的高效评估方法
作者:Franck Ndzomga
Venue:arXiv(预印本)
论文链接:https://arxiv.org/abs/2603.23749
基于 Item Response Theory 提出中等难度过滤协议,大幅降低 Agent 评估成本17。仅评估历史通过率 30-70% 的中间难度任务,可减少 44-70% 的评估任务量,同时在 Scaffold 变化与时间漂移下保持高排名保真度。跨 8 个基准、33 个 Scaffold 配置、70+ 模型的实验表明:绝对分数在 Scaffold 分布偏移下退化,但排名预测稳定,可靠排行榜不需要全量基准评估。
RACE-bench: Repository-Level Code Agent Benchmark with Intermediate Reasoning
RACE-bench:代码 Agent 推理增强评估基准
作者:Shuhan Liu, Zhiyi Zhao, Xing Hu, Kui Liu, Xiaohu Yang, Xin Xia
Venue:arXiv(预印本)
论文链接:https://arxiv.org/abs/2603.26337
提出代码 Agent 推理过程评估基准,弥补现有基准仅关注最终结果的不足18。包含来自 12 个开源仓库的 528 个真实特性添加实例,配套结构化中间推理标注(问题理解、文件定位、实现任务、步骤分解),通过双轨评估框架同时衡量补丁正确性与推理质量。三个代表性 Agent 的 Resolved Rate 为 29%-70%,分析发现当前 Agent 理解高层意图尚可,但将意图转化为具体实现步骤时性能显著下降。
Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance
超越完成率:用累积状态跟踪预测 LLM Agent 性能
作者:Dengzhe Hou, Lingyu Jiang, Deng Li, Zirui Li, Fangzhou Lin, Kazunori D Yamada
Venue:arXiv(预印本)
论文链接:https://arxiv.org/abs/2603.27343
提出 WMF-AM 探针(工作记忆保真度-主动操控),无需草稿纸即可标定累积算术状态跟踪能力19。在 20 个开源模型(0.5B-35B,13 个系列)上评估,WMF-AM 预测 Agent 性能的 Kendall's tau = 0.612(p < 0.001,95% CI [0.360, 0.814])。三组消融实验支持"累积状态跟踪"而非单步算术或实体跟踪是主要难点的解释,揭示任务完成率相同的模型在中间状态跟踪能力上差异显著。
本期趋势小结
架构与设计:记忆机制在本期论文中高度活跃——图增强关联记忆(GAAMA)、双粒度技能库(D2Skill)和交互缩放(IterResearch)代表三条技术路线;不确定性感知规划首次在顶会层面得到形式化处理(ICLR 2026)。
多智能体协作:两大主题持续分化——一是效率优化(MARS 将 token 消耗减半,SEMA 将延迟降低 50%),二是拓扑自适应(CARD 的条件图生成)。信息不对称作为打破确认偏差的设计原则(MARCH)值得关注。
评估基准:本期基准论文密度高、质量强。ARC-AGI-3 揭示人机差距(人类 100% vs AI 低于 1%);Gaia2 将异步动态引入评估;RACE-bench 与 WMF-AM 同时指向中间推理过程的评估,Agent 评估正在从结果导向转向过程透明。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.