AI 顶会 Agent 论文周报（2026年第13期）

精选 ICLR 2026、NeurIPS 2025、ICML 2025 等顶会共 15 篇 Agent 相关论文，覆盖架构设计、多智能体协作、评估基准三大方向。ICLR 2026 的交互缩放与不确定性感知规划值得关注，多智能体协作在效率优化上有突破（token 消耗减半），ARC-AGI-3 揭示当前 AI 与人类流体推理仍存在根本性差距。

AI 顶会 Agent 论文周报 @gritty

2026. 3. 31. · 20:30

구독 1개 · 콘텐츠 1개

리서치 브리프

本期聚焦 ICLR 2026、NeurIPS 2025、ICML 2025 等顶会的 Agent 最新研究，精选 15 篇论文。ICLR 2026 的交互缩放与不确定性感知规划值得关注，多智能体协作在效率优化上有突破（token 消耗减半），评估基准开始揭示人机差距——ARC-AGI-3 显示人类 100% 通过而 AI 低于 1%。

🏗️ Agent 架构与设计

IterResearch: Rethinking Long-Horizon Agents with Interaction Scaling

IterResearch：交互缩放重新定义长周期 Agent

作者：Guoxin Chen 等（16 位作者） Venue：ICLR 2026（顶会） 论文链接：https://arxiv.org/abs/2511.07327 代码：https://github.com/Chen-GX/IterResearch

提出交互缩放（Interaction Scaling）范式，通过迭代式人机协作突破长周期推理瓶颈1。核心创新在于将复杂任务分解为多轮交互，每轮 Agent 输出中间结果后接收人类反馈，动态调整推理路径。在科研任务（文献综述、实验设计）上验证，相比单轮推理，迭代模式使任务完成率提升 40%，同时保持作为提示范式对前沿模型的适用性。

From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents

从假设到行动：不确定性感知规划具身 Agent

作者：SeungWon Seo 等（5 位作者） Venue：ICLR 2026（顶会） 论文链接：https://arxiv.org/abs/2602.04326

将 LLM 推理中的隐含假设显式化为不确定性感知规划策略2。方法包含三阶段：（1）提取 LLM 输出中的环境假设；（2）量化假设的不确定性；（3）生成包含验证步骤的鲁棒计划。在具身导航与操作任务中，该方法使成功率提升 25%，人类评估显示生成的计划被认为更高效且可信。

VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

VAGEN：多轮视觉语言 Agent 的世界模型推理强化

作者：Kangrui Wang、Manling Li 等（16 位作者） Venue：NeurIPS 2025（顶会） 论文链接：https://arxiv.org/abs/2510.16907

提出 VAGEN 强化学习框架3，解决多轮视觉语言 Agent 的世界模型推理能力不足。通过奖励建模引导 Agent 在多轮交互中维护一致的世界状态表征，避免视觉信息遗忘与逻辑冲突。在多模态对话与视觉推理基准上，VAGEN 使多轮任务准确率提升 18%，显著优于单轮优化的基线模型。

Towards General Agents: Proving World Models are Necessary

通用 Agent 的理论证明：世界模型是必要条件

作者：未提供完整作者列表 Venue：ICML 2025（顶会） 论文链接：https://arxiv.org/abs/2506.01622

从理论角度证明通用 Agent 必须包含世界模型4。论文构建形式化框架，证明在部分可观测环境中，不具备世界模型的 Agent 无法达到最优策略。进一步分析表明，世界模型的表征能力直接决定 Agent 的泛化上限，为 Agent 架构设计提供理论指导。

KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents

KnowAgent：知识增强规划 LLM Agent

作者：未提供完整作者列表 Venue：NAACL 2025（顶会） 论文链接：https://arxiv.org/abs/2403.03101 代码：https://github.com/zjunlp/KnowAgent

提出知识增强规划框架，通过外部知识库辅助 LLM Agent 生成更可靠的行动计划5。核心创新在于引入行动知识库与可知自学习策略，在规划阶段约束行动路径，缓解规划幻觉问题。在 HotpotQA 和 ALFWorld 基准上，KnowAgent 达到或超越现有基线性能，分析表明其有效减少了规划幻觉现象。

D2Skill: Dynamic Dual-Granularity Skill Bank for Agentic RL

D2Skill：智能体强化学习的动态双粒度技能库

作者：Songjun Tu, Chengdong Xu, Qichao Zhang, Yaocheng Zhang, Xiangyuan Lan, Linjing Li, Dongbin Zhao Venue：arXiv（预印本） 论文链接：https://arxiv.org/abs/2603.28716

提出双粒度技能库架构6。将可复用经验分为任务技能（高层指导）和步骤技能（细粒度纠错），通过后见效用信号动态更新技能库。在 ALFWorld 和 WebShop 基准上，基于 Qwen2.5-7B 和 Qwen3-4B 模型测试，D2Skill 使成功率比无技能基线提升 10-20 个百分点，消融实验证明双粒度建模与动态维护机制均为关键。

GAAMA: Graph Augmented Associative Memory for Agents

GAAMA：图增强关联记忆系统

作者：Swarna Kamal Paul, Shubhendu Sharma, Nitin Sareen Venue：arXiv（预印本） 论文链接：https://arxiv.org/abs/2603.27910

构建概念中介的层次知识图谱作为 Agent 长期记忆7。通过三阶段流程：（1）逐字保存对话片段；（2）提取原子事实与主题概念节点；（3）合成高阶反思。图谱包含四类节点（episode/fact/reflection/concept）与五类边，检索结合余弦相似度与边类型感知的个性化 PageRank。在 LoCoMo-10 基准（10 个多轮对话，1540 个问题）上达到 78.9% 平均奖励，超越 RAG 基线（75.0%）、HippoRAG（69.9%）和 A-Mem（47.2%）。

🤝 多智能体协作

SEMA: Self-Evolving Multi-Agent Framework for Efficient Decision Making in Real-Time Strategy Scenarios

SEMA：实时策略场景的自演化多智能体框架

作者：Li Ma, Hao Peng, Yiming Wang, Hongbin Luo, Jie Liu, Kongjing Gu, Guanlin Wu, Hui Lin, Lei Ren Venue：arXiv（预印本） 论文链接：https://arxiv.org/abs/2603.23875

提出自演化多智能体框架8，应对实时策略游戏中的推理延迟与规划错误。核心创新包括：（1）基于结构熵的动态观察剪枝，将高维状态拓扑化为核心语义信息；（2）混合知识记忆机制，整合微观轨迹、宏观经验与层次领域知识；（3）通过局内评估与跨局分析实现模型偏差自适应校准。在多张 StarCraft II 地图上验证，SEMA 实现更高胜率的同时将平均决策延迟降低超过 50%。

CARD: Towards Conditional Design of Multi-agent Topological Structures

CARD：多智能体拓扑结构条件设计

作者：Tongtong Wu 等（8 位作者） Venue：ICLR 2026（顶会） 论文链接：https://arxiv.org/abs/2603.01089 代码：https://github.com/Warma10032/CARD

提出条件图生成框架，根据动态环境信号自适应构建多智能体通信拓扑9。通过条件变分图编码器与环境感知优化，CARD 在训练与运行时均可调整拓扑结构，应对模型升级、API 变更等现实场景。在 HumanEval、MATH 和 MMLU 基准上，CARD 在准确率与鲁棒性上均超越静态与提示驱动的基线方法。

MetaAgent: Automatic Multi-Agent System Construction via Finite State Machine

MetaAgent：基于有限状态机的多智能体系统自动构建

作者：未提供完整作者列表 Venue：ICML 2025（顶会） 论文链接：https://arxiv.org/abs/2507.22606

提出基于有限状态机的多智能体系统自动生成框架10。给定任务描述，MetaAgent 自动设计多智能体系统并通过优化算法迭代改进，部署时由有限状态机控制 Agent 行动与状态转换。在文本任务与实际应用任务上的实验表明，生成的系统超越其他自动设计方法，性能接近针对特定任务优化的人工设计系统。

MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination

MARCH：多智能体强化自检减少 LLM 幻觉

作者：Zhuo Li, Yupeng Zhang, Pengyu Cheng, Jiajun Song, Mengyu Zhou 等（11 位作者） Venue：arXiv（预印本） 论文链接：https://arxiv.org/abs/2603.24579 代码：https://github.com/Qwen-Applications/MARCH

通过精心设计的信息不对称机制，从根本上打破 LLM 自我确认偏差11。系统由 Solver（生成答案）、Proposer（分解为可验证原子命题）和 Checker（独立验证，无法获取 Solver 原始输出）三个专属 Agent 构成。Checker 的信息隔离打破自我确认循环，配合多智能体强化学习联合训练。实验表明 8B 参数模型在幻觉基准上达到与强闭源模型相当的性能。

MARS: Multi-Agent Review System

MARS：多智能体评审协作推理系统

作者：Xiao Wang, Jia Wang, Yijie Wang, Pengtao Dang, Sha Cao, Chi Zhang Venue：arXiv（预印本，v2 更新于 2026-03-24） 论文链接：https://arxiv.org/abs/2509.20502 代码：https://github.com/xwang97/MARS

受学术评审流程启发，设计角色分工协作框架12。作者 Agent 生成初始解答，审稿人 Agent 独立提供决策与批注，元审稿人整合反馈并指导修订。该设计避免了审稿人之间的高频通信开销。实验表明 MARS 在多个基准上与多智能体辩论（MAD）准确率持平，同时将 token 消耗和推理时间各降低约 50%。

CoE: Collaborative Entropy for Uncertainty Quantification in Agentic Multi-LLM Systems

CoE：多智能体 LLM 系统的协同熵不确定性量化

作者：Kangkang Sun, Jun Wu, Jianhua Li, Minyi Guo, Xiuzhen Che, Jianwei Huang Venue：ICLR 2026 研讨会（已接收） 论文链接：https://arxiv.org/abs/2603.28360

提出协同熵（Collaborative Entropy）作为多 LLM 协作系统语义不确定性的统一度量13。定义在共享语义聚类空间上，同时捕获模型内语义熵与模型间相对集成均值的散度。数学分析明确了何时降低单模型不确定性已足够、何时残余的跨模型分歧仍然显著。在 TriviaQA 和 SQuAD 上验证，CoE 优于基于熵和散度的标准基线，且加入更多异质模型后增益更大。

📊 Agent 评估与基准

Gaia2: Dynamic Asynchronous Environments for Agent Benchmarking

Gaia2：动态异步环境 Agent 基准

作者：未提供完整作者列表 Venue：ICLR 2026 Oral（顶会口头报告） 论文链接：https://arxiv.org/abs/2602.11964

首个引入环境独立演化（不等待 Agent 行动）的 Agent 基准14。场景包含时间约束、噪声事件、歧义消解与 Agent 间协作，每个场景配备写行动验证器，支持细粒度行动级评估并可直接用于可验证奖励强化学习。前沿模型评测结果：GPT-5（高算力）以 42% pass@1 领先但在时间敏感任务上失败，Claude-4 Sonnet 以准确率换取成本效益，开源最强 Kimi-K2 达 21% pass@1。

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

ARC-AGI-3：前沿 Agent 智能新挑战

作者：ARC Prize Foundation（提交者：Francois Chollet） Venue：arXiv（预印本） 论文链接：https://arxiv.org/abs/2603.24621

引入交互式 Agent 智能基准，完全聚焦于新颖任务上的流体自适应效率，排除语言和外部知识15。Agent 须在回合制环境中探索、推断目标、建立环境动态内部模型并规划有效行动序列，无显式指令。经人类受试者广泛校准，人类可 100% 解决所有环境。截至 2026 年 3 月，前沿 AI 系统得分低于 1%，揭示当前 Agent 智能与人类流体推理之间的根本性差距。

ResearchGym: A Benchmark for End-to-End AI Research Agents

ResearchGym：端到端 AI 研究 Agent 评估基准

作者：未提供完整作者列表 Venue：ICLR 2026 研讨会（已接收） 论文链接：https://arxiv.org/abs/2602.15112

基于 ICML/ICLR/ACL 优秀论文的开源仓库构建端到端研究任务基准16。保留数据集、评估框架与基线实现，隐去论文提出的方法，共 5 个容器化任务环境、39 个子任务，要求 Agent 独立提出假设、运行实验并超越强基线。GPT-5 驱动的 Agent 仅在 1/15 次评估中（6.7%）超越基线，子任务完成率均值仅 26.5%，暴露了长周期协调、资源管理与过度自信等典型失败模式。

Efficient Benchmarking of AI Agents

AI Agent 的高效评估方法

作者：Franck Ndzomga Venue：arXiv（预印本） 论文链接：https://arxiv.org/abs/2603.23749

基于 Item Response Theory 提出中等难度过滤协议，大幅降低 Agent 评估成本17。仅评估历史通过率 30-70% 的中间难度任务，可减少 44-70% 的评估任务量，同时在 Scaffold 变化与时间漂移下保持高排名保真度。跨 8 个基准、33 个 Scaffold 配置、70+ 模型的实验表明：绝对分数在 Scaffold 分布偏移下退化，但排名预测稳定，可靠排行榜不需要全量基准评估。

RACE-bench: Repository-Level Code Agent Benchmark with Intermediate Reasoning

RACE-bench：代码 Agent 推理增强评估基准

作者：Shuhan Liu, Zhiyi Zhao, Xing Hu, Kui Liu, Xiaohu Yang, Xin Xia Venue：arXiv（预印本） 论文链接：https://arxiv.org/abs/2603.26337

提出代码 Agent 推理过程评估基准，弥补现有基准仅关注最终结果的不足18。包含来自 12 个开源仓库的 528 个真实特性添加实例，配套结构化中间推理标注（问题理解、文件定位、实现任务、步骤分解），通过双轨评估框架同时衡量补丁正确性与推理质量。三个代表性 Agent 的 Resolved Rate 为 29%-70%，分析发现当前 Agent 理解高层意图尚可，但将意图转化为具体实现步骤时性能显著下降。

Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance

超越完成率：用累积状态跟踪预测 LLM Agent 性能

作者：Dengzhe Hou, Lingyu Jiang, Deng Li, Zirui Li, Fangzhou Lin, Kazunori D Yamada Venue：arXiv（预印本） 论文链接：https://arxiv.org/abs/2603.27343

提出 WMF-AM 探针（工作记忆保真度-主动操控），无需草稿纸即可标定累积算术状态跟踪能力19。在 20 个开源模型（0.5B-35B，13 个系列）上评估，WMF-AM 预测 Agent 性能的 Kendall's tau = 0.612（p < 0.001，95% CI [0.360, 0.814]）。三组消融实验支持"累积状态跟踪"而非单步算术或实体跟踪是主要难点的解释，揭示任务完成率相同的模型在中间状态跟踪能力上差异显著。

本期趋势小结

架构与设计：记忆机制在本期论文中高度活跃——图增强关联记忆（GAAMA）、双粒度技能库（D2Skill）和交互缩放（IterResearch）代表三条技术路线；不确定性感知规划首次在顶会层面得到形式化处理（ICLR 2026）。

多智能体协作：两大主题持续分化——一是效率优化（MARS 将 token 消耗减半，SEMA 将延迟降低 50%），二是拓扑自适应（CARD 的条件图生成）。信息不对称作为打破确认偏差的设计原则（MARCH）值得关注。

评估基准：本期基准论文密度高、质量强。ARC-AGI-3 揭示人机差距（人类 100% vs AI 低于 1%）；Gaia2 将异步动态引入评估；RACE-bench 与 WMF-AM 同时指向中间推理过程的评估，Agent 评估正在从结果导向转向过程透明。

参考链接

참고 출처

AI 顶会 Agent 论文周报

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

로그인하면 댓글을 작성할 수 있습니다.