【第546期】SKILLRL：基于递归技能增强强化学习的智能体进化

About this episode

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com今天的主题是：SKILLRL: Evolving Agents via Recursive Skill-Augmented Reinforcement LearningSummary大语言模型（LLM）智能体在复杂任务中展现了惊人的成果，但它们往往处于“孤立运行”状态，无法从过往经验中学习。现有的基于记忆的方法主要存储原始执行轨迹，而这些轨迹通常冗长且充斥着噪声，导致智能体难以提取出对泛化至关重要的、高层次且可复用的行为模式。在本文中，我们提出了 SkillRL，这是一个通过自动技能发现与递归演化，弥合原始经验与策略改进之间鸿沟的框架。我们的方法引入了三种创新机制：基于经验的蒸馏机制：用于构建层级化的技能库 SkillBank；自适应检索策略：用于获取通用及任务特定的启发式信息；递归演化机制：允许技能库在强化学习过程中与智能体的策略共同进化。这些创新在显著降低 Token 消耗的同时，提升了推理的实用性。在 ALFWorld、WebShop 以及七个搜索增强型任务上的实验结果表明，SkillRL 达到了当前最先进的性能（SOTA），优于强基准模型 15.3% 以上，并在任务复杂度增加时保持了鲁棒性。原文链接：https://arxiv.org/abs/2602.08234