KB代理:体验池允许代理商互相学习!盖亚的新开
作者:365bet官网日期:2025/07/28 浏览:
最近,耶鲁大学,斯坦福大学,威斯康星大学,北卡罗来纳大学,教堂山大学和其他机构共同出版了代理KB框架。此任务使您可以通过两个阶段搜索机制在AI代理之间建立经验组并在AI代理之间分享有效的经验。 Agent KB允许代理商通过层次结构经验从其他任务的成功经验中学习,从而大大提高了复杂的推理和解决问题的能力。 Paper address: https://arxiv.org/abs/2507.062229Open source code: https://github.com/oppo-personalai/agent-kbagent Memory System: From Independent Combat To Collaborative Learning in The Development of Ai Agnas, Memory (Memory) Systems are Constantly Achieving Continuous Learning, Achieving Continuous Learning, and Achieving Evolution CoNtinuously.从广义上讲,代理的内存系统还包括短期内存以存储临时信息在当前的对话和任务中的离子,长期记忆,以保持重要的知识,经验和学习结果,在处理当前任务时为主动信息缓存工作,并在处理当前任务时可用于在特定情况下记录问题解决问题的策略。但是,现有的内存系统有基本的限制。不同代理下的经验无法有效地分享。不同的任务往往具有多个代理的不同帧,因此,即使在相关领域验证了类似的问题解决策略,也应在每次发现新任务时从头开始考虑它们。 KB特工是为了解决这个问题。可以建立经验/共享知识库的体验系统,首先是多个代理系统(开放手,metapt,自动源等)执行不同的任务,然后进行抽象和存储解决问题的经验。如果您在新数据集中找到证据示例,请寻找历史经验的相关解决方案和ADAPT其他代理商在新任务方案中的经验。该框架的中央技术的交换基于“检索retrieve-refine”解决方案以及对教师学生的两阶段搜索机制的建议,这使代理商可以在不同级别学习和运用历史经验。 GAIA基准:IA Gaia(总助理)总助理的最终挑战被称为“ AI的总助理的最终测试”,目前是评估代理商的最具挑战性的参考点之一。 Gaia不可能进行PNL参考点,专门设计用于评估复杂的实际世界任务中代理的积分能力。盖亚的中心特征反映在降低实际复杂性中。任务来自真实的用户,这不是手动结构的简单问题,要求代理具有多模式的交互功能,并且必须处理多种类型的信息,例如文本,图像,音频等。更重要的是,代理必须能够使用工具来调用外部资源,例如搜索引擎,代码执行者,文件处理工具等。 Gaia的验证集包括165个由良好设计的测试用例,分为三个级别。级别1包括53个基本任务,这些任务需要简单的推理或直接信息搜索。级别2包括86个平均复杂性任务,需要推断成型阶段或工具的组合。第三级包括26个困难任务,这些任务需要复杂的推理链和专家领域知识。本文中的指标主要包括Pass@1(代理商的第一次尝试的成功率,最严格,最重要的)和@3(在用于评估系统上限的三种尝试中至少取得成功的概率)。我们发现代理KB的作者非常严格,因为某些公司和组织没有指示它是@n还是通过 @1通过n宣布他们的产品并告知盖亚的结果。实验结果:Gaia基准中的代理KB的性能令人惊讶,而Agent KB取得了显着的结果。代理KB研究团队的最初意图应该已经更新,对多个代理商更为复杂。这是因为这不是要提出简易工作。因此,他们选择了SmorAdient,它是简单而不理想的,作为测试基本代理框架,因此可以比复杂框架引起的性能改进更清楚地证明体验交换机制的效果。 Smoolagents导演:https://github.com/huggingface/smolagents实验结果表明,GPT-4.1模型的一般性能从基线的55.15%增加到61.21%,增加了6.06个百分位数,在最艰难的Pass @1 @1下增加了6.06个百分点。 Claude-3.7 はパフォーマンスが向上し、58.79 %から65.45 6.66パーセントポイント増加しました。此结果特别值得注意,因为它表明KB代理可以在相对基本的框架框架中达到接近更高商业系统的性能水平。研究小组还测试了代理KB改进后,主要电流的六个LLM的性能。从DeepSeek-R1的不断改进到Claude-3.7的重要增长,从GPT-4O的平衡的改善到O3米尼的显着增长,所有测试模型均显示出一致的改进趋势。该跨模型,横滤波水平和其他通用改进强烈证明了KB代理方法的普遍性和可靠性。 Agent KB在软件工程领域的SWE基准数据集中还表现出强大的实践价值。该参考点包含11个常见Python存储库的300个实际问题,并要求代理商了解现有代码库并实施适当的解决方案。 O3米尼在50次迭代中从23.00%增加到31.67%(+8.67%),从100次迭代中的29.33%至33.67%(+4.34%)。这些结果表明,代理KB之间的知识交换功能不仅足以满足问题和答案的一般任务,而且在专业代码维修领域中使用了重要作用。技术架构:KB学生代理人教师和学生的技术创新是其“重新依赖理性的回复”的过程,也是教师和学生的双级搜索机制。在这里,远离蛋白质数据库(PDB)的计算情况说明了这种机制的工作原理。在传统的过程中,代理盲目地读取原子/hetatm/anisou记录的前两行,通常选择溶剂记录,从而导致O-H距离不正确(0.961Å)。代理KB改进代理可以应用基于经验的规则。我们智能地过滤了Anisou/hetatm记录,重点是原子的实际输入,验证了T的理性验证N-Care长度范围范围,最终,它们准确地提取了N-C骨架的同伴,并告知正确的1,456Å的距离。代理KB的深度建筑的本质反映在“检索retrieve-refine”段落设计中,该设计巧妙地将层次体验的存储与智能搜索机制结合在一起。整个框架围绕两个核心阶段,KB代理和KB知识阶段加强了推理阶段。在知识构建阶段,系统会系统地从各种数据集(例如BrowserComp,Hoprag,Hle,Repobench)中提取可概括的问题解决模式。通过自动摘要和一些示意,原始输出记录(log)成为结构化知识输入。这些经验不是简单的轨迹,而是深层抽象的推理模式,可以通过任务限制实现已知有效模拟的转移。 in在改善的推理阶段,KB代理的新文化是引入双重代理协作机制。学生经纪人和教师担任搜索和适应指南的互补角色。除了代理KB外,还有一个负责任的执行代理人用于实际任务。例如,作者使用OpenHands执行SWE银行任务,而OpenHands是执行代理。在检索循环中执行循环时,学生代理人是完全真实的。通过深入的推理分析任务的当前特征,在重合工作流的层面上获取历史经验模式,并调整这些经验以为执行代理提供高级的一般解决方案框架指南。这个过程使执行代理可以在其历史和成功的经验中构建理性的宏观策略。大师代理在监督和优化中起着更精致的作用。它不断分析执行代理突然识别潜在问题,执行偏差和效率瓶颈,并提供了改善目标和精制的建议。一旦发现问题,主代理商就会精确地获得相关的步骤级别,并适应这些经验,以提供精致的目标和建议,以改进执行代理。这种层次协作机制的微妙之处是战略宏观计划的有机统一和微培养的优化。学生代理人确保一般方向的准确性,而主代理商则确保在实施过程中精确。这种架构结构搜索RA满足了各种粒度解决问题阶段的差异需求。在最初的计划阶段,学生代理人根据问题特征寻求高级工作流程,进行适应性更改并提供战略指导用于实施。在执行优化阶段,大师级代理商根据实际时间轨迹寻找更好的体验,并进行特定的调整以提供战术修改的建议。通过将经验保存为抽象结构模式,而不是特定的实现细节,该系统实现了跨域知识的有效传输,从而使抽象原理可以自适应地修改以在新环境中播放更高的指南值。整个框架使用模块化和独立的设计概念框架实体。这不仅与多个代理体系结构完美融合,而且还为共享的新可能性和跨帧体验的协作学习提供了新的可能性。深度消融研究完全研究了代理KB的每个组成部分的独立贡献。验证有效性后,研究团队设计了一个系统的消融实验。表3详细数据揭示了每个扩展的完整性关键的能量影响模块。消融实验的中心发现表明,双重代理的协作体系结构的每个组成部分都起着不可替代的作用。缺乏学生代理人反映了工作流程的初始计划中的重要作用,从79.25%到75.47%,导致级别的降低1级。最重要的发现是改进模块的中心位置。消除该模块导致最大的性能下降,一般精度从61.21%降至55.15%,而3级任务的性能从34.62%降至30.77%。该结果完全说明了自适应改进机制在处理复杂的推理任务中的重要作用,而简单的经验搜索不够,必须合并智能经验适应以实现有效的知识转移。搜索策略详细分析SIS代理KB使用多层搜索机制来保证知识的精确知识。该系统实现了三种核心搜索方法:搜索文本相似性:通过teTraditional信息搜索CNologies(例如TF-IDF),关键字的巧合来识别任务和表面解决方案。语义相似性搜索:文本使用先前训练的模型作为语句中的高维矢量表示,通过计算COSEN相似性来捕获All-MILM-L6-V2和深层语义关联。混合搜索策略:通过上述两种方法的加权融合。此外,该系统还基于抽象来寻找两个不同水平的抽象。基于摘要的搜索:对执行记录的一般高级别的一般描述,该记录的一般策略和工作流程模式适用于宏规划指南。基于批评的搜索:专注于错误模式时提供具体的改进建议NS和故障案件以及分析类似的问题情况。图4中的实验结果提供了最佳的搜索策略。揭示要选择的原则。对于基于添加的搜索(左图),混合方法在各个难度方面效果更好,在Gaia级别的1个任务中达到了83%的精度,在SWE银行中实现了37%的解决方案。这表明宏观战略计划应考虑关键字和语义理解的精确巧合的双重好处。对于基于批评的搜索(右图),文本的相似性在2级(67%)的任务中表现出色,而语义相似性在SWE银行(33%)中更有利。这表明误差模式的巧合在很大程度上取决于特定的实现细节和问题的精确描述。这些发现的深入参与是,不同类型的知识搜索必须与相应的搜索策略授课者一致。 bec基于AUSE摘要的搜索更适合宏观策略,混合方法可以考虑关键字的巧合和语义理解的优势。关键搜索更多地关注特定执行的详细信息,但是文本的相似性可以准确捕获相似的模式和错误解决方案。这种分层搜索体系结构反映了代理KB的精美设计。最合适的搜索策略用于解决问题的几个阶段。错误分析揭示了改进机制,精确的误差分析加深了KBS代理的内部机制,从而提高了代理的推理能力。对维恩图中重叠区域的分析表明,代理KB的改进是一个选择性的智能优化过程,而不是简单的错误替换。对于GPT-4.1,在基础和GPT-4.1代理配置中都会产生49个错误模型的SSED限制。代理KB成功地固定25个特定基线错误,仅引入了15个新错误,从而实现了净减少10个错误实例的积极效果。 Claude-3.7纠正22个参考错误,引入11个新错误,11个净改进达到11个实例,总共有79个错误,并且每月进行执行模式相似,但性能模式非常好。对错误类型的详细分析显示了代理KB改进的目的。搜索错误从24减少到20,而规划错误从13下降到10。这种改进直接来自代理KB知识库中包含的类似搜索协议和标准化工作流程。通过这些结构化的经验,代理可以避免由随机调查引起的错误,并采用更稳定,更有效的问题解决路线。同时,格式误差的显着降低表明通过学习成功的任务案例,E代理在更精确的输出规范中占据了主导地位。技术重要性和KB工业价值代理的成功突袭了深入研究领域的新技术途径。通过允许代理商学习从历史经验中提取深度信息,它表明了系统发展到独立研究能力的潜力。未来代理的自我进化机制将不再取决于手动注释,而是通过持续的经验和跨域知识的转移来实现能力的螺旋增长。代理KB在Gaia基准中创建的Records Popen源Cassock ROS只是其技术价值的一部分。交叉任务的知识转移功能和它所证明的协作学习机制提供了中心技术支持,以构建具有自发展能力的下一代AI系统。
相关文章