LLM2D

摘要

arXiv:2501.17903v2 更换类型: 交叉替换摘要：多代理系统通常将任务分配给专门的、自主的代理，但它们通常缺乏实时机制来更换或重新分配表现不佳的代理。受美国职业棒球大联盟自由球员模型的启发，强化学习自由球员（RLFA）算法引入了一种基于奖励的机制来检测并移除表现出持续低绩效的代理，并无缝插入更具能力的代理。每个代理内部使用混合专家（MoE）方法，在指导函数的指导下将接收到的任务委派给专门的子模型。一个主要的应用案例是欺诈检测，其中RLFA迅速替换那些检测准确率低于预设阈值的代理。新的代理在试用模式下进行测试，一旦显示出卓越的表现，就完全替换掉表现不佳者。这一动态的自由球员循环确保了持续的准确性，更快地适应新兴威胁，并对正在进行的操作造成最小的干扰。通过不断更新其代理的阵容，该系统促进了多代理生成AI环境中的持续改进和更具弹性的协作。