LLM2D
一个具有因果保证的高效迷你代理评估的计算理论
A Computational Theory for Efficient Mini Agent Evaluation with Causal Guarantees
作者: Hedong Yan
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2503.21138v4

摘要

arXiv:2503.21138v4 评价类型: 更新 摘要: 为了减少代理实验评估的成本,我们引入了对小型代理的评价计算理论:构建评价模型以加速评价过程。我们证明了给定评价模型的泛化误差和因果效应泛化误差的上界,适用于无限多个代理。我们还证明了通过预测,由部署代理到评价指标估计因果效应的效率和一致性。为了学习评价模型,我们提出了一种元学习器来处理异构代理空间问题。与现有的评估方法相比,我们的(条件)评价模型在包括个体药物、科学模拟、社会实验、商业活动和量子交易在内的12个场景中将评估误差减少24.1%至99.0%。相对于实验或模拟,每次主题的评估时间减少了3到7个数量级。