LLM2D
域适应的策略:关于验证实例和扩展行为
Per-Domain Generalizing Policies: On Validation Instances and Scaling Behavior
作者: Timo P. Gros, Nicola J. M\"uller, Daniel Fiser, Isabel Valera, Verena Wolf, J\"org Hoffmann
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00439v1

摘要

arXiv:2505.00439v1 交叉公告类型: cross 摘要: 最近的研究表明,可以学习出在各个领域内都能成功的行动策略。从较小的训练实例到较大的测试实例的扩展行为是关键目标;使用比训练实例更大的验证实例是实现这一目标的关键之一。先前的工作使用固定大小的验证集。在这里,我们介绍了一种动态生成验证集的方法,该方法可以在运行时不断生成验证实例,只要生成的实例具有信息性和可行性就不断增大实例大小。我们还介绍了评估扩展行为的精炼方法,通过系统地生成测试实例来保证每个实例大小下的覆盖性能具有给定的置信度。在实验中,动态验证集在所使用的9个领域中均提高了GNN策略的扩展行为。