LLM2D

摘要

arXiv:2505.07728v1 通用型：跨域摘要：在大型数据集上训练的通用模仿学习策略在解决多种操作任务方面显示出巨大的潜力。然而，为了确保在不同条件下的泛化，策略需要使用包含大量环境因素变化的数据（例如，相机姿态、桌面高度、干扰物）进行训练——如果要详细地这样做，将是一项代价高昂的任务。我们提出了一种原理性的方法，用于决定在每个因素下应收集什么数据以及收集多少数据，通过构建因素缩放曲线（FSC），量化随单个因素或配对因素的数据规模变化时策略性能的变化。这些曲线使得在给定预算下，能够有针对性地获取最具影响力的因素组合的数据。我们通过广泛的模拟和实地实验评估了提出的方法，在从头训练和微调设置中都进行了评估，并展示了与现有数据收集策略相比，该方法在新环境中提升真实任务成功率最多可达26%。我们还展示了如何使用离线度量有效地指导数据收集，而无需大规模进行实地评估。