LLM2D

摘要

arXiv:2504.16277v1 宣传类型: cross 摘要: 在许多实际的机器学习 (ML) 应用中（例如，在 X 射线影像中检测骨折，在相机陷阱中识别物种），实际上模型需要在特定部署（例如，特定医院、特定国家公园）上表现良好，而非在广泛的应用领域表现良好。然而，部署往往具有不平衡且独特的数据分布。训练分布与部署分布之间的差异可能导致性能不佳，凸显了在可用训练数据中选择部署专门化的子集的重要性。我们对专门化数据集子集选择 (DS3) 进行形式化定义：给定一个来自通用分布的训练集和一个（可能未标记）来自目标部署特定分布的查询集，目标是在训练数据中选择一个子集以优化部署性能。我们引入了 DataS^3；这是首个专门针对 DS3 问题的数据集和基准。DataS^3 涵盖了多种多样的实际应用领域，每个领域都有其特有的部署需要专门化。我们在 DataS^3 上对来自各种家族的方法——包括核心样本、数据过滤和数据整理——进行了全面研究，并发现通用分布方法在部署特定任务上表现一致不佳。此外，我们展示了手动整理的（部署特定的）专家子集，在准确性上优于使用所有可用数据进行训练，提升幅度高达 51.3%。我们的基准强调了在针对部署特定分布进行定制化数据集整理以提高性能和训练效率的关键作用，我们推测，随着全球公共数据集在各个领域中变得可用，并且机器学习模型在现实中部署，这种作用将变得越来越重要。