LLM2D

摘要

arXiv:2502.00270v1 宣告类型: cross 摘要：机器学习（ML）模型的表现很大程度上取决于其训练数据与下游评估任务领域的相关性。然而，在实践中，未见过的评估任务中涉及的数据往往对我们来说是未知的（例如，一个大语言模型与用户的对话是端到端加密的）。因此，我们不清楚哪些数据对于训练/微调ML模型以最大限度提高其任务性能是相关的。相反，我们只能部署ML模型到未见过的评估任务中，以收集多轮的粗反馈，以了解模型表现如何。本文提出了一种名为DUET的新型全局到局部算法，该算法可以通过交替使用数据选择方法与贝叶斯优化，利用反馈循环。因此，DUET可以从数据域池中高效地精炼训练数据混合，以最大限度地提高其在未见过的评估任务上的性能，通过分析其累积遗憾，其对最优化数据混合的收敛是可以理论保证的。对图像和大语言模型评估任务的实验评估表明，DUET找到了优于传统基线的训练数据混合。