LLM2D

摘要

arXiv:2502.10694v1 交叉公告类型摘要：传统机器学习假设训练集和测试集来自相同的分布；然而，在实际应用中，这一假设并不总是成立。这种分布差异可能会导致在新数据集使用训练好的模型时出现严重的性能下降。领域适应（DA）是一种机器学习技术，旨在通过减少领域间的差异来解决这一问题。本文介绍了基于模拟的最近DA技术的算法，主要集中在仅在源领域有标签的无监督领域适应（UDA）上。我们的研究使用公共数据集和多样化特性，比较了这些技术各自的优劣。例如，在我们的模拟中，基于Transformer的领域适应的安全自我精炼（SSRT）在Office-31数据集上达到了最高的准确率（91.6%），但在使用有限批次大小时，准确率降至72.4%。除了提高读者对最近领域适应技术的理解外，我们的研究还指出了该领域的挑战和未来的研究方向。相关代码可在https://github.com/AIPMLab/Domain_Adaptation获取。