LLM2D

摘要

对于表格数据集，由于缺失变量（也称为混杂因素），标签和协变量之间的关系变化（$Y|X$ 偏移）很常见。由于无法泛化到完全未知的新领域，我们研究了即使在只有少量标记示例的情况下也易于适应目标领域的模型。我们专注于构建更具信息量的表格数据表示，以减轻 $Y|X$ 偏移，并建议通过序列化（写下）表格数据将其编码来利用 LLM 中的先验世界知识。我们发现 LLM 嵌入本身在鲁棒性方面提供了不一致的改进，但使用它们训练的模型即使使用 32 个标记观察结果也可以很好地适应/微调到目标领域。我们的发现基于一项全面且系统的研究，该研究包含 7650 个源目标对，并以 22 种算法训练的 261,000 个模型配置为基准。当消融可访问目标数据的大小和不同的适应策略时，我们的观察结果仍然成立。代码可在 https://github.com/namkoong-lab/LLM-Tabular-Shifts 获取。