LLM2D

摘要

arXiv:2411.07279v2 宣布类型: 替换摘要：语言模型（LMs）在训练分布内的任务上显示出令人印象深刻的性能，但在面对结构性新颖的任务时，即使给予了少量的上下文任务示例，也常常表现不佳。我们研究了测试时训练（TTT）——在推断过程中通过来自输入数据的损失暂时更新模型参数——作为一种提高LMs推理和少样本学习能力机制的有效性。在Abstraction and Reasoning Corpus (ARC) 上，使用上下文示例执行TTT比细调的基本模型最高可获得6倍的准确率提升——在带有8B参数的LM上达到了53.0%，与程序合成方法ensemble后达到了61.9%，与平均的人类表现相当。在BIG-Bench Hard (BBH) 上，使用上下文示例进行TTT在10-shot设置中的表现比标准少样本提示高出7.3个百分点（从50.5%提高到57.8%）。我们的发现突显了上下文学习在新颖任务上的局限性，并展示了测试时训练增强语言模型适应性的潜力。