摘要
arXiv:2411.07279v2 宣布类型: 替换
摘要:语言模型(LMs)在训练分布内的任务上显示出令人印象深刻的性能,但在面对结构性新颖的任务时,即使给予了少量的上下文任务示例,也常常表现不佳。我们研究了测试时训练(TTT)——在推断过程中通过来自输入数据的损失暂时更新模型参数——作为一种提高LMs推理和少样本学习能力机制的有效性。在Abstraction and Reasoning Corpus (ARC) 上,使用上下文示例执行TTT比细调的基本模型最高可获得6倍的准确率提升——在带有8B参数的LM上达到了53.0%,与程序合成方法ensemble后达到了61.9%,与平均的人类表现相当。在BIG-Bench Hard (BBH) 上,使用上下文示例进行TTT在10-shot设置中的表现比标准少样本提示高出7.3个百分点(从50.5%提高到57.8%)。我们的发现突显了上下文学习在新颖任务上的局限性,并展示了测试时训练增强语言模型适应性的潜力。