摘要
arXiv:2502.09933v1 宣布类型: 新
摘要: 归纳推理(IR),从示例中总结规则并应用于新示例的能力,长期以来一直被视为一般智能的基本能力,并受到认知科学和人工智能研究人员的广泛关注。许多基准已被提出以衡量这种能力,特别是对于大型语言模型(LLMs);然而,它们主要集中在少样本(通常少于10个样本)的设置上,并且缺乏对从长上下文中整合大量信息的评估。另一方面,LLMs 的不断增长的上下文长度带来了新的范式—多样本上下文学习(ICL),它通过数百到数千个示例解决新任务,而无需昂贵且低效的微调。然而,大多数多样本评估主要集中在分类(IR的一个非常有限的方面),而流行的长上下文 LLM 任务,如大草堆中的一针(NIAH),很少需要复杂的智能来整合大量信息。为了弥补这两个领域的缺陷,我们提出了 MIR-Bench,这是第一个要求 LLM 通过输入输出示例从底层函数中推导输出的多样本上下文归纳推理基准,这些输入输出示例具有多种数据格式。基于 MIR-Bench,我们研究了归纳推理和多样本 ICL 的许多新型问题,包括对抗错误样本的鲁棒性以及思维链(CoT)的影响,并获得了深入的发现。