摘要
人类经常使用类比思维,将个人经历与当前情况联系起来(X 与 Y 相似,因为 Z)。类比思维使人类能够以创造性的方式解决问题,理解复杂的概念,并更有效地表达想法。语言模型 (LM) 能做到同样的事情吗?为了回答这个问题,我们提出了 AnaloBench,这是一个基准,用于确定 LM 的类比推理能力。我们的基准测试方法侧重于这种能力在人类中普遍存在的方面:(i)从大量信息中回忆相关经历,以及 (ii) 将类比推理应用于复杂且冗长的场景。我们测试了广泛的专有模型(例如,GPT 家族、Claude V2)和开源模型,例如 LLaMA2。与之前的结果一样,扩大 LM 的规模会导致一些性能提升。令人惊讶的是,当 (i) 类比涉及冗长的场景,或者 (ii) 从大量信息池中回忆相关场景时,规模带来的收益很小,这是一个类似于大海捞针的过程。我们希望这些观察结果能够鼓励该领域进一步的研究。