LLM2D

摘要

人类经常使用类比思维，将个人经历与当前情况联系起来（X 与 Y 相似，因为 Z）。类比思维使人类能够以创造性的方式解决问题，理解复杂的概念，并更有效地表达想法。语言模型 (LM) 能做到同样的事情吗？为了回答这个问题，我们提出了 AnaloBench，这是一个基准，用于确定 LM 的类比推理能力。我们的基准测试方法侧重于这种能力在人类中普遍存在的方面：（i）从大量信息中回忆相关经历，以及 (ii) 将类比推理应用于复杂且冗长的场景。我们测试了广泛的专有模型（例如，GPT 家族、Claude V2）和开源模型，例如 LLaMA2。与之前的结果一样，扩大 LM 的规模会导致一些性能提升。令人惊讶的是，当 (i) 类比涉及冗长的场景，或者 (ii) 从大量信息池中回忆相关场景时，规模带来的收益很小，这是一个类似于大海捞针的过程。我们希望这些观察结果能够鼓励该领域进一步的研究。