LLM2D

摘要

arXiv:2409.14324v1 公告类型: 交叉摘要: 配备链式思维(CoT)提示的大型语言模型(LLMs)在数学、常识和逻辑等事实内容中展示了显著的多步骤推理能力。然而,它们在叙事推理中的表现,这种推理需要更强的抽象能力,仍未被探索。本研究利用电影剧情简介中的套路来评估最先进LLMs的抽象推理能力,并发现其表现不佳。我们引入了一种套路化的查询方法来应对这些挑战,并将F1分数提高了11.8分。此外,尽管先前的研究表明CoT增强了多步骤推理,但本研究发现CoT会在叙事内容中产生幻觉,降低了GPT-4的性能。我们还引入了一种对抗性注入方法,将套路相关的文本标记嵌入到没有明确套路的电影剧情简介中,揭示了CoT对这种注入的高度敏感性。我们的全面分析为未来的研究方向提供了见解。