LLM2D

摘要

arXiv:2411.07466v2 宣告类型: replace-cross 摘要：最近对LLMs进行核心ference解析的评估显示，传统的输出格式和评价指标未能充分捕捉模型的指代理解能力。为解决这一问题，我们引入了IdentifyMe，这是一种新的提示理解基准，以多项选择题(MCQ)格式呈现，常用于LLM的评估。IdentifyMe包含长篇叙述，并采用启发式方法排除易于识别的提及，从而创建一个更具挑战性的任务。该基准还包括不同类型的提及及其相应实体的精选混合，允许对模型性能进行细致分析。我们在IdentifyMe上评估了闭源和开源LLM，并观察到最先进的亚10B开源模型与闭源模型之间存在显著性能差距（20-30%）。我们观察到，具有有限表层信息的代词提及通常比名词提及更难被模型解析。此外，我们发现当提及在嵌套结构中重叠时，LLM常常会混淆实体。得分最高的模型GPT-4o取得了81.9%的精度，这突显了最先进的LLM的强大指代能力，同时也表明仍有进一步改进的空间。