摘要
arXiv:2411.07466v2 宣告类型: replace-cross
摘要:最近对LLMs进行核心ference解析的评估显示,传统的输出格式和评价指标未能充分捕捉模型的指代理解能力。为解决这一问题,我们引入了IdentifyMe,这是一种新的提示理解基准,以多项选择题(MCQ)格式呈现,常用于LLM的评估。IdentifyMe包含长篇叙述,并采用启发式方法排除易于识别的提及,从而创建一个更具挑战性的任务。该基准还包括不同类型的提及及其相应实体的精选混合,允许对模型性能进行细致分析。我们在IdentifyMe上评估了闭源和开源LLM,并观察到最先进的亚10B开源模型与闭源模型之间存在显著性能差距(20-30%)。我们观察到,具有有限表层信息的代词提及通常比名词提及更难被模型解析。此外,我们发现当提及在嵌套结构中重叠时,LLM常常会混淆实体。得分最高的模型GPT-4o取得了81.9%的精度,这突显了最先进的LLM的强大指代能力,同时也表明仍有进一步改进的空间。