LLM2D

摘要

当大型语言模型 (LLM) 准确地聚合相关信息时，推理能力最为强大。我们通过要求 LLM 分析体育叙事来检验信息聚合在推理中的关键作用。为了成功完成这项任务，LLM 必须从行动中推断出得分，识别相关实体，准确地将得分归因于球员和球队，并汇集关键统计数据以得出结论。我们使用真实的 NBA 篮球数据进行了全面的实验，并提出了 SportsGen，一种合成比赛叙事的新方法。通过合成数据，我们可以严格评估 LLM 在具有不同叙事长度和信息密度的复杂场景下的推理能力。我们的研究结果表明，大多数模型，包括 GPT-4o，由于频繁的得分模式，往往无法准确地聚合篮球得分。开源模型如 Llama-3 进一步遭受了严重的得分幻觉。最后，推理的有效性受叙事复杂性、信息密度和特定领域术语的影响，突出了分析推理任务中的挑战。