LLM2D
推理与信息聚合的融合:以体育叙事为例
When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives
作者: Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Wenlin Yao, Hassan Foroosh, Dong Yu, Fei Liu
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2406.12084v2

摘要

当大型语言模型 (LLM) 准确地聚合相关信息时,推理能力最为强大。我们通过要求 LLM 分析体育叙事来检验信息聚合在推理中的关键作用。为了成功完成这项任务,LLM 必须从行动中推断出得分,识别相关实体,准确地将得分归因于球员和球队,并汇集关键统计数据以得出结论。我们使用真实的 NBA 篮球数据进行了全面的实验,并提出了 SportsGen,一种合成比赛叙事的新方法。通过合成数据,我们可以严格评估 LLM 在具有不同叙事长度和信息密度的复杂场景下的推理能力。我们的研究结果表明,大多数模型,包括 GPT-4o,由于频繁的得分模式,往往无法准确地聚合篮球得分。开源模型如 Llama-3 进一步遭受了严重的得分幻觉。最后,推理的有效性受叙事复杂性、信息密度和特定领域术语的影响,突出了分析推理任务中的挑战。