摘要
arXiv:2405.02228v3 通告类型: replace-cross
摘要:大型语言模型(LLMs)为科学通信中的自动引用来源提供了令人鼓舞但充满挑战的前景。之前的方法在引用生成中受限于引用歧义和LLM的过度泛化。我们介绍了REASONS,这是一个包含12个科学领域(来自arXiv)句级注释的新颖数据集。我们的评估框架涵盖了两种关键的引用场景:间接查询(匹配句子到论文标题)和直接查询(作者归属),并且都增强了上下文元数据。我们使用模型如GPT-O1、GPT-4O、GPT-3.5、DeepSeek以及一些较小的模型Perplexity AI(7B)进行了广泛的实验。虽然顶级的LLM在句子归属上表现出色,但在幻觉率方面存在困难,这是科学可靠性的关键指标。我们的增强元数据方法在所有任务中减少了幻觉率,为改进提供了有希望的方向。利用Mistral进行检索增强生成(RAG)在间接查询中提高了性能,幻觉率降低了42%,同时保持与大模型竞争力的精度。然而,对抗性测试揭示了将论文标题链接到摘要的挑战,指出了当前LLM的基础局限性。REASONS为开发可靠和可信赖的LLMs在科学应用中的发展提供了具有挑战性的基准。