LLM2D

摘要

arXiv:2405.02228v3 通告类型: replace-cross 摘要：大型语言模型（LLMs）为科学通信中的自动引用来源提供了令人鼓舞但充满挑战的前景。之前的方法在引用生成中受限于引用歧义和LLM的过度泛化。我们介绍了REASONS，这是一个包含12个科学领域（来自arXiv）句级注释的新颖数据集。我们的评估框架涵盖了两种关键的引用场景：间接查询（匹配句子到论文标题）和直接查询（作者归属），并且都增强了上下文元数据。我们使用模型如GPT-O1、GPT-4O、GPT-3.5、DeepSeek以及一些较小的模型Perplexity AI（7B）进行了广泛的实验。虽然顶级的LLM在句子归属上表现出色，但在幻觉率方面存在困难，这是科学可靠性的关键指标。我们的增强元数据方法在所有任务中减少了幻觉率，为改进提供了有希望的方向。利用Mistral进行检索增强生成（RAG）在间接查询中提高了性能，幻觉率降低了42%，同时保持与大模型竞争力的精度。然而，对抗性测试揭示了将论文标题链接到摘要的挑战，指出了当前LLM的基础局限性。REASONS为开发可靠和可信赖的LLMs在科学应用中的发展提供了具有挑战性的基准。