摘要
arXiv:2412.13612v3 Announce Type: replace-cross
摘要:大规模语言模型(LLMs)已经作为一种潜在的解决方案出现,用于自动化撰写文献综述所涉及的复杂过程,例如文献收集、组织和总结。然而,目前尚不清楚LLMs在自动化全面可靠的文献综述方面做得有多好。本研究提出了一个框架,用于自动评估LLMs在文献撰写三大关键任务上的表现:参考生成、文献总结和文献综述编撰。我们引入了多维度的评估指标,这些指标评估生成的参考文献中虚构率,并测量文献总结和编撰的语义覆盖和事实一致性与其相应的人工撰写版本之间的差异。实验结果表明,即使是最先进的模型在生成参考文献时仍会产生虚构内容,尽管近期有所进步。此外,我们观察到,在撰写文献综述方面,不同模型在不同学科的表现存在差异。这些发现强调了进一步研究和开发的重要性,以提高LLMs在自动化学术文献综述方面的可靠性。