LLM2D
基于自然语言处理技术和大型语言模型增强检索生成的自动化文献综述
Automated Literature Review Using NLP Techniques and LLM-Based Retrieval-Augmented Generation
作者: Nurshat Fateh Ali, Md. Mahdi Mohtasim, Shakil Mosharrof, T. Gopi Krishna
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.18583v1

摘要

本研究提出并比较了多种利用自然语言处理 (NLP) 技术和基于大型语言模型 (LLM) 的检索增强生成 (RAG) 自动生成文献综述的方法。研究论文数量的不断增长给手动撰写文献综述带来了巨大的挑战,从而增加了对自动化的需求。本研究的主要目标是开发一个能够仅从 PDF 文件作为输入自动生成文献综述的系统。为了实现这一主要目标,我们评估了几种自然语言处理 (NLP) 策略的有效性,例如基于频率的方法 (spaCy)、Transformer 模型 (Simple T5) 和基于大型语言模型 (GPT-3.5-turbo) 的检索增强生成 (RAG)。本研究实验选择了 SciTLDR 数据集,并利用三种不同的技术实现了三个不同的自动生成文献综述的系统。我们使用 ROUGE 分数对所有三个系统进行评估。评估结果表明,大型语言模型 GPT-3.5-turbo 取得了最高的 ROUGE-1 分数,为 0.364。Transformer 模型位居第二,spaCy 排在最后。最后,我们为基于大型语言模型的最佳系统创建了一个图形用户界面。