LLM2D
一种用于数据科学中学术文献导航的检索增强生成框架
A Retrieval-Augmented Generation Framework for Academic Literature Navigation in Data Science
作者: Ahmet Yasin Aytar, Kemal Kilic, Kamer Kaya
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2412.15404v1

摘要

arXiv:2412.15404v1 Announce Type: cross 摘要:在数据科学这一快速发展的领域中,有效地导航浩瀚的学术文献对于做出明智的决策和推动创新至关重要。本文介绍了一种增强的检索增强生成(RAG)应用程序,这是一种基于人工智能(AI)的系统,旨在帮助数据科学家访问精确且上下文相关性的学术资源。该AI驱动的应用程序结合了先进的技术,包括用于提取文献信息的GeneRation Of Bibliographic Data(GROBID)技术、微调的嵌入模型、语义切片以及摘要优先的检索方法,以显著提高检索信息的相关性和准确性。本AI实施特别解决了学术文献导航的挑战。使用检索增强生成评估系统(RAGAS)框架进行全面评估,显示了关键指标上的显著改善,特别是在上下文相关性方面,突显了该系统在减少信息过载并增强决策过程方面的有效性。我们的研究结果强调了这种增强的RAG系统在数据科学领域内进行学术探索的潜力,最终促进了研究和创新的工作流程。