摘要
arXiv:2410.23166v2 通知类型: replace-cross
摘要:大规模语言模型(LLMs)的快速进步为自动化提出创新性科学理念开辟了新的可能性。这一过程涉及两个关键阶段:文献检索和理念生成。然而,现有的方法往往由于检索阶段依赖关键词搜索工具而受到限制,这些工具忽视了重要的语义信息,并经常导致不完整的检索结果。类似地,在理念生成阶段,当前的方法倾向于仅依赖LLMs的内部知识或检索出的论文的元数据,从而忽视了包含在全文中的大量有价值见解。为了解决这些限制,我们引入了SciPIP,这是一种创新框架,旨在通过在文献检索和理念生成两方面的改进,增强基于LLMs的科学研究理念提出能力。我们的方法首先构建了一个全面的文献数据库,支持基于关键词、语义和引用关系的高级检索。此外,我们引入了多粒度检索算法,以确保更彻底和详尽的检索结果。在理念生成阶段,我们提出了一种双路径框架,有效地结合了检索出的论文内容和LLMs的广泛内部知识。这种结合极大地提高了提出理念的新颖性、可行性和实用性。我们在自然语言处理和计算机视觉等多个领域进行的实验表明,SciPIP能够生成多种创新性和实用性强的理念。这些发现突显了SciPIP作为研究人员发明突破性概念的宝贵工具的潜力。