LLM2D

摘要

arXiv:2504.02767v1 宣告类型: cross 摘要：科学知识的传播取决于研究人员如何发现和引用先前的工作。大型语言模型（LLMs）在科学研究过程中的采用为这些引用惯例引入了一层新的元素。然而，仍然不清楚LLMs在多大程度上与人类的引用惯例一致，在不同领域中表现如何，以及它们如何影响引用动态。在这里，我们展示了LLMs系统地强化了引文过程中的马太效应，即在生成参考文献时始终倾向于引用高引用次数的文章。这一模式在各个科学领域中保持一致，尽管各个领域在存在率上存在显著差异，而存在率是指生成的参考文献中与外部引文计量数据库中现有记录匹配的比例。分析GPT-4o为10,000篇论文生成的274,951个参考文献，我们发现LLM的推荐与传统的引用模式有所不同，更偏好较新的标题较短和作者较少的参考文献。通过强调内容相关的程度，生成的参考文献在语义上与每篇论文的内容相似，显示相似的网络效应，同时减少了作者自我引用。这些发现说明了LLMs如何可能重新塑造引用惯例，通过反映和放大现有的趋势来影响科学发现的轨迹。随着LLMs在科学研究过程中更加集成，理解它们在塑造科学社区发现和利用先前工作方面的作用变得尤为重要。