LLM2D
基于自然语言处理和大型语言模型,评估经济研究论文标题去重技术的语义相似性研究
Evaluating Deduplication Techniques for Economic Research Paper Titles with a Focus on Semantic Similarity using NLP and LLMs
作者: Doohee You, Karim Lasri, Samuel Fraiberger
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01141v1

摘要

本研究探讨了针对大型经济学研究论文标题的自然语言处理数据集的有效去重技术。我们探索了各种配对方法以及已建立的距离度量(莱文斯坦距离、余弦相似度)和 sBERT 模型用于语义评估。我们的发现表明,基于不同方法观察到的语义相似性,重复项的潜在发生率可能较低。为了更全面地评估,我们使用人工标注的真实数据集进行了进一步探索。结果支持从 NLP、基于 LLM 的距离度量得出的发现。