LLM2D

摘要

arXiv:2502.12064v1 类别:跨领域摘要：大规模语言模型（LLMs）的兴起促进了先进自然语言处理（NLP）应用程序的性能提高和开发。然而，这些模型在恶意使用时也可能带来风险，例如传播假新闻、传播有害内容、冒充个人或帮助学术抄袭等。这是因为LLMs能够生成高质量的文本，这些文本难以与人类撰写的文本区分开来。GLTR，即大型语言模型测试间，是由MIT-IBM Watson AI Lab和HarvardNLP共同开发的一种视觉工具，旨在基于GPT-2检测机器生成的文本，并根据文本中词语被机器生成的概率来突出显示这些词语。GLTR的一个局限性是，它返回的结果有时会模糊不清，导致混淆。这项研究旨在探索在IberLef-AuTexTification 2023共享任务中改进GLTR检测AI生成文本有效性的各种方法，涵盖英语和西班牙语。实验结果表明，基于GLTR的GPT-2模型在英语数据集上的宏观F1分数为80.19%，仅落后于排名第一的模型（80.91%）。然而，在西班牙语数据集上，我们获得了66.20%的宏观F1分数，与表现最好的模型相差4.57%。