LLM2D

摘要

arXiv:2501.10970v2 宣布类型: 替换-交叉摘要: "LLM作为裁判"范式利用大型语言模型（LLMs）作为传统上由人类执行的任务中的标注者和评估者。LLM的标注被广泛使用，不仅在自然语言处理研究中，还在医学、心理学和社会科学等领域中。尽管LLM在塑造研究结果和见解方面发挥着重要作用，但尚无标准或严谨的程序来确定LLM是否能够取代人类标注者。在这篇论文中，我们提出了一种新的统计程序——替代标注者测试（alt-test），只需要少量标注示例即可证明使用LLM标注的有效性。此外，我们还介绍了用于比较LLM裁判的灵活且可解释的度量标准。为了展示我们的程序，我们收集了十个多样化的数据集，包括语言和多模态任务，并使用六种LLM和四种提示技术进行了实验。结果表明，有时可以使用闭源LLM（例如GPT-4o）来替代人类，表现出色，并且提示技术可以产生不同质量的裁判。我们希望这项研究能够鼓励更加严谨和可靠的做法。