LLM2D

摘要

arXiv:2502.11614v1 交叉公告类型摘要：先前的研究表明，区分由大规模语言模型（LLMs）生成的文本与人类撰写的文本极具挑战性，往往还不如随机猜测。为了验证这一发现的通用性，跨越不同语言和领域，我们进行了一个广泛的研究案例，以确定人类检测准确性的上限。在涵盖9种语言和9个领域的16个数据集中，19位标注者实现了平均检测准确性为87.6%，从而挑战了之前的结论。我们发现，人类与机器文本之间的主要差距在于具体性、文化细微之处和多样性。在超过50%的情况下，通过明确解释提示之间的差异可以部分缩小这些差距。然而，我们也发现，当人类无法清楚地识别其来源时，人类并不总是偏好人类撰写的文本。