摘要
arXiv:2502.11614v1 交叉公告类型
摘要:先前的研究表明,区分由大规模语言模型(LLMs)生成的文本与人类撰写的文本极具挑战性,往往还不如随机猜测。为了验证这一发现的通用性,跨越不同语言和领域,我们进行了一个广泛的研究案例,以确定人类检测准确性的上限。在涵盖9种语言和9个领域的16个数据集中,19位标注者实现了平均检测准确性为87.6%,从而挑战了之前的结论。我们发现,人类与机器文本之间的主要差距在于具体性、文化细微之处和多样性。在超过50%的情况下,通过明确解释提示之间的差异可以部分缩小这些差距。然而,我们也发现,当人类无法清楚地识别其来源时,人类并不总是偏好人类撰写的文本。