LLM2D

摘要

arXiv:2502.10266v1 宣告类型：交叉学科摘要：从人类参与者获取数据是经验语言学研究中核心的数据收集策略之一。这类研究中的参与者数量可能差别很大，从几个到大规模 crowdsourcing 数据量不等。尽管这两种方法都能提供大量资源丰富的数据，但它们仍然伴随着许多缺点，如任务完成时参与者注意力控制低、众包环境中工作条件差、以及耗时的实验设计。鉴于此，本研究旨在探讨大型语言模型（LLMs）是否可以在经验语言学管道中克服这些障碍。我们进行了两个再现案例研究以对此问题进行澄清：Cruz (2023) 和 Lombard et al. (2021)。原始为人类参与者设计的两个强制性语言获取任务在提出的框架中通过使用 OpenAI 的 GPT-4o-mini 模型进行了再现。其在零-shot 提示基线上的表现显示了 LLMs 的有效性及其高度的适用性，这些模型倾向于在语言任务中超越人类报告员。第二轮再现研究的发现进一步强调了探索更多提示技术的需求，如思维过程链（CoT）提示。在随后的跟进实验中，CoT 提示显示出更高的与人类表现一致的性能，包括关键项目和填充项目。鉴于本研究规模有限，有必要进一步探索 LLMs 在经验语言学及其他人文学科未来应用中的性能。