LLM2D
使用大型语言模型模拟和分析人类调查回应:一项关于能源偏好声明的研究案例
Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference
作者: Han Wang, Jacek Pawlak, Aruna Sivakumar
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2503.10652v2

摘要

arXiv:2503.10652v2 宣告类型: 交叉替换 摘要:消费者偏好调查研究在研究中发挥着关键作用,通过捕捉消费者偏好并指导政策决策。声明偏好(SP)调查帮助研究人员理解个体在假设的、可能的未来场景中的权衡行为。然而,传统方法成本高、耗时,并受到受访者疲劳和伦理限制的影响。大型语言模型(LLMs)展示了生成人类答复的显著能力,引发了它们在调查研究中的应用兴趣。本研究探讨了LLMs在能源相关SP调查中模拟消费者选择的应用,并探索了其与数据收集和分析流程的集成。设计了测试场景来评估几种LLMs(LLaMA 3.1、Mistral、GPT-3.5、DeepSeek-R1)在个体和聚合层次上的模拟性能,考虑了提示设计、上下文学习(ICL)、链式思考(CoT)推理、模型类型、与传统选择模型的集成以及潜在偏差。虽然LLMs在准确性上超过随机猜测,但其性能仍不足以用于实际的模拟用途。基于云的LLMs并不始终优于较小的本地模型。DeepSeek-R1获得最高的平均准确性(77%),在准确性、因素识别和选择分布对齐方面优于非推理LLMs。先前的SP选择是最有效的输入;更长的提示包含更多因素会降低准确性。混合逻辑模型可以支持LLM提示的进一步细化。具有推理能力的LLMs在数据分析方面具有潜力,可以通过指示因素的重要性,为统计模型提供定性补充。尽管存在局限性,预训练的LLMs提供了可扩展性,并且需要较少的历史数据。未来的工作应进一步优化提示,探索更深入的CoT推理,并研究微调技术。