LLM2D

摘要

arXiv:2503.10652v2 宣告类型: 交叉替换摘要：消费者偏好调查研究在研究中发挥着关键作用，通过捕捉消费者偏好并指导政策决策。声明偏好（SP）调查帮助研究人员理解个体在假设的、可能的未来场景中的权衡行为。然而，传统方法成本高、耗时，并受到受访者疲劳和伦理限制的影响。大型语言模型（LLMs）展示了生成人类答复的显著能力，引发了它们在调查研究中的应用兴趣。本研究探讨了LLMs在能源相关SP调查中模拟消费者选择的应用，并探索了其与数据收集和分析流程的集成。设计了测试场景来评估几种LLMs（LLaMA 3.1、Mistral、GPT-3.5、DeepSeek-R1）在个体和聚合层次上的模拟性能，考虑了提示设计、上下文学习（ICL）、链式思考（CoT）推理、模型类型、与传统选择模型的集成以及潜在偏差。虽然LLMs在准确性上超过随机猜测，但其性能仍不足以用于实际的模拟用途。基于云的LLMs并不始终优于较小的本地模型。DeepSeek-R1获得最高的平均准确性（77%），在准确性、因素识别和选择分布对齐方面优于非推理LLMs。先前的SP选择是最有效的输入；更长的提示包含更多因素会降低准确性。混合逻辑模型可以支持LLM提示的进一步细化。具有推理能力的LLMs在数据分析方面具有潜力，可以通过指示因素的重要性，为统计模型提供定性补充。尽管存在局限性，预训练的LLMs提供了可扩展性，并且需要较少的历史数据。未来的工作应进一步优化提示，探索更深入的CoT推理，并研究微调技术。