LLM2D

摘要

arXiv:2409.09045v2 宣告类型: replace-cross 摘要："基于大规模语言模型（LLMs）的合成样本"被论为可以作为人类调查的高效替代品，前提是它们的训练数据包含了关于人类态度和行为的信息。然而，LLM合成样本可能表现出偏差，例如，由于训练数据和微调过程可能无法代表多样化的背景。这种偏差有可能加强现有研究、政策制定和社会中的偏差。因此，研究人员需要调查LLM生成的合成样本在什么情况下以及在何种条件下可以用于公众意见预测。在本研究中，我们通过预测2024年欧洲议会选举的结果来考察基于LLM的个体公众意见预测在多大程度上表现出上下文相关的偏差。我们向三个LLM提供了26,000名合格欧洲选民的个体背景信息，并要求它们预测每个人的投票行为。通过将其与实际结果进行比较，我们展示了基于LLM的对未来投票行为的预测大多失败，其准确性在国家和语言背景下分布不均，并且需要在提示中包含详细的态度信息。研究结果强调了LLM合成样本在公众意见预测中的有限适用性。通过探讨它们的上下文偏差，本研究促进了对LLM及其在计算社会学中应用中的不平等现象的理解和缓解。