LLM2D

摘要

通常，在评估心理理论时，我们考虑他人的信念是二元的：持有或未持有。但如果某人对自己的信念不确定呢？我们如何量化这种不确定性？我们提出了一套新的任务，挑战语言模型（LMs）在对话中模拟他人的不确定性。我们围绕对话预测设计了这些任务，其中代理预测对话中未观察到的结果。独特的是，我们将对话者本身视为预测者，要求LM预测对话者的不确定性（概率）。我们在这个回归任务中实验了重新缩放方法、方差减少策略和人口统计背景，并在三个对话语料库（社交、谈判、任务导向）上对八个LM进行了实验。尽管LM可以解释他人不确定性中高达7%的方差，但我们强调了任务的难度和未来工作的空间，特别是在实际应用中，如预测“虚假”。