LLM2D

摘要

arXiv:2401.13835v2 宣告类型：替换交叉摘要：随着人工智能（AI）系统，特别是大型语言模型（LLMs），越来越多地融入决策过程，信任它们的输出变得至关重要。为了赢得人类的信任，LLMs 必须校准得当，使其能够准确评估并传达其预测正确性的可能性。虽然近期的研究主要集中在LLMs的内部置信度上，但人们对于它们如何有效地向用户传达不确定性知之甚少。在这里，我们探讨了校准差距，即人类对LLM生成答案的信心与模型实际信心之间的差异，以及区分差距，即人类和模型区分正确和错误答案的能力。我们的实验结果表明，当提供默认解释时，用户往往会高估LLM回复的准确性。此外，更长的解释会增加用户的信心，即使额外的长度并未提高答案的准确性。通过调整LLM解释以更好地反映模型的内部信心，校准差距和区分差距均有所减小，显著提升了用户对LLM准确性的感知。这些发现强调了准确传达不确定性的的重要性，并突显了解释长度对影响用户在AI辅助决策环境中的信任程度的影响。代码和数据可以在 https://osf.io/y7pr6/ 找到。研究论文可以在Nature Machine Intelligence上找到，网址为 https://www.nature.com/articles/s42256-024-00976-7 。