LLM2D
稳重还是多变?评估大型语言模型在连续互动中的一致性
Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions
作者: Yubo Li, Yidi Miao, Xueying Ding, Ramayya Krishnan, Rema Padman
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22353v1

摘要

arXiv:2503.22353v1 类别:交叉学科 摘要:大规模语言模型(LLMs)在各种任务中展现了令人瞩目的能力,但在高风险领域中的部署要求模型在多轮交互中保持一致的性能。本文引入了一个全面的框架来评估和提高LLM响应的一致性,做出了三项关键贡献。首先,我们提出了一种新颖的位置加权一致性(PWC)分数,该分数捕捉了多轮交互中早期阶段稳定性和恢复模式的重要性。其次,我们提出了一个精心策划的基准数据集,涵盖了多样化的领域和难度级别,专门设计用于在各种具有挑战性的后续场景下评估LLM的一致性。第三,我们引入了基于置信度的响应生成(CARG)框架,该框架通过将模型置信度信号整合到生成过程中,显著提高了响应的一致性。实验证明,CARG在不牺牲准确性的情况下显著提高了响应的一致性,突显了其在关键应用中可靠部署的潜力。