LLM2D

摘要

arXiv:2503.22353v1 类别:交叉学科摘要：大规模语言模型（LLMs）在各种任务中展现了令人瞩目的能力，但在高风险领域中的部署要求模型在多轮交互中保持一致的性能。本文引入了一个全面的框架来评估和提高LLM响应的一致性，做出了三项关键贡献。首先，我们提出了一种新颖的位置加权一致性（PWC）分数，该分数捕捉了多轮交互中早期阶段稳定性和恢复模式的重要性。其次，我们提出了一个精心策划的基准数据集，涵盖了多样化的领域和难度级别，专门设计用于在各种具有挑战性的后续场景下评估LLM的一致性。第三，我们引入了基于置信度的响应生成（CARG）框架，该框架通过将模型置信度信号整合到生成过程中，显著提高了响应的一致性。实验证明，CARG在不牺牲准确性的情况下显著提高了响应的一致性，突显了其在关键应用中可靠部署的潜力。