摘要
arXiv:2504.00374v1 类别: cross
摘要: 在许多现实场景中,单个大规模语言模型(LLM)可能会遇到相互矛盾的声明——一些是准确的,另一些则坚决地不正确——并必须判断哪一个是真实的。我们在一种单轮多智能体辩论框架中研究这种风险:一个基于LLM的智能体提供来自TruthfulQA的真实答案,另一个则极力辩护一个错误的陈述,而相同的LLM架构作为裁判。我们引入了置信加权说服覆盖率(CW-POR),该指标不仅捕获了裁判被误导的频率,还捕获了其对错误选择的强烈程度。我们在五个开源LLM(3B-14B参数)上进行的实验,系统地变化了智能体的语.amount(30-300词),揭示了即使是较小的模型也能构建出说服力强的论据来覆盖真实答案——通常是有高置信度的。这些发现强调了进行稳健校准和对抗性测试的重要性,以防止LLM自信地推广不实信息。