摘要
arXiv:2502.03711v1 Announce Type: 横向
摘要:机构采用大型语言模型(LLMs)的过程中面临的一个关键挑战在于它们生成响应时倾向于产生虚构内容。为解决这一问题,我们提出了一种名为 MultiQ&A 的系统性方法,用于评估 LLM 生成答案的稳健性和一致性。我们展示了 MultiQ&A 能够大规模利用独立的 LLM 代理来众包问题扰动及其相应的答案。我们的实验共分析了 190 万个问题扰动和 230 万个答案。此外,MultiQ&A 显示出,在扰动条件下,如 gpt-3.5-turbo 等集成 LLM 仍保持相对稳健和一致。MultiQ&A 为响应生成空间提供了清晰度,提供了一种有效的方法来检查分歧和变化。因此,我们的系统为机构 LLM 采用提供了潜在框架,能够度量信心、一致性和虚构内容的量化。