LLM2D

摘要

arXiv:2505.05665v1 类别: cross 摘要：大规模语言模型（LLMs）已经在规划、控制和预测等决策任务中展示了跨领域的泛化能力，但它们倾向于产生不安全和不希望的输出，这带来了风险。我们认为，在安全关键场景中检测这些失败是必要的。现有的黑盒方法通常通过识别多个样本之间的不一致来检测幻觉。这些方法通常会引入提示扰动，如打乱细节顺序或生成对抗性输入，他们的直觉是自信的模型应该产生稳定输出。我们首先进行了一项人工案例研究，表明其他形式的干扰（例如，添加噪声或移除传感器细节）会导致LLMs在驾驶环境中产生幻觉。然后，我们提出了一个使用自适应压力测试（AST）结合蒙特卡洛树搜索（MCTS）来高效搜索提示扰动空间的新方法。我们的AST公式使得能够发现导致语言模型高度不确定的场景和提示。通过在多种场景中生成MCTS提示扰动树，我们展示了离线分析可以用于运行时自动生成影响模型不确定性的提示，并为LLM提供实时信任评估信息。