LLM2D

摘要

arXiv:2504.20168v1 类型: cross 摘要: 在世界中行动的工具使用代理既需要有用也需要安全。校准良好的模型置信度可用于衡量潜在行动的风险与回报之间的权衡，但先前的研究显示许多模型的置信度校准较差。受探索模型内部机制的可解释性文献启发，我们提出了一种新的模型内部置信度估算器（MICE）类，以更好地评估调用工具时的置信度。MICE 首先使用 logitLens 解码语言模型的每个中间层，然后计算每层生成内容与最终输出之间的相似性分数。这些特征被输入一个学习的概率分类器，以评估解码输出的置信度。在使用 Llama3 模型的模拟试错（STE）工具调用数据集上，我们发现 MICE 在平滑化预期校准误差上优于或匹配了基线。使用 MICE 置信度来决定是否调用工具在新的预期工具调用效用度量上显著优于强基线。进一步的实验证明，MICE 是样本高效的，可以泛化到未见过的API，并在风险水平变化的场景中提高了工具调用效用。我们的代码是开源的，可在 https://github.com/microsoft/mice_for_cats 获取。