LLM2D

摘要

arXiv:2410.14582v4 通知类型: 替换摘要: 大型语言模型（LLMs）在各个领域可以成为有价值的个人AI代理，前提是它们能够精确地遵循用户指令。然而，最近的研究表明，LLMs在遵循指令方面的局限性很大，这引发了对其在高风险应用中的可靠性的担忧。准确估计LLMs在遵循指令时的不确定性对于减少部署风险至关重要。我们提出了一项迄今为止最系统的评估LLMs在指令遵循背景下不确定性估计能力的研究。我们的研究指出了现有指令遵循基准存在的关键挑战，其中多个因素交织在一起，使不确定性来源复杂化，从而难以在方法和模型之间进行隔离和比较。为了解决这些问题，我们引入了一个受控评估框架，包含两个基准版本的数据，这使得在各种条件下可以全面比较不确定性估计方法。我们的发现表明，现有的不确定性方法在模型在指令遵循方面犯细微错误时尤其难以应对。虽然内部模型状态提供了一些改进，但在更复杂的情况下仍显不足。我们受控评估框架的见解为理解LLMs在指令遵循任务中的局限性和潜在的不确定性估计提供了关键理解，为进一步开发更可信赖的AI代理铺平了道路。