摘要
arXiv:2504.14640v1 宣布类型: cross
摘要: 先验训练范式在大型语言模型 (LLMs) 的成功中扮演着关键角色,这些模型被认为是最近 AI 领域最重要的进步之一。在这些突破的基础上,具有高级编码能力的代码 LLMs 对软件工程产生了巨大影响,显示出成为开发人员日常工作不可或缺的一部分的趋势。然而,当前的代码 LLMs 仍然面临信任方面的一些严重挑战,因为它们可以生成不正确、不安全或不可靠的代码。最近的探索性研究表明,通过分析 LLMs 的内部状态来检测此类风险输出是可行的,类似于人类大脑无意识地识别自己的错误。然而,大多数这些方法都局限于 LLM 操作的狭窄子领域,并且无法实现行业级别的可扩展性和实用性。为了解决这些挑战,本文提出了一种名为 PtTrust 的两阶段风险评估框架,该框架基于内部状态先验训练设计,旨在与软件公司的现有基础设施无缝集成。核心思想是,风险评估框架也可以经历一个类似于 LLMs 的先验训练过程。具体来说,PtTrust 首先在大规模未标记源代码上进行无监督先验训练,以学习 LLM 状态的一般表示。然后,它使用一个较小的标记数据集来训练一个风险预测器。我们通过细粒度的、代码行级别的风险评估展示了 PtTrust 的有效性,并证明了它在不同的任务和编程语言中具有泛化能力。进一步的实验还表明,PtTrust 提供了高度直观和可解释的特征,增强了用户信任。我们相信,PtTrust 向代码 LLMs 的可扩展和值得信赖的保障迈出了一步。