LLM2D

摘要

arXiv:2504.14640v1 宣布类型: cross 摘要: 先验训练范式在大型语言模型 (LLMs) 的成功中扮演着关键角色，这些模型被认为是最近 AI 领域最重要的进步之一。在这些突破的基础上，具有高级编码能力的代码 LLMs 对软件工程产生了巨大影响，显示出成为开发人员日常工作不可或缺的一部分的趋势。然而，当前的代码 LLMs 仍然面临信任方面的一些严重挑战，因为它们可以生成不正确、不安全或不可靠的代码。最近的探索性研究表明，通过分析 LLMs 的内部状态来检测此类风险输出是可行的，类似于人类大脑无意识地识别自己的错误。然而，大多数这些方法都局限于 LLM 操作的狭窄子领域，并且无法实现行业级别的可扩展性和实用性。为了解决这些挑战，本文提出了一种名为 PtTrust 的两阶段风险评估框架，该框架基于内部状态先验训练设计，旨在与软件公司的现有基础设施无缝集成。核心思想是，风险评估框架也可以经历一个类似于 LLMs 的先验训练过程。具体来说，PtTrust 首先在大规模未标记源代码上进行无监督先验训练，以学习 LLM 状态的一般表示。然后，它使用一个较小的标记数据集来训练一个风险预测器。我们通过细粒度的、代码行级别的风险评估展示了 PtTrust 的有效性，并证明了它在不同的任务和编程语言中具有泛化能力。进一步的实验还表明，PtTrust 提供了高度直观和可解释的特征，增强了用户信任。我们相信，PtTrust 向代码 LLMs 的可扩展和值得信赖的保障迈出了一步。