摘要
arXiv:2501.06370v2 宣布类型: 修改交叉引用
摘要:确保大型语言模型(LLM)驱动系统的可靠性和可验证性仍然是软件工程中的一个重要挑战。我们提出了一种概率框架,通过建模和细化语义等效输出的簇分布,系统地分析和改进这些系统。该框架促进了对Transference Models的评估和迭代改进,这些模型利用LLM将输入转换为下游任务所需的输出。为了证明其适用性,我们将该框架应用于自然语言文档自形式化问题,即将自然语言文档转换为正式的程序规范。我们的案例研究说明了基于分布的分析如何识别弱点并指导集中化对齐改进,从而产生更可靠和可解释的输出。这种原则性的方法为应对鲁棒的LLM驱动系统开发中的关键挑战提供了基础。