LLM2D

摘要

arXiv:2402.15929v3 安全公告类型：替换摘要：大型语言模型（LLMs）越来越多地被部署在安全关键系统中，在这些系统中，它们基于从知识库中获取的上下文信息提供答案。随着LLMs被设想为超人类代理，其理解知识并提取相关信息进行推理以回答问题的能力，这一体现人类智能关键方面的能力变得至关重要。然而，现有的对LLMs知识理解能力的评估通常是在小规模测试集上进行的，但这些数据集仅代表了庞大可能查询的一小部分。这些有限测试集上的简单经验性评估引发了关于评估结果的可靠性和普适性的担忧。在本文中，我们引入了第一个关于LLMs知识理解能力的规范和认证框架，提供了关于可靠性的正式概率保证。我们设计了新颖的规范，通过使用知识图谱来数学地表示以自然噪音为特征的难以穷尽的概率分布的知识理解提示。从这些规范中，我们生成定量证书，为LLMs以高置信度给出任何问题的答案提供严格的概率边界。我们应用该框架来认证两个领域中的SOTA LLMs：精准医学和一般问答。我们的结果揭示了由于提示中的自然噪音而导致的SOTA LLMs未曾意识到的漏洞。此外，我们在正式保证的背景下确立了SOTA LLMs在精准医学问答领域的性能层次结构。