LLM2D

摘要

为了有效地将大型语言模型（LLMs）应用于现实世界中的查询，它们必须能够泛化到长尾分布，即模型表现出低置信度的罕见示例。在这项工作中，我们迈出了第一步，旨在评估 LLMs 在推理知识的长尾分布中的表现。我们以自然语言推理任务为例，对长尾评估进行了说明。首先，我们引入了逻辑诱导知识搜索（LINK），这是一个系统性的长尾数据生成框架，用于获取事实正确但属于长尾的推理语句。LINK 使用基于符号规则的变量级提示来寻找低置信度语句，同时确保其事实正确性。然后，我们使用 LINK 构建了逻辑诱导长尾（LINT），一个包含 108K 条语句的跨越四个领域的，大规模长尾推理知识数据集。我们在 LINT 上评估了流行的 LLMs；我们发现，与头部分布数据相比，最先进的 LLMs 在长尾数据上表现出显著的性能下降（GPT4 相对下降 21%），而更小的模型则表现出更强的泛化弱点。这些结果进一步强调了在开发可泛化的 LLMs 中进行长尾评估的必要性。