摘要
为了有效地将大型语言模型(LLMs)应用于现实世界中的查询,它们必须能够泛化到长尾分布,即模型表现出低置信度的罕见示例。在这项工作中,我们迈出了第一步,旨在评估 LLMs 在推理知识的长尾分布中的表现。我们以自然语言推理任务为例,对长尾评估进行了说明。首先,我们引入了逻辑诱导知识搜索(LINK),这是一个系统性的长尾数据生成框架,用于获取事实正确但属于长尾的推理语句。LINK 使用基于符号规则的变量级提示来寻找低置信度语句,同时确保其事实正确性。然后,我们使用 LINK 构建了逻辑诱导长尾(LINT),一个包含 108K 条语句的跨越四个领域的,大规模长尾推理知识数据集。我们在 LINT 上评估了流行的 LLMs;我们发现,与头部分布数据相比,最先进的 LLMs 在长尾数据上表现出显著的性能下降(GPT4 相对下降 21%),而更小的模型则表现出更强的泛化弱点。这些结果进一步强调了在开发可泛化的 LLMs 中进行长尾评估的必要性。