LLM2D

摘要

arXiv:2305.13981v3 宣告类型: replace-cross 摘要：对分布变化的鲁棒性确保自然语言处理模型能够在现实世界中成功应用，特别是在信息抽取任务中。然而，大多数先前的评估基准主要致力于验证成对匹配的正确性，忽视了鲁棒性的重要衡量标准。本文中，我们首次提出了一个基准，模拟现实世界中开放信息抽取模型的评估，在这个基准中，相同知识含义下的语法和表达分布可能会有各种各样的偏离。我们设计并标注了一个大规模测试库，其中每个示例都是一个知识不变的团块，由意思相同但语法和表达形式不同的句子组成。通过进一步细化鲁棒性指标，如果模型在整体团块上的表现始终准确，我们则认为该模型具有鲁棒性。我们在过去十年中发布的典型模型以及一个流行的大型语言模型上进行了实验，结果显示现有的成功模型表现出令人沮丧的退化，最大F1分数下降幅度为23.43%。我们的资源和代码可在 https://github.com/qijimrc/ROBUST 获取。