LLM2D

摘要

arXiv:2411.04794v2 Announce Type: replace-cross 摘要：实证证据表明，大模型（LLMs）表现出自发的跨语言对齐。然而，尽管大模型在信息抽取（IE）方面表现出色的跨语言对齐，不同语言之间仍然存在显著的不平衡，这表明存在潜在的缺陷。为了解决这一问题，我们提出了一种名为KnowCoder-X的强大代码大模型，具备先进的跨语言和多语言能力，用于通用信息抽取。首先，它使用Python类标准化了多语言模式的表示，确保不同语言之间的一致本体论。然后，跨语言的IE被形式化为一个统一的代码生成任务。其次，我们通过我们在提出的翻译实例预测任务上进行的跨语言信息抽取指令调整来增强模型的跨语言转移能力。在这个阶段，我们还构建了一个高质量且多样化的双语信息抽取平行数据集ParallelNER，包含257,000个样本，该数据集由我们提出的稳健的三阶段管道合成，并通过人工注释确保质量。尽管没有在29种未见过的语言上进行训练，KnowCoder-X仍超过了ChatGPT的30.17%和现有最佳技术水平（SoTA）的20.03%，从而展示了卓越的跨语言信息抽取能力。在各种设置下，64个中文和英文信息抽取基准测试的全面评估表明，KnowCoder-X显著增强了跨语言信息抽取的转移性。我们的代码和数据集可在以下链接获取：https://github.com/ICT-GoKnow/KnowCoder