LLM2D

摘要

arXiv:2409.05806v2 通知类型: replace-cross 摘要：中文作为一种丰富深邃、复杂多样的语言系统，以其古诗、谚语、成语和其他文化构建为特色。然而，当前的大规模语言模型（LLMs）在这些专业领域存在局限性，突显了建立全面数据集的需求，这些数据集可以通过有针对性的训练优化来评估、持续更新和逐步提高这些文化背景下的语言能力。为填补这一空白，我们介绍了CKnowEdit，这是首个旨在纠正大规模语言模型中语言、事实和逻辑错误的中文知识编辑数据集。我们从多种来源收集了七类知识，包括古典文献、成语和百度贴吧的罗织吧内容，同时考虑了中文中固有的多义性、对比结构和逻辑结构。通过分析这个数据集，我们指出了当前大规模语言模型在掌握中文方面的挑战。此外，我们对最先进的知识编辑技术的评估揭示了进一步改进中文知识校正的机会。代码和数据集可在https://github.com/zjunlp/EasyEdit获取。