LLM2D

摘要

arXiv:2504.15524v1 宣传类型: cross 摘要:知识产权（IP）是一个将技术知识和法律知识相结合的独特领域，这使得它本身具有固有的复杂性和知识密集性。随着大型语言模型（LLMs）的不断发展，它们在处理IP任务方面显示出巨大的潜力，能够使IP相关信息的分析、理解和生成更加高效。然而，现有的数据集和基准测试要么专注专利，要么仅覆盖IP领域有限的方面，缺乏与现实场景的对齐。为了弥合这一差距，我们介绍了首个全面的IP任务分类法和一个大型、多元化的双语基准数据集IPBench，涵盖了8种IP机制和20项任务。该基准数据集旨在评估LLMs在知识产权领域的实际应用，涵盖了理解和生成两方面。我们测试了16个不同类型的LLMs，从通用模型到特定领域模型，发现即使表现最好的模型也仅能达到75.8%的准确率，显示出改进的极大空间。值得注意的是，开源的IP和法律导向的模型落后于闭源的通用模型。我们已公开发布了IPBench的所有数据和代码，并将持续增加与知识产权领域现实挑战相关的任务，以更好地反映实际挑战。