摘要
arXiv:2504.15524v1 宣传类型: cross
摘要:知识产权(IP)是一个将技术知识和法律知识相结合的独特领域,这使得它本身具有固有的复杂性和知识密集性。随着大型语言模型(LLMs)的不断发展,它们在处理IP任务方面显示出巨大的潜力,能够使IP相关信息的分析、理解和生成更加高效。然而,现有的数据集和基准测试要么专注专利,要么仅覆盖IP领域有限的方面,缺乏与现实场景的对齐。为了弥合这一差距,我们介绍了首个全面的IP任务分类法和一个大型、多元化的双语基准数据集IPBench,涵盖了8种IP机制和20项任务。该基准数据集旨在评估LLMs在知识产权领域的实际应用,涵盖了理解和生成两方面。我们测试了16个不同类型的LLMs,从通用模型到特定领域模型,发现即使表现最好的模型也仅能达到75.8%的准确率,显示出改进的极大空间。值得注意的是,开源的IP和法律导向的模型落后于闭源的通用模型。我们已公开发布了IPBench的所有数据和代码,并将持续增加与知识产权领域现实挑战相关的任务,以更好地反映实际挑战。