LLM2D
IPBench:评估大型语言模型在知识产权领域的知识
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property
作者: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15524v1

摘要

arXiv:2504.15524v1 宣传类型: cross 摘要:知识产权(IP)是一个将技术知识和法律知识相结合的独特领域,这使得它本身具有固有的复杂性和知识密集性。随着大型语言模型(LLMs)的不断发展,它们在处理IP任务方面显示出巨大的潜力,能够使IP相关信息的分析、理解和生成更加高效。然而,现有的数据集和基准测试要么专注专利,要么仅覆盖IP领域有限的方面,缺乏与现实场景的对齐。为了弥合这一差距,我们介绍了首个全面的IP任务分类法和一个大型、多元化的双语基准数据集IPBench,涵盖了8种IP机制和20项任务。该基准数据集旨在评估LLMs在知识产权领域的实际应用,涵盖了理解和生成两方面。我们测试了16个不同类型的LLMs,从通用模型到特定领域模型,发现即使表现最好的模型也仅能达到75.8%的准确率,显示出改进的极大空间。值得注意的是,开源的IP和法律导向的模型落后于闭源的通用模型。我们已公开发布了IPBench的所有数据和代码,并将持续增加与知识产权领域现实挑战相关的任务,以更好地反映实际挑战。