LLM2D

摘要

专利领域在自然语言处理研究中正受到越来越多的关注，它在简化专利申请流程和为大型语言模型（LLM）提供具有挑战性的基准方面具有实际应用价值。然而，迄今为止，专利描述部分（占专利文件90%以上）的生成尚未得到研究。我们通过引入以大纲为引导的论文到专利生成任务来填补这一空白，其中学术论文提供了发明的技术规范，而大纲则传达了所需的专利结构。我们提出了PAP2PAT，一个新的具有挑战性的基准，包含1.8k个专利-论文对，并带有文档大纲，这些数据是使用反映典型研究实验室实践的启发式方法收集的。我们对当前开放权重LLM和以大纲为引导的基于分块的生成进行的实验表明，它们可以有效地利用来自论文的信息，但难以处理重复，这可能是由于专利语言本身的重复性所致。我们发布了我们的数据和代码。