摘要
专利领域在自然语言处理研究中正受到越来越多的关注,它在简化专利申请流程和为大型语言模型(LLM)提供具有挑战性的基准方面具有实际应用价值。然而,迄今为止,专利描述部分(占专利文件90%以上)的生成尚未得到研究。我们通过引入以大纲为引导的论文到专利生成任务来填补这一空白,其中学术论文提供了发明的技术规范,而大纲则传达了所需的专利结构。我们提出了PAP2PAT,一个新的具有挑战性的基准,包含1.8k个专利-论文对,并带有文档大纲,这些数据是使用反映典型研究实验室实践的启发式方法收集的。我们对当前开放权重LLM和以大纲为引导的基于分块的生成进行的实验表明,它们可以有效地利用来自论文的信息,但难以处理重复,这可能是由于专利语言本身的重复性所致。我们发布了我们的数据和代码。