摘要
制药行业的法规合规报告依赖于详细的表格,但由于其非结构化格式和任意内容,这些表格往往在合规之外的使用率低下。由于表格呈现方式的多样性,提取和语义化表示表格数据具有挑战性。大型语言模型 (LLM) 在语义表示方面展现出巨大潜力,但它们在准确性和上下文大小限制方面面临挑战,而这些挑战对于行业应用至关重要。我们介绍了 HySem,这是一种利用新颖的上下文长度优化技术从 HTML 表格生成准确的语义 JSON 表示的管道。这种方法利用专门为成本和隐私敏感的中小型制药企业设计的定制微调模型。HySem 在商品硬件上运行,并利用开源模型,在准确性方面超越了同类开源模型,并在与 OpenAI GPT-4o 的基准测试中提供了具有竞争力的性能,并有效地解决了上下文长度限制问题,这对于支持更大表格至关重要。