摘要
arXiv:2503.02650v2 宣告类型: 修改
摘要:无结构文本数据的指数增长为现代数据管理和信息检索提出了根本性的挑战。虽然大型语言模型(LLMs)在自然语言处理方面展现了杰出的能力,但它们将无结构文本转换为标准化、结构化的格式的潜力仍未得到充分探索——这种能力有可能革命性地改变跨行业的数据处理工作流。本研究在系统评估LLMs将无结构食谱文本转换为结构化Cooklang格式的能力方面开创了新局面。通过全面测试四个模型(GPT-4o、GPT-4o-mini、Llama3.1:70b 和 Llama3.1:8b),我们引入了一种新的评估方法,将传统指标(WER、ROUGE-L、TER)与语义元素识别的专门指标相结合。我们的实验表明,带有少量提示的GPT-4o取得了突破性的性能(ROUGE-L:0.9722,WER:0.0730),首次证明LLMs可以在无需大量训练的情况下可靠地将特定领域的无结构文本转换为结构化格式。尽管模型性能通常随着规模的增加而提升,但我们发现像Llama3.1:8b这样的小型模型在通过目标微调进行优化方面具有令人惊讶的潜力。这些发现为各领域的自动化结构化数据生成打开了新的可能性,包括医疗记录和技术文档,有可能改变组织处理和利用无结构信息的方式。