摘要
大型语言模型(LLM)如 GPT 和 Llama 在摘要任务中取得了显著成就,但它们在事实准确性方面存在困难,这对临床 NLP 应用来说是一个严重问题,因为错误会导致严重后果。为了应对事实对齐专家标注数据的高成本和有限可用性,本研究提出了一种创新管道,利用超过 1000 亿参数的 GPT 变体(如 GPT-3.5 和 GPT-4)作为合成专家,生成高质量的合成反馈,旨在提高临床笔记摘要中的事实一致性。我们的研究主要集中在这些合成反馈专家生成的编辑反馈上,无需额外的人工标注,反映并优化了医疗专业人员完善 AI 系统输出的实际场景。尽管这些 1000 亿+ 参数的 GPT 变体已被证明在各种临床 NLP 任务中表现出专业知识,例如医学执照考试,但关于它们作为合成反馈专家和提供专家级编辑反馈以提高较弱(<100 亿参数)LLM(如 GPT-2 (1.5B) 和 Llama 2 (7B))在临床领域生成质量方面的能力的研究还很少。因此,在这项工作中,我们利用 1000 亿+ GPT 变体作为合成反馈专家,提供专家级编辑反馈,用于减少幻觉并使用两种不同的对齐算法(DPO 和 SALT)使较弱(<100 亿参数)LLM 与医疗事实对齐,努力缩小 AI 生成内容与事实准确性之间的差距。这突出了基于 LLM 的合成编辑在增强临床事实对齐方面的巨大潜力。