LLM2D

摘要

大型语言模型（LLM）如 GPT 和 Llama 在摘要任务中取得了显著成就，但它们在事实准确性方面存在困难，这对临床 NLP 应用来说是一个严重问题，因为错误会导致严重后果。为了应对事实对齐专家标注数据的高成本和有限可用性，本研究提出了一种创新管道，利用超过 1000 亿参数的 GPT 变体（如 GPT-3.5 和 GPT-4）作为合成专家，生成高质量的合成反馈，旨在提高临床笔记摘要中的事实一致性。我们的研究主要集中在这些合成反馈专家生成的编辑反馈上，无需额外的人工标注，反映并优化了医疗专业人员完善 AI 系统输出的实际场景。尽管这些 1000 亿+ 参数的 GPT 变体已被证明在各种临床 NLP 任务中表现出专业知识，例如医学执照考试，但关于它们作为合成反馈专家和提供专家级编辑反馈以提高较弱（<100 亿参数）LLM（如 GPT-2 (1.5B) 和 Llama 2 (7B)）在临床领域生成质量方面的能力的研究还很少。因此，在这项工作中，我们利用 1000 亿+ GPT 变体作为合成反馈专家，提供专家级编辑反馈，用于减少幻觉并使用两种不同的对齐算法（DPO 和 SALT）使较弱（<100 亿参数）LLM 与医疗事实对齐，努力缩小 AI 生成内容与事实准确性之间的差距。这突出了基于 LLM 的合成编辑在增强临床事实对齐方面的巨大潜力。