LLM2D

摘要

自动放射学报告生成 (R2Gen) 已取得显著进展，但其复杂性也带来了准确评估的挑战。传统的指标往往依赖于严格的词语匹配或仅关注病理实体，导致与人工评估结果不一致。为了弥合这一差距，我们引入了 ER2Score，这是一种专门为 R2Gen 设计的自动评估指标。我们的指标利用奖励模型，该模型由我们的基于边际的奖励强化损失引导，并结合量身定制的训练数据设计，使评估标准能够根据用户定义的需求进行定制。它不仅根据用户指定的标准对报告进行评分，还提供详细的子评分，从而增强可解释性，并允许用户调整报告不同方面之间的标准。利用 GPT-4，我们设计了一个易于使用的数据生成管道，使我们能够基于两个不同的评分系统生成大量的训练数据，每个系统都包含不同质量的报告以及相应的评分。然后，通过我们的配对规则将这些 GPT 生成的报告配对为接受和拒绝样本，以训练 LLM 朝向我们细粒度的奖励模型，该模型为高质量的报告分配更高的奖励。我们的奖励控制损失使该模型能够同时输出多个与评估标准数量相对应的单个奖励，其总和作为我们的最终 ER2Score。我们的实验表明，与传统指标相比，ER2Score 与人工判断的相关性更高，并且在模型选择方面具有更好的性能。值得注意的是，我们的模型既提供整体分数，也为每个评估项目提供个体分数，从而增强了可解释性。我们还证明了其在各种评估系统中的灵活训练能力。