LLM2D

摘要

arXiv:2411.17301v2 通告类型: 替换交叉摘要：自动放射学报告生成（R2Gen）取得了显著进展，但由于其复杂性，导致了准确评估的挑战。传统评价指标通常因依赖于固定的词匹配或仅专注于病理实体而显得不足，这导致了与人类评估结果的一致性差。为了弥合这一差距，我们引入了ReFINE，这是一种专门针对R2Gen的自动评价指标。我们的指标利用了奖励模型，并通过我们的基于边界的奖励强化损失进行引导，同时还采用了定制化的训练数据设计，使其能够根据用户定义的标准进行个性化评价。它不仅根据用户指定的标准评分报告，还提供了详细的次级评分，增强了可解释性，并允许用户在报告的不同方面之间调整标准。通过利用GPT-4，我们设计了一个易于使用的数据生成流程，使得我们能够基于两个不同的评分系统生成大量的训练数据，其中包含不同质量水平的报告及其相应的评分。然后，通过我们的配对规则将这些由GPT生成的报告配对为接受样品和拒绝样品进行训练，以使大型语言模型（LLM）朝着我们的精细粒度奖励模型进行训练，该模型将更高的奖励赋予高质量的报告。我们的奖励控制损失使该模型能够同时输出多个对应于评价标准数量的个体奖励，其合计值即为我们的最终ReFINE。我们的实验结果表明，ReFINE与人类判断的相关性更高，并且在模型选择方面比传统指标表现更优。值得注意的是，我们的模型不仅提供整体评分，还为每个评价项提供个体评分，增强了可解释性。我们还展示了其在各种评价系统中的灵活训练能力。