LLM2D

摘要

海量的学术论文每天都在发表，但其中许多由于专业术语和复杂的语言而无法为公众所理解。为了应对科学传播中的这一挑战，我们引入了一个强化学习框架，该框架微调语言模型以将学术摘要改写成更易于理解的版本。在仔细平衡的单词级和句子级可访问性奖励的指导下，我们的语言模型有效地将专业术语替换为更易于理解的替代词，而通过监督微调或传统可读性度量指导的模型难以完成这项任务。我们最好的模型将学术摘要的可读性水平提高了大约六个美国年级水平——换句话说，从研究生水平提高到高中水平。这意味着相对于监督微调基线，性能提升了大约 90%，同时保持了事实准确性和高质量的语言。对我们方法的深入分析表明，平衡的奖励会导致基础模型发生系统性修改，这可能有助于优化平滑度和提高性能。我们认为这项工作是弥合学术研究与公众之间差距的一步，特别是对于年轻读者和没有大学学历的人。