LLM2D

摘要

arXiv:2501.19055v1 宣告类型: cross 摘要: 本文通过提出一种新颖的范式，增加了医疗保健领域强化学习(RL)的研究文献：任何预测模型都可以增广一个基于规则的RL层(RRLL)，以纠正模型的生理上不可能的预测。具体而言，RRLL 将预测状态标签作为输入，并输出修正后的标签作为动作。状态-动作对的奖励由一组通用规则评估。RRLL 是高效的、通用的并且轻量级的：它不需要像先前工作那样要求大量的专家知识，只需要一组不可能的过渡。这套规则的数量远少于所有可能的过渡；然而，它能够有效地减少最先进的预测模型所犯的生理上不可能的错误。我们对各种重要的医疗保健分类问题验证了RRLL 的实用性，并在相同的设置下观察到显著的改进，只需改变特定领域的不可能性集合。深入分析表明，RRLL 确实通过有效减少生理上不可能的预测提高了准确性。