LLM2D
ToM-RL:强化学习解锁小规模LLM的理论思维能力
ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs
作者: Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.01698v2

摘要

arXiv:2504.01698v2 Announce Type: replace-cross 摘要:近期基于规则的强化学习(RL)在大型语言模型(LLMs)训练后阶段的应用,显著增强了它们在数学和逻辑推理等结构化推理任务中的能力。然而,强化学习在社会推理领域的有效性,特别是在理解他人心态(Theory of Mind,ToM)方面的能力,仍 largely unexplored 尚未得到充分探索。在本研究中,我们证明了即使在小型规模的语言模型(0.5B至7B参数)中,RL方法也能有效解锁ToM推理能力。使用包含3200个问题的适度数据集,涵盖多种场景,我们训练的7B参数的RL模型在Hi-ToM基准测试中的准确率达到84.50%,尽管参数数量远少于GPT-4o和DeepSeek-v3等模型。尽管较小的模型(≤3B参数)在推理能力上存在崩溃现象,较大的模型(7B参数)通过一致的信念跟踪维护了稳定的性能。此外,基于RL的方法展示了对更高阶的、分布外的ToM问题、新颖的文本呈现以及以前未见过的数据集的强大泛化能力。这些发现突显出强化学习在增强社会认知推理方面的潜力,将结构化问题解决与LLMs中的细腻社会推理联系起来。