LLM2D
ToM-RL: reinforcement 学习在小规模 LLMS 中解锁理论思维
ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs
作者: Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01698v1

摘要

arXiv:2504.01698v1 交叉类型: cross 摘要: 在大规模语言模型(LLMs)的后训练阶段应用基于规则的强化学习(RL)的最近进展,显著增强了它们在数学和逻辑推理等结构化推理任务中的能力。然而,RL 在社会推理中的有效性,特别是关于心智理论(ToM),即推断他人心理状态的能力,仍基本未被探索。在这项研究中,我们展示了即使在小型语言模型(0.5B到7B参数)中,RL 方法也能有效地解锁 ToM 推理能力。使用一个包含3200个跨多个场景的问题的小型数据集,我们的RL训练的7B模型在Hi-ToM基准测试中达到了84.50%的准确性,尽管参数数量远少于GPT-4o和DeepSeek-v3等模型。虽然较小的模型(参数数≤3B)在推理中表现出崩溃,但较大的模型(7B参数)通过一致的信念跟踪保持了稳定的表现。此外,基于RL的模型还展示了对更高阶的、分布外的ToM问题、新颖的文本呈现形式和未见过的数据集的强大泛化能力。这些发现突显了RL在增强社会认知推理方面的潜力,有助于在LLMs中弥合结构化问题解决与细微社会推理之间的差距。