LLM2D

摘要

arXiv:2504.01698v2 Announce Type: replace-cross 摘要：近期基于规则的强化学习（RL）在大型语言模型（LLMs）训练后阶段的应用，显著增强了它们在数学和逻辑推理等结构化推理任务中的能力。然而，强化学习在社会推理领域的有效性，特别是在理解他人心态（Theory of Mind，ToM）方面的能力，仍 largely unexplored 尚未得到充分探索。在本研究中，我们证明了即使在小型规模的语言模型（0.5B至7B参数）中，RL方法也能有效解锁ToM推理能力。使用包含3200个问题的适度数据集，涵盖多种场景，我们训练的7B参数的RL模型在Hi-ToM基准测试中的准确率达到84.50%，尽管参数数量远少于GPT-4o和DeepSeek-v3等模型。尽管较小的模型（≤3B参数）在推理能力上存在崩溃现象，较大的模型（7B参数）通过一致的信念跟踪维护了稳定的性能。此外，基于RL的方法展示了对更高阶的、分布外的ToM问题、新颖的文本呈现以及以前未见过的数据集的强大泛化能力。这些发现突显出强化学习在增强社会认知推理方面的潜力，将结构化问题解决与LLMs中的细腻社会推理联系起来。