LLM2D

摘要

arXiv:2504.01698v1 交叉类型: cross 摘要: 在大规模语言模型（LLMs）的后训练阶段应用基于规则的强化学习（RL）的最近进展，显著增强了它们在数学和逻辑推理等结构化推理任务中的能力。然而，RL 在社会推理中的有效性，特别是关于心智理论（ToM），即推断他人心理状态的能力，仍基本未被探索。在这项研究中，我们展示了即使在小型语言模型（0.5B到7B参数）中，RL 方法也能有效地解锁 ToM 推理能力。使用一个包含3200个跨多个场景的问题的小型数据集，我们的RL训练的7B模型在Hi-ToM基准测试中达到了84.50%的准确性，尽管参数数量远少于GPT-4o和DeepSeek-v3等模型。虽然较小的模型（参数数≤3B）在推理中表现出崩溃，但较大的模型（7B参数）通过一致的信念跟踪保持了稳定的表现。此外，基于RL的模型还展示了对更高阶的、分布外的ToM问题、新颖的文本呈现形式和未见过的数据集的强大泛化能力。这些发现突显了RL在增强社会认知推理方面的潜力，有助于在LLMs中弥合结构化问题解决与细微社会推理之间的差距。