LLM2D

摘要

arXiv:2505.00031v1 宣告类型: cross 摘要: 在大型语言模型（LLM）的后训练领域，利用LLM本身生成的合成数据的有效性已经被很好地展现出来。然而，一个关键问题仍未被解决：此类自生成数据应包含哪些本质信息？现有的方法仅生成逐步问题解决方案，未能捕捉到适用于类似问题的抽象元知识。从中认知科学的视角出发，人类在处理复杂问题时会使用高层次的抽象简化问题，然后再深入到具体细节，我们提出了一种新的自我训练算法：Learning to Plan before Answering (LEPA)。LEPA 训练LLM在处理问题具体细节之前先制定前瞻性的计划，这些计划作为解决问题的抽象元知识。这一方法不仅明确了解决方案生成的路径，还保护了LLM不受无关细节的干扰。在数据生成过程中，LEPA 首先基于问题构思一个前瞻性的计划，然后生成一个符合计划和问题的解决方案。通过自我反思，LEPA 进一步完善计划，旨在获得能够产生正确解决方案的计划。在模型优化过程中，LLM被训练预测改进后的计划以及相应的解决方案。通过高效地提取和利用前瞻性的计划，LEPA 在各种具有挑战性的自然语言推理基准测试中展示了明显优于传统算法的优势。