LLM2D

摘要

arXiv:2505.08167v1 交叉类型：cross 摘要：大型语言模型（LLMs）的快速进展为特定领域的大语言模型的发展提供了重要支持和机会。然而，使用非物质文化遗产（ICH）数据对这些大型模型进行微调不可避免地会面临诸如偏见、错误的知识继承和灾难性遗忘等问题。为了解决这些问题，我们提出了一种新颖的训练方法，该方法结合了双向链式思维和奖励机制。该方法建立在ICH-Qwen之上，这是一个专门为非物质文化遗产领域设计的大语言模型。所提出的方法不仅使模型能够进行前向推理，还通过利用逆向查询和逆向推理来激活模型的潜在知识，从而提高生成答案的准确性。此外，在训练过程中引入了奖励机制以优化决策过程。该机制通过结构和内容评估的不同加权方案，提高了模型输出的质量。我们对ICH-Qwen进行了比较实验，结果显示，在问题回答任务上，我们的方法在准确性和Bleu-4、Rouge-L分数方面优于零样本、逐步推理、知识蒸馏和问题扩展方法。此外，论文通过消融实验强调了结合双向链式思维和奖励机制的有效性。此外，还进行了可移植性实验，结果显示所提出的方法在金融、Wikidata和StrategyQA等不同领域的特定数据集和高级模型上都取得了改进。这表明该方法可以适应多个领域，并为未来跨不同领域的模型训练提供了有价值的途径。