摘要
arXiv:2505.08167v1 交叉类型:cross
摘要:大型语言模型(LLMs)的快速进展为特定领域的大语言模型的发展提供了重要支持和机会。然而,使用非物质文化遗产(ICH)数据对这些大型模型进行微调不可避免地会面临诸如偏见、错误的知识继承和灾难性遗忘等问题。为了解决这些问题,我们提出了一种新颖的训练方法,该方法结合了双向链式思维和奖励机制。该方法建立在ICH-Qwen之上,这是一个专门为非物质文化遗产领域设计的大语言模型。所提出的方法不仅使模型能够进行前向推理,还通过利用逆向查询和逆向推理来激活模型的潜在知识,从而提高生成答案的准确性。此外,在训练过程中引入了奖励机制以优化决策过程。该机制通过结构和内容评估的不同加权方案,提高了模型输出的质量。我们对ICH-Qwen进行了比较实验,结果显示,在问题回答任务上,我们的方法在准确性和Bleu-4、Rouge-L分数方面优于零样本、逐步推理、知识蒸馏和问题扩展方法。此外,论文通过消融实验强调了结合双向链式思维和奖励机制的有效性。此外,还进行了可移植性实验,结果显示所提出的方法在金融、Wikidata和StrategyQA等不同领域的特定数据集和高级模型上都取得了改进。这表明该方法可以适应多个领域,并为未来跨不同领域的模型训练提供了有价值的途径。