LLM2D
融合双向chain-of-thought和奖励机制的方法:提升大型语言模型对中国非物质文化遗产问答能力
Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage
作者: Ruilin Liu, Zhixiao Zhao, Jieqiong Li, Chang Liu, Dongbo Wang
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.08167v2

摘要

arXiv:2505.08167v2 宣言类型: replace-cross 摘要:大型语言模型(LLMs)的快速发展为领域特定的LLMs的进步提供了重要的支持和机会。然而,使用非物质文化遗产(ICH)数据对这些大型模型进行微调不可避免地面临着偏差、知识错误传递和灾难性遗忘等问题。为了解决这些问题,我们提出了一种新颖的训练方法,该方法结合了双向链式思考和奖励机制。该方法建立在专门为非物质文化遗产领域设计的ICH-Qwen大型语言模型之上。提出的这种方法不仅使模型能够进行前向推理,还通过使用反向提问和反向推理激活模型的潜在知识来增强生成答案的准确性。此外,在训练过程中引入了奖励机制以优化决策过程。该机制通过结构和内容评估的不同加权方案提高了模型输出的质量。我们在ICH-Qwen上进行了比较实验,结果表明,与零样本推理、逐步推理、知识蒸馏和问题扩展方法相比,我们的方法在问答任务上具有更高的准确率、Bleu-4和Rouge-L得分。此外,论文通过消融实验突出显示了结合双向链式思考和奖励机制的有效性。此外,还进行了系列泛化实验,结果显示,提出的方法在金融、Wikidata和StrategyQA等多个领域特定数据集和高级模型中取得了改进。这表明该方法在多个领域具有适应性,并为未来跨不同领域的模型训练提供了有价值的方法。