LLM2D

摘要

arXiv:2501.16154v2 宣告类型: replace-cross 摘要：通过在多样化的语料库上进行预训练，大型语言模型展示了令人印象深刻的多语言能力。虽然这些模型表现出很强的推理能力，但由于训练数据分布不平衡，其在不同语言上的表现显著不同。现有的利用样本级翻译进行广泛多语言预训练和跨语言调整的方法面临着可扩展性的挑战，并且往往无法捕捉跨语言细微的推理过程。在这篇论文中，我们介绍了一种名为 AdaCoT（自适应链式思维）的框架，该框架通过在中间“思维语言”中动态路由思维过程，生成目标语言响应，从而增强多语言事实推理。AdaCoT 利用了语言无关的核心，并结合了一种基于奖励的自适应机制，用于选择最优的推理路径，而不需要额外的预训练。我们在多个基准上的全面评估表明，在事实推理质量和跨语言一致性方面均取得了显著改进，特别是在低资源语言环境中表现尤为明显。结果表明，自适应推理路径可以有效缩小高资源语言和低资源语言之间的性能差距，同时保持文化与语言的细微差别。