LLM2D
RLDBF:通过带有DataBase FeedBack的 reinforcement learning 提升LLMs
RLDBF: Enhancing LLMs Via Reinforcement Learning With DataBase FeedBack
作者: Weichen Dai, Zijie Dai, Zhijie Huang, Yixuan Pan, Xinhe Li, Xi Li, Yi Zhou, Ji Qi, Wu Jiang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03713v1

摘要

arXiv:2504.03713v1 类型: cross 摘要: 当前的大语言模型(LLMs)通过在大量无结构文本语料库上进行训练,展示了令人瞩目的语言能力,但它们在利用结构化的科学数据(例如数据库中的化学分子性质)方面仍然不够充分,这些数据蕴含了数个世纪积累的科学专长。这些结构化数据对于促进科学人工智能具有战略意义,但当前的方法仅将其作为无结构文本的辅助补充。这项研究开创性地探讨了在大语言模型中增强结构化科学数据的方法,以化学分子科学作为试验平台。我们研究了在大语言模型的不同训练阶段(包括持续性预训练、监督微调和强化学习)中融入分子属性数据的影响。值得注意的是,为了解决大型模型固有的数值灵敏度不足的问题,我们提出了一种名为“数据库反馈强化学习”(RLDBF)的创新方法。实验评估展示了所提出的这种方法的有效性,模型在未见过的数据和其他化学任务上表现出显著的泛化能力。结果证明了我们方法在大语言模型中促进结构化科学数据处理领域的潜在价值。