LLM2D
时间反演为大语言模型提供无监督反馈
Time-Reversal Provides Unsupervised Feedback to LLMs
作者: Yerram Varun, Rahul Madhavan, Sravanti Addepalli, Arun Suggala, Karthikeyan Shanmugam, Prateek Jain
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2412.02626v3

摘要

arXiv:2412.02626v3 公告类型: replace-cross 摘要:大型语言模型(LLMs)通常被训练成沿时间正向预测。然而,近期的研究表明,促使这些模型回溯并批评其自身的生成内容可以产生有用的反馈。受此启发,我们探讨了LLMs是否能够被赋予思考(预测和评分)的能力,以提供补充的无监督反馈,从而增强正向LLMs。为此,我们提出了时间反转语言模型(TRLMs),这些模型在给定响应的情况下能够评估和生成查询,有效地沿时间反向运作。进一步地,为了有效地在查询到响应的方向进行推断,我们从头开始反向词序预训练和微调了一个语言模型(TRLM-Ba)。我们通过实验证明(并在简化设定中从理论上证明),时间反转模型确实能够通过给定响应来评分查询,从而在对多个正向生成内容进行重新排序时补充正向模型的预测。我们在广泛使用的AlpacaEval排行榜上获得了最高5%的改善,超出最优-N重新排序基线,该基线使用自我对数困惑度得分。此外,我们表明,TRLM评分优于反应给查询的传统正向评分,在引文生成和段落检索等应用中实现了显著的收益。接下来,我们利用TRLM的生成能力来增强或提供无监督反馈给LLMs的输入安全过滤器,结果显示在一些公布的针对流行JailbreakBench排行榜的攻击中,错误否定率大幅降低,同时对错误正向率的影响可以忽略不计。