LLM2D

摘要

arXiv:2412.02626v3 公告类型: replace-cross 摘要：大型语言模型（LLMs）通常被训练成沿时间正向预测。然而，近期的研究表明，促使这些模型回溯并批评其自身的生成内容可以产生有用的反馈。受此启发，我们探讨了LLMs是否能够被赋予思考（预测和评分）的能力，以提供补充的无监督反馈，从而增强正向LLMs。为此，我们提出了时间反转语言模型（TRLMs），这些模型在给定响应的情况下能够评估和生成查询，有效地沿时间反向运作。进一步地，为了有效地在查询到响应的方向进行推断，我们从头开始反向词序预训练和微调了一个语言模型（TRLM-Ba）。我们通过实验证明（并在简化设定中从理论上证明），时间反转模型确实能够通过给定响应来评分查询，从而在对多个正向生成内容进行重新排序时补充正向模型的预测。我们在广泛使用的AlpacaEval排行榜上获得了最高5%的改善，超出最优-N重新排序基线，该基线使用自我对数困惑度得分。此外，我们表明，TRLM评分优于反应给查询的传统正向评分，在引文生成和段落检索等应用中实现了显著的收益。接下来，我们利用TRLM的生成能力来增强或提供无监督反馈给LLMs的输入安全过滤器，结果显示在一些公布的针对流行JailbreakBench排行榜的攻击中，错误否定率大幅降低，同时对错误正向率的影响可以忽略不计。