arXiv 论文列表

作者: Huawei Lin, Jun Woo Chung, Yingjie Lao, Weijie Zhao

arXiv:2502.01634v1 类型: cross 摘要: 梯度提升决策树（GBDT）是各种应用中最流行的机器学习模型之一。然而，在传统的设置中，所有数据都应该在训练过程中同时访问：它不允许在训练后添加或删除任何数据实例。在本文中，我们提出了一种适用于GBDT的高效在线学习框架，支持增量学习和减少学习。据我们所知，这是第一个考虑在GBDT上就地统一进行增量和减少学习的研究工作。为了降低学习成本，我们为该框架呈现了一系列优化措施，使其能够在不中断处理的情况下添加或删除少量数据。我们从理论上展示了所提出的优化参数之间的关系，这使得在增量和减少学习之间可以权衡准确性和成本。后门攻击的结果显示，我们的框架可以使用增量和减少学习成功地向训练好的模型注入和移除后门，并且在公开数据集上的实验证明了我们所提出在线学习框架及其优化措施的有效性和效率。

发布时间: 2/4/2025

查看原文

Jailbreaking 时的对抗推理

作者: Mahdi Sabbaghi, Paul Kassianik, George Pappas, Yaron Singer, Amin Karbasi, Hamed Hassani

arXiv:2502.01633v1 交叉发布类型: cross 摘要: 随着大型语言模型（LLMs）变得越来越强大且普及，对其失效案例的研究变得越来越重要。标准测试时间计算的标准化、测量和扩展进步提示了优化模型以在困难任务上实现高性能的新方法。在本文中，我们将这些进步应用于模型狱破任务：从对齐的LLMs中引出有害反应。我们开发了一种对抗推理方法，通过测试时计算实现对许多对齐的LLMs的SOTA攻击成功率（ASR），即使是对那些旨在用推理时间计算换取对抗鲁棒性以进行权衡的LLMs也是如此。我们的方法引入了一种新的理解LLM脆弱性的范式，为开发更 robust 和可信赖的AI系统奠定了基础。

发布时间: 2/4/2025

查看原文

学习生成单元测试以实现自动化调试

作者: Archiki Prasad, Elias Stengel-Eskin, Justin Chih-Yao Chen, Zaid Khan, Mohit Bansal

arXiv:2502.01619v1 宣告类型: cross 摘要: 单元测试（UT）在评估代码正确性以及向大型语言模型（LLM）提供反馈方面扮演着关键角色，尤其是在编写过程中逐步调试错误代码时，激发了自动测试生成的需求。然而，我们发现，在生成能够揭示错误的单元测试输入和准确预测单元测试输出（不访问正确解决方案的情况下）之间存在权衡。为了解决这一权衡，我们提出了UTGen，它教会LLM根据任务描述和候选代码生成能够揭示错误并附带正确预期输出的单元测试输入。我们将UTGen 集成到UTDebug中，这是一个强大的调试管道，使用生成的测试来帮助LLM有效调试。由于模型生成的测试可能会提供嘈杂的信号（例如，来自预测错误输出），UTDebug通过（i）通过测试时计算扩展UTGen来提高单元测试输出预测效果，以及（ii）基于多个生成的单元测试进行验证和回溯编辑以避免过拟合。我们的结果显示，基于衡量同时具有揭示错误的单元测试输入和正确单元测试输出的指标，UTGen比UT生成基线高出7.59%。当我们使用UTDebug时，我们发现来自UTGen单元测试的反馈可以提高Qwen-2.5 7B在HumanEvalFix上的pass@1准确率和我们在MBPP+上自己的更难的调试划分上的准确率，分别比其他基于LLM的单元测试生成基线高出3%和12.35%。

发布时间: 2/4/2025

查看原文

基于粒子蒙特卡洛方法的LLMs推断时伸缩的概率推理方法

作者: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava

arXiv:2502.01618v1 类型: cross 摘要: 大型语言模型（LLMs）通过扩大模型规模和/或数据实现了显著的性能提升。然而，近期的证据表明，这种方法的效果正逐渐减弱，促使人们在推断时间扩展计算量。现有的推断时间扩展方法，通常使用奖励模型，将任务视为一个搜索问题，但由于奖励模型中近似误差的影响，这种方法往往会受到奖励作弊的困扰。在本文中，我们相反地将推断时间扩展视为一项概率推断任务，并利用采样技术探索状态空间模型在近似似然下状态分布的典型集，而不是直接优化其模式。我们提出了一种新的推断时间扩展方法，通过将粒子蒙特卡洛方法适应到这一任务。我们的实证评估表明，与我们的确定性搜索方法相比，我们的方法在各种具有挑战性的数学推理任务上的扩展速率提高了4-16倍。使用我们的方法，我们展示了Qwen2.5-Math-1.5B-Instruct可以在仅4次滚动后超越GPT-4o的准确度，而Qwen2.5-Math-7B-Instruct仅需32次滚动即可达到o1级别的准确度。我们的工作不仅提供了一种有效的推断时间扩展方法，还连接了概率推断丰富的文献与LLMs的推断时间扩展，为未来的工作开发更稳健的算法奠定了基础。代码和更多信息可在https://probabilistic-inference-scaling.github.io 获取。

发布时间: 2/4/2025

查看原文

自我提升的变压器克服了从易到难和长度泛化挑战

作者: Nayoung Lee, Ziyang Cai, Avi Schwarzschild, Kangwook Lee, Dimitris Papailiopoulos

arXiv:2502.01612v1 强化类型: 交叉摘要：大型语言模型在处理长度泛化和解决超出其训练分布的复杂问题实例方面常常存在困难。我们提出了一个自我改进方法，其中模型迭代生成并学习它们自己的解决方案，逐步解决问题越来越难的任务，同时保持标准的变压器架构。在包括算术、字符串操作和迷宫求解等多样化任务中，自我改进使模型能够解决远超其初始训练分布的问题——例如，从10位数加法泛化到100位数加法，而没有明显的饱和现象。我们观察到，在某些情况下，过滤正确生成的样本会导致在训练轮次中的分布外性能指数级提高。此外，从预训练模型开始显著加速了几个任务的自我改进过程。我们的结果展示了如何通过受控的自弱到强的课程学习系统地教导模型逻辑外推，而无需对位置嵌入或模型架构进行任何更改。

发布时间: 2/4/2025

查看原文

长时 horizon 交互式大语言模型代理的强化学习方法

作者: Kevin Chen, Marco Cusumano-Towner, Brody Huval, Aleksei Petrenko, Jackson Hamburger, Vladlen Koltun, Philipp Kr\"ahenb\"uhl

arXiv:2502.01600v1 类型: cross 摘要：交互式数字代理（IDAs）利用状态性数字环境的API来响应用户请求执行任务。虽然由指令调优的大语言模型（LLMs）驱动的IDAs可以在多步交互中对界面调用的反馈做出反应，但它们并没有在其各自数字环境中接受训练。此前的方法在AppWorld等复杂基准测试中完成的任务不到一半。我们提出了一种强化学习（RL）方法，直接在目标环境中训练IDAs。我们将这种训练形式化为部分可观测马尔可夫决策过程，并推导出M-PPO，这是一种基于近端策略优化的数据和内存效率优化变体。M-PPO 不使用价值网络，并且在内存中只维护一个底层LLM的精确副本，使其实现简洁，并且内存效率与微调单个LLM相当。在用M-PPO在AppWorld环境中训练一个包含320亿参数的代理，在AppWorld环境中表现出色，超越了OpenAI的o1代理9个百分点（相当于相对提高了15%）。据我们所知，这是首次报告使用RL来训练通过直接API调用与状态性、多域、多应用环境交互的IDAs。我们的分析揭示了在这一领域使用RL的有效性，显示代理学会了查阅API文档、避免不必要的假设、减少虚构行为，并从挫折中恢复过来。

发布时间: 2/4/2025

查看原文

提高Transformer世界模型以实现数据高效强化学习

作者: Antoine Dedieu, Joseph Ortiz, Xinghua Lou, Carter Wendelken, Wolfgang Lehrach, J Swaroop Guntupalli, Miguel Lazaro-Gredilla, Kevin Patrick Murphy

arXiv:2502.01591v1 宣告类型: cross 摘要：我们提出了一种基于模型的强化学习方法，该方法在具有挑战性的Craftax-classic基准上达到了新的性能标准，该基准是一个开放世界2D生存游戏，要求智能体表现出广泛的通用能力——例如，强大的泛化能力、深刻的探索能力和长期推理能力。通过一系列旨在提高样本效率的设计选择，我们的基于模型的强化学习算法在仅进行100万环境步后就获得了67.4%的奖励，显著优于DreamerV3，后者仅为53.2%，并且首次超过了人类的65.0%的性能。我们的方法首先通过使用结合卷积神经网络(CNN)和循环神经网络(RNN)的新型策略架构构建了一个最先进（SOTA）的无模型基线。然后，我们对标准的基于模型的强化学习设置进行了三项改进：(a) “Dyna with warmup”，该方法在真实和虚拟数据上训练策略；(b) “最近邻词法标记器”应用于图像块，这改进了创建变换器世界模型(TWM)输入的方案；(c) “块教师强迫”，这使TWM能够联合推理关于下一个时间步的未来标记。

发布时间: 2/4/2025

查看原文

口头化的贝叶斯说服

作者: Wenhao Li, Yue Lin, Xiangfeng Wang, Bo Jin, Hongyuan Zha, Baoxiang Wang

arXiv:2502.01587v1 交叉类别论文摘要：信息设计（ID）探索发送者如何影响接收者的最优行为以实现特定目标。虽然ID起源于日常人类交流，但现有的博弈论和机器学习方法通常将信息结构视为数字，这限制了其在实际游戏中的许多应用。本文利用大语言模型（LLMs）提出了一种言论化的框架，在贝叶斯说服（BP）中应用这一框架，这是首次将经典BP扩展到包含人类对话的真实世界游戏。具体而言，我们将BP映射到一个言论化的调解人增强的扩展式博弈中，其中LLMs分别代表发送者和接收者。为了高效地解决言论化的博弈，我们提出了一种结合LLMs和博弈求解器的通用均衡寻找算法。该算法通过引入言论化的承诺假设、言论化的服从限制和信息混淆等技术进行强化。在推荐信、法庭交互和执法等对话场景中的数值实验验证了我们的框架不仅能重现经典BP中的理论结果，还能在更复杂的自然语言和多阶段场景中发现有效的说服策略。

发布时间: 2/4/2025

查看原文

LLM支持的Java验证下一步工作

作者: Samuel Teuber, Bernhard Beckert

arXiv:2502.01573v1 类型: cross 摘要: 最近的工作表明，大型语言模型（LLMs）不仅可以作为代码生成的合适工具，还可以生成基于注释的代码规范。这些方法的扩展可能允许我们为大规模软件系统推导出可证明的正确性保证。与其它LLM任务相比，演绎验证的应用领域的一个显著优势是可以提供一套严格的工具集来检查LLM生成的解决方案。这篇简短的文章提供了关于如何使用这套严格的工具集可靠地从不可靠的LLM先知中引出正确的规范注释的早期结果。

发布时间: 2/4/2025

查看原文

视觉理论思维使发明书写系统成为可能

作者: Benjamin A. Spiegel, Lucas Gelfond, George Konidaris

arXiv:2502.01568v1 交叉发布公告类型摘要：抽象符号书写系统是现代社会普遍存在的“ semiotic 代码”，但在动物界却不存在。考古学证据表明，某些书写系统的最早形式原由“具象象形文字”构成，这些文字通过视觉相似性来表示其所指。尽管先前的研究从计算的角度考察了象形文字的出现和单独的演化，大多数研究采用非自然的方法，使其难以与人类和动物的认知进行清晰的类比。我们开发了一个名为“意义游戏”的多智能体强化学习测试平台，用于 emergent 通信，并提出了一种 inferential 通信模型，使智能体能够利用“视觉心智理论”使用象形文字来传达动作。我们的模型置于更广泛的动物交流形式主义框架中，照亮了导致早期书写系统发展的认知和社会文化过程。

发布时间: 2/4/2025

查看原文