arXiv 论文列表

作者: Quentin Cohen-Solal

arXiv:2008.01188v5 公告类型: 替换摘要: 在本文中，提出了一些通过强化学习学习游戏状态评估函数的技术。首先是一种树引导（树学习）的通用化：它适应了基于非线性函数的无先验知识的强化学习环境。通过这种方法，在强化学习过程中不会丢失任何信息。其次是一种改进的极小极大搜索，其深度不受限制，将最佳行动序列扩展到终端状态。这种改进的搜索方式旨在在学习过程中使用。第三种是用强化学习启发式方法替代经典的獲勝損失（+1/-1）。我们研究了特定的强化学习启发式方法，如：快速获胜和缓慢失败；评分；移动或存在。第四种是新的行动选取分布。进行的实验表明，这些技术提高了游戏水平。最后，我们将这些不同的技术应用于设计自博弈强化学习的Hex游戏（大小为11和13）程序选手，超越了无先验知识的Mohex 3HNN的水平。

发布时间: 5/8/2025

查看原文

EchoInk-R1：通过强化学习在多模态LLM中探索音视频推理

作者: Zhenghao Xing, Xiaowei Hu, Chi-Wing Fu, Wenhai Wang, Jifeng Dai, Pheng-Ann Heng

arXiv:2505.04623v1 Announce Type: cross 摘要：多模态大语言模型（MLLMs）已经在文本、视觉和音频感知方面取得了进展，但在结构化的跨模态推理方面往往存在困难，尤其是在整合音频和视觉信号时。我们引入了EchoInk-R1，这是一种增强MLLMs这种推理能力的强化学习框架。EchoInk-R1基于Qwen2.5-Omni-7B的基础，并通过Group Relative Policy Optimization (GRPO)进行优化，可以处理同步音频-图像对的多项选择题回答。为了实现这一点，我们整理了AVQA-R1-6K数据集，该数据集将来自OmniInstruct-v1的多项选择题与音频-图像输入配对。EchoInk-R1-7B在验证集上的准确率为85.77%，在仅使用562次强化学习步骤的情况下，超过了基模型，其准确率为80.53%。除了准确性之外，EchoInk-R1还展示了反思性推理能力，即在面对模棱两可的多模态输入时重新审视最初的解释并改进响应。这些结果表明，轻量级的强化学习微调可以增强MLLMs的跨模态推理能力。EchoInk-R1是首个通过强化学习统一音频、视觉和文本模态以实现通用开放世界推理的框架。代码和数据已公开发布，以促进进一步的研究。

发布时间: 5/8/2025

查看原文

音频中的Score蒸馏采样：源分离、合成以及更远处

作者: Jessie Richter-Powell, Antonio Torralba, Jonathan Lorraine

arXiv:2505.04621v1 类别: cross 摘要: 我们介绍了Audio-SDS，这是一种将Score Distillation Sampling (SDS)推广到文本条件音频扩散模型的方法。尽管SDS最初设计用于使用图像扩散的文本到3D生成，但其核心思想——将强大的生成先验提炼为独立的参数表示——可以扩展到音频领域。利用单一预训练模型，Audio-SDS能够完成一系列任务，而无需专门的数据集。特别是，我们展示了Audio-SDS如何指导物理启发的声音冲击模拟、校准FM合成参数以及执行指定提示的声源分离。我们的研究结果表明，基于提炼的方法在不同模态中的通用性，并为未来使用生成先验在音频任务中进行工作奠定了坚实的基础。

发布时间: 5/8/2025

查看原文

WATCH: 加权自适应检测变化点假设 via 加权-齐性鞅

作者: Drew Prinster, Xing Han, Anqi Liu, Suchi Saria

arXiv:2505.04608v1 宣布类型: 横跨领域摘要: 在高风险环境下负责任地部署人工智能（AI）/机器学习（ML）系统，不仅需要证明系统的可靠性，还需要持续的、部署后的监控，以便快速检测和处理任何不安全的行为。非参数变化点检测的统计方法，尤其是同变检验鞅（CTMs）和随时有效的推断工具，为这一监测任务提供了有前景的途径。然而，现有的方法仅适用于监测有限的假设类别或“警报标准”，例如违反某些可交换性假设的数据变化，或者不能在线适应响应变化。在本文中，我们通过提出加权的同变检验鞅的一般化（WCTMs）来扩展这些监控方法的范围，这为控制假警报的同时进行任何未预期的变化点监测建立了理论基础。对于实际应用，我们提出了具体的WCTM算法，这些算法可以适应对边缘输入分布的小幅度协变量变化，并对更严重的变换，如概念变换（在条件标签分布中）或超出支持范围的极端协变量变换（难以适应的情况），发出警报。在实际数据集上，我们展示了相对于最先进的基准方法的改进性能。

发布时间: 5/8/2025

查看原文

避免灭绝的AI治理：战略格局与可操作的研究问题

作者: Peter Barnett, Aaron Scher

arXiv:2505.04592v1 公告类型: cross 摘要：人类似乎即将开发出在所有认知领域和活动中显著超越人类专家的人工智能系统。我们认为，这种默认轨迹有很大概率导致灾难，包括人类灭绝。风险来自于无法控制强大人工智能系统，恶意行为者滥用人工智能，大国之间的战争，以及专制者的锁定效应。这项研究议程有两个目标：描述人工智能开发的战略格局，并列出重要的治理研究问题。这些问题的答案将提供关键的见解，以成功减少灾难风险。我们描述了四种高级的地缘政治应对先进人工智能发展的场景，并列出了每个场景下最相关的研究问题。我们偏好的场景涉及建立国际上限制危险人工智能开发和部署所需的技术和法律基础设施（我们称之为“断开开关”），这将导致在未来某个时候进行国际协调的人工智能前沿活动暂停。我们描述的第二个场景是美国的人工智能国家项目，其中美国政府将以开发先进人工智能系统并建立全球人工智能开发单边控制为目标进行竞争。我们还描述了另外两种场景：一个类似于今天的轻触式世界，以及一个破坏威胁局面，其中各国通过破坏和威慑来减缓人工智能开发。在我们认为，除了断开开关和暂停场景之外，所有这些轨迹似乎都存在不可接受的灾难性伤害风险。美国国家安全部门和人工智能治理体系需要紧急采取行动，回答关键的研究问题，建立停止危险人工智能活动的能力，并为国际人工智能协议做准备。

发布时间: 5/8/2025

查看原文

以火灭火：通过奖励中和抵御恶意RL微调攻击

作者: Wenjun Cao

arXiv:2505.04578v1 宣告类型：交叉摘要：强化学习（RL）微调将大型语言模型进行转换，同时创建出我们实验验证的一个漏洞：我们的实验表明，恶意的RL微调以惊人的效率拆除了安全护栏，仅需50步并使用最少的对抗性提示，有害行为从0-2增长至7-9。这种攻击途径特别对具有参数级访问权限的开源模型构成威胁。现有的针对监督微调的防御措施对RL的动态反馈机制无效。我们提出了奖励中和（Reward Neutralization），这是首个专门针对RL微调攻击设计的防御框架，建立了简明的拒绝模式，使得恶意的奖励信号无效。我们的方法训练模型生成最少信息的拒绝，攻击者无法利用这些拒绝，系统地中和向有害输出优化的企图。实验验证，在200攻击步骤后，我们的方法保持了较低的有害评分（不超过2），而标准模型迅速恶化。本项工作提供了第一个建设性的证明，证明对日益可访问的RL攻击进行稳健防御是可行的，填补了开放权重模型的关键安全漏洞。

发布时间: 5/8/2025

查看原文

通用神经TSP求解器的纯度定律

作者: Wenzhao Liu, Haoran Li, Congying Han, Zicheng Zhang, Anqi Li, Tiande Guo

arXiv:2505.04558v1 交叉学科类型：跨学科摘要：在不同规模和分布下实现神经方法在旅行商问题（TSP）中的泛化仍然是一项重大挑战。一个关键障碍是神经网络通常无法学习识别通用模式并从多样化的实例中推导出最优解的健壮原则。在本文中，我们首先揭示了纯度定律（PuLa），这是一种基本的结构原则，定义了边的存在率随着周围顶点稀疏性的增加而呈指数增长。PuLa在多元化的实例中得到了统计验证，揭示了全局最优解中对局部稀疏性的持续偏差。基于这一洞察，我们提出了一种新的训练范式——纯度策略优化（PUPO），在解决方案构建过程中显式地使神经解决方案的特征与PuLa对齐，以增强泛化能力。大规模实验表明，PUPO可以无缝集成到流行的神经求解器中，在推理过程中不增加额外的计算开销的情况下，显著增强了其泛化性能。

发布时间: 5/8/2025

查看原文

基于凸评分函数的风险敏感强化学习

作者: Shanyu Han, Yang Liu, Xiang Yu

arXiv:2505.04553v1 类型：跨学科摘要：我们提出了一种包含凸评分函数的广泛类风险目标下的强化学习（RL）框架。这个类包括许多常见的风险度量，如方差、预期短边、entropic Value-at-Risk 和均值风险效用。为了解决时间不一致问题，我们考虑了扩展的状态空间和辅助变量，并将问题重新表述为一个两状态最优化问题。我们提出了一种定制的Actor-Critic算法，并建立了若干理论逼近保证。一个关键的理论贡献是，我们的结果不要求马尔可夫决策过程是连续的。此外，我们提出了一种受交替最小化算法启发的辅助变量采样方法，在某些条件下具有收敛性。我们在金融统计套利交易的应用模拟实验中验证了我们的方法，展示了该算法的有效性。

发布时间: 5/8/2025

查看原文

低资源语言生成语言模型中的数据稀缺性克服：一项系统评价

作者: Josh McGiff, Nikola S. Nikolov

arXiv:2505.04531v1 类型: cross 摘要：随着ChatGPT和Google Gemini等服务的出现，生成语言模型变得越来越受欢迎。虽然这些模型在提高生产力和沟通方面展现了变革性的潜力，但它们主要服务于像英语这样的高资源语言。这加剧了自然语言处理（NLP）中语言不平等的担忧。本文首次系统地针对低资源语言（LRL）中的生成语言模型数据稀缺问题提出了具体的应对策略。从54项研究中，我们识别、分类并评估了技术方法，包括单语言数据增强、反向翻译、多语言训练和提示工程，涵盖了生成任务。我们还分析了架构选择、语言家族表示和评估方法的趋势。我们的发现强调了对基于变换器模型的强烈依赖、对LRL的一小部分的集中关注以及研究之间缺乏一致的评估。我们提出了将这些方法推广到更广泛的LRL的建议，并概述了构建公平的生成语言系统面临的开放挑战。最终，本次评审旨在支持研究人员和开发者构建包容性的AI工具，以服务被忽视的语言，这是走向赋权LRL使用者并保护不断由大规模语言技术定义的世界中的语言多样性的必要步骤。

发布时间: 5/8/2025

查看原文

DFVO：一次学习无黑暗可见光和红外图像解耦融合

作者: Qi Zhou, Yukai Shi, Xiaojun Yang, Xiaoyu Xian, Lunjia Liao, Ruimao Zhang, Liang Lin

arXiv:2505.04526v1 类别: cross 摘要: 可见光和红外图像融合是图像融合领域中最关键的任务之一，旨在生成具有清晰结构信息和高质量纹理特征的融合图像，以供高级视觉任务使用。然而，当面对可见光图像中的严重光照退化时，现有图像融合方法的融合结果经常表现出模糊和灰暗的视觉效果，这对自动驾驶提出了重大挑战。为了解决这个问题，提出了一种名为 Darkness-Free 的网络来一次性处理可见光和红外图像解耦合与融合（DFVO），该网络采用级联多任务方法来替代传统的两阶段级联训练（增强和融合），解决了由分层数据传输引起的熵信息损失问题。具体而言，我们构建了一个潜在-共用特征提取器 (LCFE) 以获取级联任务策略的潜在特征。首先，设计了一个细节提取模块 (DEM) 来获取高频率语义信息。其次，我们设计了一个超交叉注意力模块 (HCAM) 来提取低频信息并保留源图像的纹理特征。最后，设计了一个相关损失函数以引导整个网络学习，从而实现更好的图像融合。大量实验表明，我们的方法在定性和定量评估中均优于现有最先进的方法。特别是，DFVO 在黑暗环境中能够生成更清晰、更具信息量且均匀光照的融合结果，在 LLVIP 数据集上达到 63.258 dB PSNR 和 0.724 CC，为高级视觉任务提供更有效的信息。我们的代码已公开可在 https://github.com/DaVin-Qi530/DFVO 获取。

发布时间: 5/8/2025

查看原文