arXiv:2504.02606v1 宣告类型: cross
摘要: 可解释的人工智能(xAI)干预旨在通过提高复杂黑盒模型的可解释性来提升用户信任,同时也作为从高性能预测系统中提取科学见解的一种手段。在分子属性预测中,通过突出显示输入分子结构中的最小变化如何导致预测属性的最大偏离,因果解释为我们提供了一种理解预测行为的方式。然而,只有当这些解释反映出真实底层属性的分布时,它们才有可能提供有意义的科学见解——我们将其定义为因果真实度。为了增加这种真实度,我们提出将不确定性估计技术集成到因果解释中,以筛选出高预测不确定性的因果候选。通过合成数据集和真实世界数据集的计算实验,我们证明了传统的不确定性估计方法,如集成和均值方差估计,已经显著降低了平均预测误差并增加了因果真实度,特别是在偏离分布的设置中。我们的结果突显了将不确定性估计纳入可解释性方法的重要性以及其潜在影响,特别是考虑到模型集成等低努力干预措施的相对高效果。
arXiv:2504.02605v1 问题解决类型: 交叉
摘要:问题解决任务是修改代码库以生成一个解决给定问题的补丁。然而,现有的基准测试,如SWE-bench,几乎完全集中在Python上,这使得它们在评估大型语言模型(LLMs)在多样的软件生态系统中的表现时显得不足。为了解决这个问题,我们引入了一个多语言问题解决基准测试,称为Multi-SWE-bench,涵盖了Java、TypeScript、JavaScript、Go、Rust、C和C++。它包括总共1,632个高质量的实例,这些实例是由68位专家注释员从2,456个候选者中仔细注释而来的,从而确保基准测试可以提供准确可靠的评估。基于Multi-SWE-bench,我们使用三种代表性方法(无代理、SWE代理和OpenHands)评估了一系列最先进的模型,并提供了全面的分析和关键经验见解。此外,我们启动了一个Multi-SWE-RL开源社区,旨在构建大规模强化学习(RL)训练数据集以解决代码问题任务。作为初始贡献,我们发布了一组4,723个结构良好的实例,跨越了七种编程语言,为这一领域的RL研究奠定了坚实的基础。更重要的是,我们开源了整个数据生产管道,以及详细的教程,鼓励开源社区不断贡献并扩展数据集。我们期望Multi-SWE-bench和不断壮大的Multi-SWE-RL社区能够成为推动RL实现全部潜力的催化剂,使我们更接近AGI的黎明。
arXiv:2504.02589v1 交叉类型公告
摘要:在本文中,我们提出了一种新的几何方法,通过低秩张量近似来完成知识图谱。我们基于Tucker张量分解,将一个预先训练且成熟的欧几里得模型与一种新颖的双曲交互项相结合。这一修正使得模型能够更细腻地捕捉与真实世界知识图谱更一致的数据分布特性。通过将两种几何结构结合起来,我们的方法提高了模型的表达能力,实现了比之前欧几里得和双曲模型在链接预测准确性上的新最佳性能,同时参数数量显著减少。
arXiv:2504.02586v1 宣告类型: cross
摘要:本文介绍四种不同的人工智能算法用于音乐生成,并旨在不仅根据生成音乐的审美质量,而且根据其在特定应用中的适用性来比较这些方法。第一组旋律由一个略微修改的视觉变换神经网络产生,该网络用作语言模型。第二组旋律通过将聊天声化与经典变换神经网络结合生成(本文之前的研究中介绍了这种音乐生成方法)。第三组旋律通过将施林格节奏理论与经典变换神经网络结合生成,第四组旋律采用OpenAI提供的GPT3变换网络生成。对这些方法生成的旋律进行了比较分析,结果显示,这些方法之间存在显著差异,特别是在审美价值方面,GPT3生成的旋律最为悦耳动听,而新引入的施林格方法证明比之前的声音化方法能生成更悦耳的音乐。
arXiv:2504.02558v1 交叉公告类型:rip电流
摘要:rip电流是世界各地许多海滩上导致致命事故和受伤的主要原因,强调了自动检测这些危险的表层水流的重要性。在本文中,我们解决了新的任务:rip电流实例分割。我们引入了一个包含2466张图像的全面数据集,这些图像带有新创建的多边形标注用于实例分割,用于训练和验证。此外,我们还呈现了一个新的数据集,包含17个无人机视频(约24K帧),视频以30 FPS录制,并且都使用了多边形进行实例分割标注和边界框进行物体检测标注,用于测试目的。我们对静态图像训练了各种版本的YOLOv8进行实例分割,并在测试数据集(视频)上评估了它们的性能。YOLOv8-nano模型(可以在便携设备上运行)在验证数据集上取得了最高的mAP50为88.94%,在测试数据集上的宏观平均mAP为81.21%。这些结果为未来的rip电流分割研究提供了基准。我们的工作通过引入详细的标注数据集和训练一个深度学习模型来分割rip电流,为现有的文献做出了贡献。该代码、训练细节和标注数据集已公开发布在https://github.com/Irikos/rip_currents。
arXiv:2504.02546v1 类型: cross
摘要:强化学习(RL)可以直接增强大规模语言模型的推理能力,而无需大量依赖监督微调(SFT)。在本文中,我们重新审视了传统的策略梯度(PG)机制,并提出了一种名为群体策略梯度(GPG)的极简主义RL方法。与传统方法不同,GPG 直接优化原始的RL目标,从而取消了代理损失函数的使用。如我们在论文中所展示的,通过消除批评者模型和参考模型,并避免使用KL散度约束,我们的方法在与群体相对策略优化(GRPO)相比时,在训练过程中显著简化了流程。我们的方法在无需依赖辅助技术和调整的情况下达到了优越的性能。广泛的实验表明,我们的方法不仅减少了计算成本,而且在各种单模态和多模态任务中都优于GRPO。我们的代码可在 https://github.com/AMAP-ML/GPG 获取。
arXiv:2504.02544v1 宣言类型: cross
摘要: 我们提出了傅里叶截断 Wasserstein (FSW) 嵌入 - 这是一种将多集和 $\mathbb{R}^d$ 上的测度嵌入到欧几里得空间的新型方法。我们提出的嵌入在分布之间近似保留了截断 Wasserstein 距离,从而提供了几何上有意义的表示,更好地捕捉了输入结构。此外,它在测度上是单注的,在多集上是双唇同步的 - 这使其与基于和池或最大池的常见方法相比具有显著优势,后者在证明上不满足双唇同步性,并且在许多情况下甚至不是单注的。这些保证所需的目标维数几乎是最优的,约为 $2 N d$,其中 $N$ 是输入多集的最大大小。
此外,我们证明了不可能以双唇同步的方式将 $\mathbb{R}^d$ 上的分布嵌入到欧几里得空间。因此,我们的嵌入的度量属性,在某种意义上是最好的。
通过数值实验,我们证明了我们的方法能够产生优越的多集表示,从而在实际学习任务中提高了性能。具体来说,我们展示了 (a) 一个简单的 FSW 嵌入与 MLP 的组合在学习(非截断的)Wasserstein 距离时达到了最先进的性能;以及 (b) 用 FSW 嵌入替换最大池化可以显著增强 PointNet 对参数减少的鲁棒性,即使在参数减少 40 倍后,仅出现轻微的性能下降。
arXiv:2504.02526v1 交叉类型:综合
摘要:AI与人类的有效沟通对于实现高效的人机共创至关重要。然而,许多现有的共创型AI工具在沟通上并不有效,限制了它们作为合作者的潜力。本文基于对107篇全文论文的系统性回顾,介绍了我们提出的AI通信设计框架(FAICO)以实现共创型AI。FAICO展示了AI通信的关键方面及其对用户体验的影响,以指导有效的AI通信设计。随后,我们展示了将该框架转化为两个实用工具的方法:设计卡供设计师使用,配置工具供用户使用。设计卡使设计师能够在共创情境中考虑适用于不同用户群体的AI通信策略,而配置工具则使用户能够根据自身需求和创意工作流程定制AI通信。本文在人机共创与人机交互领域中贡献了新的见解,重点关注设计AI通信以提升用户体验。
arXiv:2504.02512v1 交叉公告类型
摘要:尽管在时间动作分割方面取得了显著进展,但将方法推广到未见过的视角的问题仍然未得到解决。因此,我们定义了一个未见过的视角动作分割的协议,在训练过程中,评估模型所需的摄像机视角是不可用的。这包括从顶部 frontal 视角转变为侧面视角,甚至更具挑战性地从外视角转变为 ego-视角。此外,我们提出了一种时间动作分割的方法,以应对这一挑战。我们的方法通过在序列和片段层面共享表示,减少训练过程中视角差异的影响。我们通过引入序列损失和动作损失实现了这一目标,这两者共同有助于在不同视角下实现一致的视频和动作表示。在对 Assembly101、IkeaASM 和 EgoExoLearn 数据集的评估中,我们取得了显著的改进,未见过的外视角的 F1@50 提高了 12.8%,未见过的 ego-视角的改进则达到了 54% 的显著提升。
arXiv:2504.02495v1 类型: cross
摘要: 强化学习(RL)已被广泛应用于大规模语言模型(LLMs)的后训练中。最近,在LLMs中激励推理能力的研究表明,适当的强化学习方法可以使推理时的可扩展性更加有效。强化学习的一个关键挑战是,在可验证的问题或人工规则之外的各种领域中获得LLMs的准确奖励信号。在本文中,我们探讨了如何通过更多的推理计算来改进奖励建模(RM)以应对一般查询,即**一般主义者RM的推理时可扩展性**,并进一步探讨了如何通过适当的强化学习方法提高性能-计算扩展的有效性。对于RM方法,我们采用点生成式奖励建模(GRM),以实现对不同输入类型的灵活性和推理时可扩展性的潜力。对于学习方法,我们提出了自我原则批判调整(SPCT),通过在线RL,促进GRM中可扩展的奖励生成行为,从而自适应地生成原则并准确地生成批判,结果得到了**DeepSeek-GRM**模型。此外,为了提高推理时的可扩展性,我们使用并行采样来扩展计算使用,并引入了一个元奖励建模来指导投票过程,以获得更好的扩展性能。从经验上讲,我们展示了SPCT显著提高了GRM的质量和可扩展性,超过了各种奖励建模基准中的现有方法和模型,而不会产生严重的偏差,且能够在推理时扩展性方面取得更好的性能。DeepSeek-GRM在某些任务中仍面临挑战,我们认为可以通过未来努力改进通用奖励系统的可扩展性来解决这些问题。该模型将被发布并开源。