arXiv 论文列表

作者: Kanggeon Lee, Soochahn Lee, Kyoung Mu Lee

arXiv:2505.04864v1 归一化类型: cross 摘要：现有图像对齐方法在特征稀疏区域、极端尺度和视场差异以及大形变情况下表现不佳，常常导致准确性不足。通过在多尺度图像表示中关注关键区域并逐步细化变换场，可以提高对这些挑战的鲁棒性。因此，我们提出了一种名为自回归变换（ART）的新方法，该方法在自回归框架中迭代估计从粗到细的变换。利用分层多尺度特征，我们的网络在每个尺度上使用随机采样的点来细化变换。通过结合跨注意力层的指导，模型能够关注关键区域，即使在特征受限的挑战性条件下也能确保精确对齐。在多种数据集上的广泛实验表明，ART 显著优于现有最佳方法，使其成为一种广泛适用的精确图像对齐的新方法。

发布时间: 5/9/2025

查看原文

D-CODA: 差分协调双臂数据增强

作者: I-Chun Arthur Liu, Jason Chen, Gaurav Sukhatme, Daniel Seita

arXiv:2505.04860v1 宣告类型: cross 摘要：学习双臂操作具有挑战性，因为它具有高维度，并且两个手臂之间需要紧密配合。眼手协调的模仿学习，使用腕部安装的摄像头，通过关注任务相关视图简化了感知。然而，收集多样化的演示仍然代价高昂，这激发了需要可扩展的数据增强的需求。虽然先前的工作已经在单臂设置中探索了视觉增强的方法，但将这些方法扩展到双臂操作需要在两个手臂之间生成一致性视角的观察结果，并生成既有效又可行的动作标签。在本文中，我们提出了Diffusion for COordinated Dual-arm Data Augmentation (D-CODA)，一种针对眼手双臂模仿学习的离线数据增强方法。该方法训练一个扩散模型以合成新的、视角一致的手腕相机图像，并同时生成关节空间的动作标签。它使用约束优化确保涉及夹爪与物体接触的增强状态符合适用于双臂协调的约束条件。我们在5个模拟任务和3个真实世界任务上评估了D-CODA。我们的结果在2250个模拟试验和300个真实世界试验中显示，它优于基准和消融实验，表明其在眼手双臂操作中可扩展数据增强方面的潜力。我们项目的网站为：https://dcodaaug.github.io/D-CODA/。

发布时间: 5/9/2025

查看原文

PR2：通过LLM进行原始指针小窍门重写以将C翻译为更安全的Rust

作者: Yifei Gao, Chengpeng Wang, Pengxiang Huang, Xuwei Liu, Mingwei Zheng, Xiangyu Zhang

arXiv:2505.04852v1 类型: cross 摘要: 由于 Rust 的健壮的内存和线程安全保证，将 C 代码翻译成 Rust 代码的兴趣日益增长。诸如 C2RUST 这样的工具能够从 C 代码生成与之语义等效的 Rust 代码。然而，生成的 Rust 程序常常依赖于不安全的构造，特别是原始指针，这削弱了 Rust 的安全性保证。本文旨在通过消除原始指针来提高由 C2RUST 生成的 Rust 程序的内存安全性。具体来说，我们提出了一种窗口级原始指针重写技术，将各个函数中的原始指针提升为合适的 Rust 数据结构。从技术上讲，PR2 使用基于决策树的提示来引导指针提升过程。此外，它利用代码变更分析来指导转换过程中引入的错误修复，从而有效地解决了编译和测试执行期间遇到的错误。我们构建了 PR2 的原型，并使用 gpt-4o-mini 对 28 个真实世界的 C 项目进行了评估。结果显示，PR2 成功地在这些项目中消除了 13.22% 的局部原始指针，显著增强了翻译后的 Rust 代码的安全性。平均而言，PR2 完成一个项目的转换需要 5.44 小时，平均成本为 1.46 美元。

发布时间: 5/9/2025

查看原文

在 evolving leaderboards 中，LLM 忠实性在 RAG 中的基准测试

作者: Manveer Singh Tamber, Forrest Sheng Bao, Chenyu Xu, Ge Luo, Suleman Kazi, Minseok Bae, Miaoran Li, Ofer Mendelevitch, Renyi Qu, Jimmy Lin

arXiv:2505.04847v1 Announce Type: cross 摘要：幻觉仍然是大语言模型面临的一个持续挑战。RAG（检索增强生成）旨在通过在上下文中生成响应来减少幻觉。然而，即使提供了上下文，大语言模型仍然频繁地引入未经支持的信息或产生矛盾。本文介绍了我们对大语言模型幻觉的测量努力，重点关注摘要任务，评估了各种大语言模型在总结文档时引入幻觉的频率。我们讨论了Vectara现有的大语言模型幻觉排行榜，该排行榜基于Hughes Hallucination Evaluation Model (HHEM)。虽然HHEM和Vectara的幻觉排行榜引起了广泛的研究兴趣，但我们通过对这些排行榜所依赖的方法在现有幻觉数据集上的有效性进行分析，来考察HHEM及其当前幻觉检测方法所面临的挑战。为了解决这些局限性，我们提出了FaithJudge，这是一种由少量人类幻觉注解指导的大语言模型裁判方法，该方法在当前方法上显著提高了自动化大语言模型幻觉评估的效果。我们引入了一个基于FaithJudge改进的幻觉排行榜，与我们现有的幻觉排行榜一起，为RAG中的大语言模型幻觉评估提供了更可靠的基准。

发布时间: 5/9/2025

查看原文

将价值重新带回RL：通过统一语言模型推理器与验证器，实现更好的测试时缩放

作者: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini

arXiv:2505.04842v1 宣告类型: cross 摘要: 用于微调大型语言模型推理器的盛行强化学习(RL)方法，如GRPO或Leave-one-out PPO，会放弃学习的价值函数，而倾向于使用经验估计的回报值。这阻碍了依赖于使用价值函数进行验证的测试时计算量的扩展。在本文中，我们提出了RL$^V$，它通过联合训练LLM作为推理器和使用RL生成的数据作为生成验证器，增强了任何“价值无关”的RL方法，而无需显著增加开销来添加验证能力。实验证明，通过并行采样，RL$^V$能将MATH准确率提高20%以上，并且与基RL方法相比，RL$^V$能够实现8到32倍的高效测试时计算量扩展。此外，RL$^V$在容易到困难的任务和跨领域任务上都表现出强大的泛化能力。进一步地，RL$^V$在与长推理R1模型共同扩展并行和顺序测试时计算量时，实现了1.2到1.6倍的性能提升。

发布时间: 5/9/2025

查看原文

量子启发式优化过程用于数据插补

作者: Nishikanta Mohanty, Bikash K. Behera, Badsah Mukherjee, Christopher Ferrie

arXiv:2505.04841v1 声明类型: cross 摘要：数据插补是数据预处理中的关键步骤，特别是在具有缺失或不可靠值的数据集中。本研究介绍了一种新的基于量子的插补框架，该框架在UCI糖尿病数据集中进行了评估，该数据集包含多个临床特征上的生物上不可行的缺失值。该方法结合了主成分分析（PCA）与量子辅助旋转，并通过无梯度经典优化器-COBYLA、模拟退火和差分进化进行优化，以在保持统计一致性的同时重建缺失值。重建后的值受限于原始特征分布的±2个标准差范围内，避免了在中心趋势周围出现不现实的聚类。这种方法在多个方面取得了显著改进，包括平均减少超过85%的Wasserstein距离以及Kolmogorov-Smirnov检验p值在0.18到0.22之间，而传统方法（如均值、KNN和MICE）的p值则高于0.99。此外，该方法还消除了零值伪像，并提高了插补数据的真实性和变异性。通过将基于量子的变换与可扩展的经典框架相结合，该方法为医疗和AI管道等领域中的插补任务提供了一个稳健的解决方案，其中数据质量和完整性至关重要。

发布时间: 5/9/2025

查看原文

分段常数谱图神经网络

作者: Vahan Martirosyan, Jhony H. Giraldo, Fragkiskos D. Malliaros

arXiv:2505.04808v1 宣告类型: cross 摘要: 图神经网络(GNNs)通过利用数据中的图结构在各种领域取得了显著的成功。现有的谱GNNs使用低度多项式滤波器来捕捉图的谱特性，但由于多项式的低度，它们可能无法完全识别图的谱特性。然而，增加多项式的次数是计算上昂贵的，并且超出一定阈值后会导致性能平台或下降。在本文中，我们引入了分段常数谱图神经网络(PieCoN)来解决这些问题。PieCoN结合了常数谱滤波器和多项式滤波器，提供了更灵活的方式来利用图结构。通过适应性地将频谱划分为区间，我们的方法增加了可以有效地学习的谱特性的范围。在包括同质性和异质性图在内的九个基准数据集上的实验表明，PieCoN在异质性数据集上特别有效，突显了其在广泛领域的应用潜力。

发布时间: 5/9/2025

查看原文

ORBIT-2：面向天气和气候降尺度的_exacale视觉基础模型的扩展-scaling

作者: Xiao Wang, Jong-Youl Choi, Takuya Kurihaya, Isaac Lyngaas, Hong-Jun Yoon, Ming Fan, Nasik Muhammad Nafi, Aristeidis Tsaris, Ashwin M. Aji, Maliha Hossain, Mohamed Wahib, Dali Wang, Peter Thornton, Prasanna Balaprakash, Moetasim Ashfaq, Dan Lu

arXiv:2505.04802v1 地方类型: cross 摘要:稀疏观测和粗分辨率气候模型限制了有效的区域决策，强调了稳健降尺度的必要性。然而，现有的AI方法在变量和地理区域的一般化方面存在困难，并且受到Vision Transformer (ViT) 自注意力二次复杂性的制约。我们引入了ORBIT-2，这是一种用于全球高分辨率气候降尺度的可扩展基础模型。ORBIT-2包含两项关键技术创新：(1) 简轻残差ViT（Reslim），一种带有残差学习和贝叶斯正则化的轻量级架构，用于高效、稳健的预测；和(2) 块级序列尺度算法（TILES），该算法将自注意力复杂性从二次降低到线性，从而实现长序列处理和大量并行。ORBIT-2可在32,768个GPU上扩展至100亿参数，实现最高1.8 ExaFLOPS持续吞吐量和92-98%的强扩展效率。它支持将分辨率细化至0.9公里的全球分辨率，并且可以处理多达42亿个令牌的序列。在7公里分辨率的基准测试中，ORBIT-2在观测数据的R²得分范围内达到0.98到0.99的高准确性。

发布时间: 5/9/2025

查看原文

reservoir计算机中的错构动态：利用未训练吸引子填补空白

作者: Jack O'Hagan, Andrew Keane, Andrew Flynn

arXiv:2505.04792v1 类别: cross 摘要：近年来，由于人工神经网络(ANNs)设计和训练创新的帮助，人工智能取得了显著进步。尽管如此，我们仍然相对不了解基本形式的ANNs是如何学习、未能学习以及在无意中生成虚假信息的，这一现象被称为“自撰谬语”(confabulation)。为了提供一些基础性的见解，本文分析了在蓄水池计算机(RCs)中自撰谬语是如何发生的：蓄水池计算机是一种动态系统的形式，ANN的一种。RCs 特别有用，因为它们以一种明确的方式自撰谬语：当RCs被训练以重构给定吸引子的动力学时，它们有时会构建一个未被训练的吸引子，即所谓的“未训练吸引子”(UA)。本文揭示了当重构失败时，UA 的作用以及它们对模拟重构吸引子之间过渡的影响。根据我们的结果，我们得出结论，UA 是学习系统的一个固有特征，其状态空间是受限的，这意味着这种类型的自撰谬语可能存在于RCs 之外的系统中。

发布时间: 5/9/2025

查看原文

回忆以记住（R2R）：一种高效的目标驱动无监督连续学习框架，使用生成性回忆

作者: Sriram Mandalika, Harsha Vardhan, Athira Nambiar

arXiv:2505.04787v1 宣布类型:交叉摘要:连续学习涉及从新数据中逐步获取知识，同时保留之前获取的知识，从而缓解神经网络中的“灾难性遗忘”问题。我们的工作提出了一种新的基于不确定性驱动的无监督连续学习框架，名为“回忆以记住（R2R）”。提出的R2R架构通过聚类级别的不确定性驱动反馈机制和VLM增强的生成回忆模块，高效地平衡使用未标记和合成标记数据。不同于依赖预训练模型和伪标签的传统记忆缓冲方法，我们的R2R框架不需要任何先期训练。它利用未标记数据的视觉特征，并通过基于聚类的不确定性估算结合动态阈值进行连续适应。同时，生成回忆机制与使用DeepSeek-R1增强的CLIP VLM一起产生代表过往经验的标记合成数据，类似于生物视觉思维通过回忆记忆来执行新、未见过的任务。在CIFAR-10、CIFAR-100、CINIC-10、SVHN和TinyImageNet数据集上进行了大量实验分析。我们提出的R2R方法提高了知识保留，分别达到了98.13%、73.06%、93.41%、95.18%、59.74%的性能，超过当前最佳性能超过4.36%。

发布时间: 5/9/2025

查看原文