arXiv 论文列表

作者: Linda He, Jue Wang, Maurice Weber, Shang Zhu, Ben Athiwaratkun, Ce Zhang

arXiv:2504.12637v1 Announce Type: cross Abstract: 大型语言模型（LLMs）在处理长上下文推理时面临困难，不仅是因为计算复杂性随序列长度呈二次增长，还因为难以标注长上下文字段且成本高昂。几乎没有任何开源工作系统地剥离长上下文字段，也没有现成的指令调优数据集包含超过100K词元的上下文。为了弥补这一差距，我们提出了一种新颖的后训练合成数据生成策略，旨在高效地扩展LLMs的上下文窗口，同时保持其一般任务性能。我们的方法可以扩展到任意长的上下文长度，不受可用真实世界数据长度的限制，从而有效地解决了原始长上下文数据稀缺的问题。通过逐步旋转位置嵌入（RoPE）扩展训练策略，我们展示了我们的模型在RULER基准和InfiniteBench上表现出色，并在通用语言任务上保持了稳健的性能。

发布时间: 4/18/2025

查看原文

用一个示范实现从模拟到现实的RL，跨越人类与机器人实体间的鸿沟

作者: Tyler Ga Wei Lum, Olivia Y. Lee, C. Karen Liu, Jeannette Bohg

arXiv:2504.12609v1 类型: cross 摘要：教会机器人灵巧操作技能通常需要收集数百个使用穿戴设备或远程操作的演示，这一过程难以扩大规模。人类与物体交互的视频更容易收集和扩大规模，但直接利用这些视频进行机器人学习却困难重重，因为缺乏明确的动作标签，以及机器人手和人类手之间形态上的差异。我们提出了Human2Sim2Robot，这是一种全新的从现实到模拟再到现实的框架，用于仅使用一个人类演示任务的单个RGB-D视频来训练灵巧操作策略。我们的方法利用模拟中的强化学习(RL)来跨越人类和机器人实体的差距，而不依赖穿戴设备、远程操作或通常对于模仿学习方法来说必不可少的大规模数据收集。从演示中，我们提取了两个任务特定的组件：(1) 对象姿态轨迹，以定义以对象为中心且与实体无关的奖励函数；(2) 预操作手的姿态，以在RL训练期间初始化和引导探索。我们发现这两个组件对于学习所需的任务非常有效，可以消除任务特定的奖励塑造和调整的需要。实验结果显示，Human2Sim2Robot 在抓取、非抓握操作和多步任务中分别比无意识的目标开放环轨迹回放高出 55%，比带有数据增强的数据模仿学习高出 68%。项目网站：https://human2sim2robot.github.io

发布时间: 4/18/2025

查看原文

代码复制猫困境：揭开基于LLM的代码生成中的重复之谜

作者: Mingwei Liu, Juntao Li, Ying Wang, Xueying Du, Zuoyu Ou, Qiuyuan Chen, Bingxu An, Zhao Wei, Yong Xu, Fangming Zou, Xin Peng, Yiling Lou

arXiv:2504.12608v1 类型: cross 摘要: 尽管在代码生成方面取得了近期在大语言模型（LLMs）方面的进展，但LLMs生成的代码的质量仍然面临重大挑战。一个主要问题是代码重复，指的是模型生成结构性冗余代码的倾向，导致效率低下和降低可读性。为解决这一问题，我们首次通过使用三种广泛使用的基准测试来评估19个最先进的代码LLMs中的重复现象及其本质，进行了一项实证研究。我们的研究包括定量和定性分析，揭示重复现象普遍存在且在不同程度和粒度上表现出来，包括字符、语句和块级别。我们进一步总结了20种重复模式。基于我们的发现，我们提出了一种基于规则的技术DeRep，用于检测和减轻生成代码中的重复。我们使用开源基准和工业环境对DeRep进行了评估。结果表明，DeRep在减少重复（在rep-3、rep-line和sim-line指标上分别提高了91.3%、93.5%和79.9%）和提高代码质量（相对于贪婪搜索的Pass@1提高了208.3%）方面显著优于基线。此外，集成DeRep还能提高现有重复缓解方法的性能，Pass@1提高幅度从53.7%到215.7%不等。

发布时间: 4/18/2025

查看原文

Robo-SGG：利用布局导向的规范化和还原生成稳健的场景图

作者: Changsheng Lv, Mengshi Qi, Zijian Fu, Huadong Ma

arXiv:2504.12606v1 Announce Type: 交叉摘要：在本文中，我们介绍了一种名为Robo-SGG的新方法，即面向布局的归一化和恢复以实现鲁棒场景图生成。与现有的场景图生成设置相比，鲁棒场景图生成旨在对一系列受损图像进行推理，其核心挑战在于干净图像与受损图像之间的领域转移。现有的场景图生成方法由于视觉特征受损（例如噪声干扰或遮挡）而导致性能下降。为了获得鲁棒的视觉特征，我们利用了领域不变的布局信息，以增强现有方法在受损图像上的效果。具体来说，我们采用实例归一化(IN)来筛选出领域特异性特征，并通过所提出的面向布局的恢复恢复不可改变的结构特征，即通过所提出的面向布局的恢复恢复对象和对象之间以及谓词之间的位置和语义关系。此外，我们提出了一种嵌入布局的编码器（LEE），它可以在场景图框架内的现有对象和谓词编码器中增强鲁棒的位置和语义特征。请注意，我们提出的Robo-SGG模块设计为即插即用组件，可以轻松地集成到任何基础场景图生成模型中。大量的实验表明，通过将最新的方法整合到我们提出的Robo-SGG中，我们分别在VG-C数据集的PredCls、SGCls和SGDet任务上实现了5.6%、8.0%和6.5%的mR@50的相对改进，并在受损场景图生成基准（VG-C和GQA-C）上实现了新的最佳性能。我们将发布我们的源代码和模型。

发布时间: 4/18/2025

查看原文

识别并减轻先验分布对大型语言模型的影响

作者: Liyi Zhang, Veniamin Veselovsky, R. Thomas McCoy, Thomas L. Griffiths

arXiv:2504.12585v1 交叉类别公告类型摘要：大型语言模型（LLMs）有时无法适当地应对确定性任务——例如计数或形成缩写——因为它们在序列令牌上学习到的隐含先验分布影响了它们的响应。在本文中，我们展示了在至少某些情况下，LLMs实际上计算了执行这些任务所需的全部信息，并确定了一些可以让它们访问这些信息以提高其性能的干预措施。首先，我们展示了简单地提示语言模型不要依赖其先验知识在主导先验的任务上产生了显著的改进。然后，我们使用机械可解释性技术来定位LLMs中的先验，并操纵该先验在响应中的影响力。具体来说，我们展示了识别与响应先验概率相关的底层神经网络层的可能性，并且通过基础提示对这些层进行轻量级微调，在未见过的答案上实现了高性能。这些结果表明，生成正确响应所需的信息包含在模型形成的问题的表征中。此外，我们展示了这种微调对于主导先验的任务更为有效，且微调后的错误与先验不再相关。我们的结果表明，可能定义有效的方法来操纵LLMs在解决问题时依赖其先验的程度，在LLMs因令牌序列的先验概率而产生妄想的环境设置中增加其性能可能是可能的。

发布时间: 4/18/2025

查看原文

面向恶意客户端的局部数据量-aware 加权平均在联邦学习中的应用

作者: Leming Wu, Yaochu Jin, Kuangrong Hao, Han Yu

arXiv:2504.12577v1 宣布类型：交叉摘要：联邦学习（FL）允许在无需数据离开本地客户端的情况下协作训练深度学习模型，从而保护客户端隐私。服务器端的聚合过程对最终FL模型的性能至关重要。最常用的聚合方法是基于每个客户端数据量的加权平均，认为这种方法反映了每个客户端的贡献。然而，这种方法容易受到模型偏差的影响，因为不诚实的客户端可能会向服务器上报不准确的训练数据量，而这些信息难以验证。为了应对这一问题，我们提出了一种新颖的安全的Fed数据量感知加权平均法（FedDua）。该方法允许FL服务器基于客户端上传的本地模型梯度准确预测每个客户端的训练数据量。此外，它可以无缝集成到任何涉及服务器端模型聚合的FL算法中。在三个基准数据集上的广泛实验表明，在存在不准确的客户端数据量申明的情况下，与四种流行的FL聚合方法相比，FedDua将全局模型性能平均提高了3.17%。

发布时间: 4/18/2025

查看原文

CM3AE: 一个统一的RGB帧和事件-体素/帧预训练框架

作者: Wentao Wu, Xiao Wang, Chenglong Li, Bo Jiang, Jin Tang, Bin Luo, Qi Liu

arXiv:2504.12576v1 宣传类型: cross 摘要：由于事件摄像头在高动态范围、高时间分辨率、低功耗和低延迟方面的优势，近年来引起了越来越多的关注。一些研究人员已经开始探索直接在事件数据上进行预训练。然而，这些努力往往无法建立与RGB帧之间的强烈联系，限制了其在多模态融合场景中的应用。为了解决这些问题，我们提出了一种新颖的CM3AE预训练框架，用于RGB-事件感知。该框架接受多模态/视图的数据作为输入，包括RGB图像、事件图像和事件体素，为基于事件的和RGB-事件融合的下游任务提供了强大的支持。具体而言，我们设计了一个多模态融合重构模块，该模块从融合的多模态特征中重构原始图像，显式地增强了模型在聚合跨模态互补信息方面的能力。此外，我们采用了多模态对比学习策略，在共享的潜在空间中对齐跨模态特征表示，这有效增强了模型在多模态理解和捕获全局依赖方面的能力。我们构建了一个包含2,535,759个RGB-事件数据对的大规模数据集用于预训练。在五个下游任务上的广泛实验充分证明了CM3AE的有效性。源代码和预训练模型将在 https://github.com/Event-AHU/CM3AE 发布。

发布时间: 4/18/2025

查看原文

MetaSynth：由元提示驱动的代理支架以生成多样的合成数据

作者: Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood

arXiv:2504.12563v1 交叉类型: cross 摘要: 最近的小型语言模型，如Phi-3.5和Phi-4，依赖于通过大型语言模型生成的合成数据。对于其他用途场景，如将大型语言模型适配到特定领域，仍存在很多问题。合成数据的一个关键限制是多样性较低，这对其下游应用以改进其他模型产生了负面影响。为了解决这一问题，我们提出了一种名为MetaSynth的方法，该方法通过元提示来增加合成数据的多样性，即语言模型协调多个“专家”大型语言模型代理协作生成数据。仅使用MetaSynth生成的2500万词的合成数据，我们成功将一个训练良好的大型语言模型（Mistral-7B-v0.3）适应了两个专门领域——金融和生物医药，而不会牺牲该模型在通用任务中的能力。此外，我们使用七个自动评估指标来评估我们的合成数据的多样性，并发现其多样性接近大型语言模型预训练语料库。通过持续预训练Mistral-7B-v0.3，使用MetaSynth的效果显著优于基线大型语言模型，在金融领域的性能提升高达4.08%，在生物医药领域的性能提升高达13.75%。即使模板提示包含先前生成的和变体的上下文示例数据，使用模板提示进行训练时，同一个模型的性能也会下降。我们的研究结果表明，在使用MetaSynth时，几百万词的多样合成数据（不混合任何真实数据）对于有效的领域适应是足够的。

发布时间: 4/18/2025

查看原文

TraCeS: 基于轨迹的安全反馈稀疏信用分配

作者: Siow Meng Low, Akshat Kumar

arXiv:2504.12557v1 安全类型: cross 摘要: 在安全强化学习（RL）中，辅助安全成本用于使智能体趋向于安全的决策。实践中，安全约束，包括成本函数和预算，通常是未知的或难以指定的，因为这需要预见到所有可能的不安全行为。因此，我们考虑了一种一般性的情况，其中真正的安全定义是未知的，并且必须从稀疏标注的数据中学习。我们的主要贡献在于：首先，我们设计了一个安全模型，用于使用多样轨迹及其相应的二元安全标签（即，轨迹是否安全/不安全）对每个决策步骤的影响进行全面的安全性评估。其次，我们展示了我们安全模型的架构，以证明其能够为每个时间步单独学习一个安全得分的能力。第三，我们使用所提出的安全模型重述了安全RL问题，并推导出一种有效的算法来优化一个安全且有奖励的策略。最后，我们的实验证据证实了我们所发现的内容，并表明这种方法在满足未知的安全定义方面是有效的，并且可以扩展到各种连续控制任务中。

发布时间: 4/18/2025

查看原文

基于数字孪生的隐私保护手术室工作流程分析

作者: Alejandra Perez, Han Zhang, Yu-Chun Ku, Lalithkumar Seenivasan, Roger Soberanis, Jose L. Porras, Richard Day, Jeff Jopling, Peter Najjar, Mathias Unberath

arXiv:2504.12552v1 宣告类型：cross 摘要：目的：手术室（OR）是一个复杂的环境，优化工作流程对于降低成本和提高患者结果至关重要。使用计算机视觉方法自动识别围手术期事件能够识别手术室优化中的瓶颈。然而，隐私顾虑限制了将计算机视觉应用于手术室视频的自动化事件检测，这使得在进行手术室工作流程分析时需要采用保护隐私的方法。方法：我们提出了一种两阶段的管道用于保护隐私的手术室视频分析和事件检测。在第一阶段，我们利用视觉基础模型进行深度估计和语义分割，从常规RGB视频生成脱敏数字双胞胎（DT）的手术室。在第二阶段，我们采用了SafeOR模型，这是一种融合了双流的方法，通过处理分割掩码和深度图进行手术室事件检测。我们使用包含38个模拟手术试验的数据集评估了这种方法，该数据集包含五个事件类别。结果：我们的结果显示，基于DT的手术室事件检测方法在检测手术室事件方面的性能与基于原始RGB视频的方法相似，有时甚至更好。结论：DT能够支持保护隐私的手术室工作流程分析，促进脱敏数据在不同机构间的共享，并有可能通过减轻领域特定的外观差异来增强模型的泛化能力。

发布时间: 4/18/2025

查看原文