arXiv:2505.07813v1 类别: 集分类
摘要: 大规模、多样化的机器人数据集已成为使灵巧操作策略能够泛化到新环境的一种有前途的方法,但获取这些数据集面临许多挑战。尽管远程操作可以提供高保真度的数据集,但其高昂的成本限制了其可扩展性。那么,如果人们可以使用自己的手,就像在日常生活中那样来收集数据呢?在DexWild中,一个多样化的数据收集团队使用他们的手在多种环境和物体之间收集了大量的交互数据。为了记录这些数据,我们创建了DexWild-System,一种低成本、便携且易于使用的设备。DexWild学习框架在人类演示和机器人演示中共同训练,这使得它在单独训练每个数据集时的表现更好。这种组合导致了鲁棒性强的机器人策略,能够在最少的机器人特定数据附加下泛化到新的环境、任务和化身。实验结果表明,DexWild显著提高了性能,在未见过的环境中取得了68.5%的成功率,几乎是仅使用机器人数据训练的策略成功率的四倍,并提供了5.8倍更好的跨化身泛化。更多信息、视频结果、代码库和使用说明见https://dexwild.github.io
arXiv:2505.07809v1 宣告类型: cross
摘要:本文对匈牙利语的各种静态词嵌入进行了全面分析,包括传统的Word2Vec模型和FastText模型,以及使用不同提取方法从BERT基模型中提取的静态嵌入。我们对这些嵌入进行了内在和外在两种任务的评估,以提供其性能的全面视图。在内在评估中,我们采用了一个词类比任务,该任务评估嵌入捕捉语义和句法关系的能力。结果显示,传统的静态嵌入,尤其是FastText,在这方面表现出色,实现了高准确率和均值倒数排名(MRR)评分。在BERT基模型中,使用X2Static方法提取静态嵌入的方法表现出优于去语境化和聚合方法的性能,接近传统静态嵌入的效果。在外在评估中,我们使用双向LSTM模型进行命名实体识别(NER)和词性标注(POS)任务。结果显示,来自动态模型的嵌入,尤其是使用X2Static方法提取的嵌入,优于纯静态嵌入。值得注意的是,ELMo嵌入在NER和POS标记任务中均获得最高准确率,突显了即使在静态形式下使用上下文化表示的好处。我们的研究结果强调了静态词嵌入在自然语言处理(NLP)应用中的持续相关性,并且先进的提取方法可能有助于增强基于BERT模型的实用性。此研究为匈牙利语嵌入性能的理解提供了新的见解,并为该领域未来的发展提供了有价值的参考。本文的训练脚本、评估代码、受限词汇表和提取的嵌入将公开发布,以支持进一步的研究和可重复性。
arXiv:2505.07802v1 类型: cross
摘要:生成模型在轨迹规划方面展现出了巨大的潜力,这归功于它们对于复杂分布建模的倾向以及可引导的推理过程。之前的研究所成功地将这些模型应用于机器人操作中,但在所需解不在训练集内的完整轨迹中时表现不佳。我们发现这是由于无法通过拼接进行规划所致,并随后针对解决这一问题所需的架构和数据集选择进行了处理。在此基础上,我们提出了一种新的在训练和推理过程中添加的方案,以稳定并增强这些能力。通过在仿真和真实硬件上生成超出分布边界的计划并进行避障操作,我们展示了该方法的有效性。在这些任务中,我们的方法相对于基线方法表现出了显著的改进,并能够避开四倍大小的障碍物。
arXiv:2505.07796v1 类别: cross
摘要:持续预训练(CPT)已成为将强基础模型应用于特定下游任务的一种流行且有效的方法。在本文中,我们探讨了大规模语言模型在CPT过程中的学习动态。我们特别关注每一步训练过程中通用和下游领域性能的变化,通过验证损失来衡量领域性能。我们观察到,CPT损失曲线本质上表征了一个曲线向另一个隐藏曲线的转变,并可以通过分离分布偏移和学习率衰减的效果来进行描述。我们推导出了一条结合两种因素的CPT标度定律,使我们能够在任何持续训练步骤和CPT中的不同学习率调度(LRS)下预测损失。我们的建模提供了一个全面理解CPT中几个关键因素的视角,包括损失潜力、峰值学习率、训练步骤、重放比等。此外,我们的方法可以适应不同CPT目标(如平衡通用和领域特定性能)自定义训练超参数。广泛的实验表明,我们的标度定律在各种CPT数据集和训练超参数下都适用。
arXiv:2505.07793v1 交叉公告类型
摘要:最近,在大规模语言模型(LLMs)发展中,出现了一种开发递归次平方模型的趋势,这些模型能够提高长上下文处理效率。我们研究了领先的大型长上下文模型,重点关注其固定大小的递归记忆对其性能的影响。我们的实验揭示,即使这些模型在扩展上下文中进行训练,它们利用长上下文的能力仍然不足。具体而言,我们证明了一种基于片段的推理过程,该过程仅识别并处理输入中最相关的部分,可以缓解递归记忆失败,并且对许多长上下文任务都是有效的:在LongBench基准测试中,我们的方法分别将Falcon3-Mamba-Inst-7B的总体性能提高了14%,Falcon-Mamba-Inst-7B提高了28%,RecurrentGemma-IT-9B提高了50%,以及RWKV6-Finch-7B提高了51%。令人惊讶的是,这种简单的办法在具有挑战性的LongBench v2基准测试中也取得了最先进的结果,展示了与相同大小的Transformer竞争的性能。此外,我们的发现引起了一个问题,即递归模型是否真正利用了长范围依赖关系,因为我们的单片段策略即使在需要跨上下文关系的任务中也能提供更强大的性能。
arXiv:2505.07775v1 交叉类型公告
摘要:说服是交流的基本方面,对从日常对话到政治、营销和法律等高风险情境下的决策均产生影响。随着会话式AI系统的兴起,说服的范围得到了显著扩展,带来了一些机遇与风险。AI驱动的说服可以应用于有益的应用,但也可能带来操纵和不道德影响的威胁。此外,AI系统不仅是说服者,也是容易受说服影响的对象,使其容易受到对抗性攻击和偏见强化的威胁。尽管在AI生成的说服性内容方面取得了快速进展,但由于说服本身固有的主观性和情境依赖性,我们对其有效性的理解仍然有限。在本文综述中,我们围绕三个关键视角提供了一种全面的计算说服概览:(1)AI作为说服者,探索AI生成的说服性内容及其应用;(2)AI作为说服对象,考察AI对影响和操纵的敏感性;以及(3)AI作为评判者,分析AI在评估说服策略、检测操纵和确保道德说服方面的作用。我们介绍了计算说服研究的分类框架,并讨论了关键挑战,包括评估说服性、减轻操控性说服以及开发负责任的AI驱动说服系统。本文综述指出了未来的研究方向,旨在通过应对日益强大的语言模型所带来的风险来增强AI驱动说服的安全性、公平性和有效性。
arXiv:2505.07768v1 交叉类型:cross
摘要:大规模语言模型(LLMs)在代码生成方面展现了前所未有的能力。然而,LLM生成的代码仍然存在广泛的功能错误,尤其是在LLMs从未见过的复杂编程任务中更为明显。最近的研究表明,开发者在检查和修复LLMs生成的错误代码时经常遇到困难,这降低了他们对基于LLM的代码生成的信任度和生产力。受通信中的相互接地理论启发,我们提出了一种交互方法,利用代码注释作为开发者和LLMs之间的共享理解媒介。我们的方法通过嵌套代码生成、行内注释生成以及上下文反馈(通过可编辑注释)来促进迭代接地,以使生成的代码与开发者的意图保持一致。我们在两个流行的基准测试上评估了我们的方法,并证明我们的方法显著改善了多个最先进的LLM,例如在HumanEval上code-davinci-002的pass@1提高了17.1%。此外,我们进行了用户研究,参与人数为12人,并将我们的方法与两个基线进行了比较:(1)与GitHub Copilot交互,(2)与一个名为多轮程序合成的多步代码生成范式交互。与使用我们的方法相比,参与者完成给定编程任务的速度提高了16.7%,任务成功率提高了10.5%。上述结果表明,交互性地完善代码注释能够促进合作式的相互接地的建立,从而提高了代码生成的准确性并提升了开发者的信心。
arXiv:2505.07755v1 Announce Type: 关联
摘要:边缘计算作为一种关键性技术已经涌现出来,它提供了诸如低延迟、增强的数据安全性和减少对集中式云基础设施的依赖等显著优势。这些优势对于需要实时数据处理或严格安全措施的应用至关重要。尽管这些优势很明显,但工作在边缘集群内的边缘设备经常被严重闲置。这种低效主要是由于缺乏一个全面的性能分析机制,该机制可以帮助动态调整给定工作负载所需系统配置。由于边缘计算环境涉及CPU频率、功耗和应用程序性能之间的复杂交互,对这些相关性的更深入理解是必要的。通过揭开这些关系,便可以做出有根据的决定,从而在提高计算效率和节能之间取得平衡。为了填补这一空白,本文利用合成的微基准测试,通过改变工作负载大小和CPU频率,评估了一个边缘集群中单一处理节点的功耗和性能特性。结果表明,在兼顾性能和功耗的情况下,最优的测量可以实现边缘资源的最佳利用。
arXiv:2505.07728v1 通用型:跨域
摘要:在大型数据集上训练的通用模仿学习策略在解决多种操作任务方面显示出巨大的潜力。然而,为了确保在不同条件下的泛化,策略需要使用包含大量环境因素变化的数据(例如,相机姿态、桌面高度、干扰物)进行训练——如果要详细地这样做,将是一项代价高昂的任务。我们提出了一种原理性的方法,用于决定在每个因素下应收集什么数据以及收集多少数据,通过构建因素缩放曲线(FSC),量化随单个因素或配对因素的数据规模变化时策略性能的变化。这些曲线使得在给定预算下,能够有针对性地获取最具影响力的因素组合的数据。我们通过广泛的模拟和实地实验评估了提出的方法,在从头训练和微调设置中都进行了评估,并展示了与现有数据收集策略相比,该方法在新环境中提升真实任务成功率最多可达26%。我们还展示了如何使用离线度量有效地指导数据收集,而无需大规模进行实地评估。
arXiv:2505.07715v1 报告类型: cross
摘要: 事件驱动的目标检测由于其高时间分辨率、宽动态范围和非同步地址事件表示等优势而引起了越来越多的关注。利用这些优势,脉冲神经网络(SNN)作为一种有前景的方法已经浮现出来,提供了低能耗和丰富的时空动态。为了进一步提高事件驱动的目标检测性能,本研究提出了一种新的混合脉冲视觉变换器(HsVT)模型。HsVT模型集成了一个空间特征提取模块来捕获局部和全局特征,以及一个时间特征提取模块来建模事件序列中的时间依赖性和长期模式。这种组合使HsVT能够捕获时空特征,提高其处理复杂事件驱动的目标检测任务的能力。为了支持该领域的研究,我们开发并公开发布了《跌倒检测数据集》,用作事件驱动的目标检测任务的基准数据集。该数据集使用事件驱动的相机捕获,确保了面部隐私保护,并且由于事件表示格式的原因,减少了存储需求。我们在不同模型大小的GEN1和跌倒检测数据集上对HsVT模型进行了评估。实验结果表明,HsVT在参数更少的情况下实现了事件检测性能的显著提升。