arXiv:2503.24361v1 Announce Type: cross
摘要:大型现实世界机器人数据集有潜力训练通用机器人模型,但扩大现实世界人类数据的收集是耗时且资源密集的。模拟在补充大规模数据方面具有巨大潜力,特别是在生成AI和自动化数据生成工具的最新进展使创建可扩展的机器人行为数据集成为可能的情况下。然而,仅在模拟中训练策略并在现实世界中迁移它往往需要大量的手工努力来缩小现实差距。一个令人信服的替代方案是在模拟和现实世界数据混合中共同训练策略。初步研究表明,这种策略可以在仅使用少量现实世界数据训练的策略上显著提高性能。然而,社区缺乏对混合模拟与现实共同训练的系统理解,以及如何利用模拟数据的好处来从事现实世界机器人学习。本文提供了一种简单而有效的利用模拟数据解决基于视觉的机器人操作任务的方法。我们通过全面实验得出了这种方法,验证了不同模拟和现实世界数据集上的共同训练策略。使用两个领域——机器人手臂和类人机器人——以及各种任务,我们证明即使模拟和现实世界数据之间存在显著差异,通过模拟数据也可以提高现实世界任务性能的平均38%。有关视频和额外结果可访问 https://co-training.github.io/
arXiv:2503.24358v1 类型: cross
摘要: 关键值(KV)缓存通过存储先前生成的令牌的KV张量来加速LLM的解码过程。这减少了冗余计算,但以增加内存使用为代价。为减轻这种开销,现有方法将KV张量压缩为更低位表示;然而,随着生成更多令牌,量化误差可能会累积,可能导致不希望的输出。在本文中,我们引入了SQuat(子空间正交KV缓存量化)。它首先通过查询张量构造一个子空间,以捕获最重要的任务相关信息。在进行键张量量化时,它确保(去)量化的键与该子空间保持正交,从而最小化量化误差对注意力机制输出的影响。SQuat不需要模型微调,不需要额外的校准数据集进行离线学习,并且基于我们开发的理论框架。通过数值实验,我们展示了我们的方法将峰值内存减少了2.17到2.82倍,提高了吞吐量2.45到3.60倍,并且在现有KV缓存量化算法中取得了更优的基准测试得分。
arXiv:2503.24354v1 Announce Type: cross
摘要:参数生成已经作为一种新的神经网络开发范式出现,它通过直接合成高质量的模型权重,为传统神经网络训练提供了替代方案。在低秩适应(LoRA)用于不断更新(即,不断更新)的大语言模型(LLMs)的背景下,这种方法承诺能实现高效适应而不需要昂贵的重新训练。然而,现有的方法在同时实现可扩展性和可控性方面面临关键限制。在本文中,我们介绍了ORAL,一种新的**有条件循环扩散**框架,以解决这些挑战。ORAL结合了一种新颖的条件机制,整合了模型架构和文本任务规范,使得能够生成任务特定的LoRA参数,并且这些参数可以在不断更新的基础模型之间无缝转移。我们的方法可以扩展到具有数十亿参数的大语言模型,并且保持可控性。通过在五个预训练的LLMs上进行七项语言任务、四项视觉任务和三项多模态任务的广泛实验,我们证明了ORAL生成的LoRA参数达到了与vanilla训练的主管模型相当或更优的性能。
arXiv:2503.24325v1 安全类型: 横向交叉
摘要:我们考虑一个多机器人环境,其中有一队多容量自主机器人,必须服务分布在不同位置的接取与配送请求,并且每个请求都有固定的最长等待时间限制。这些请求可以提前调度或在系统中实时进入。在这种环境下,路由策略的稳定性定义为该策略的成本随时间均匀有界。大多数先前的工作要么通过离线解决问题来理论地维持稳定性,要么考虑动态到达的请求以牺牲稳定性理论保证为代价。在本文中,我们旨在通过提出一种新颖的前瞻式展开基础的路由框架来弥合这一缺口,该框架能够适应实时需求同时仍然可以证明地保持所学习的路由策略的稳定性。我们通过提出一个车队大小算法来为我们的方法提供证明性的稳定性保证,该算法获得一个足够大的车队以确保从结构上维持稳定性。为了验证我们的理论结果,我们针对哈佛大学晚间的巴士系统中的实际乘车请求进行了案例研究。我们还使用当前部署的小车队规模来评估我们框架的性能。在这一较小的配置下,我们将方法与当前部署的路由算法、贪心启发式算法以及基于蒙特卡罗树搜索的算法进行对比。我们的实验结果显示,当使用我们在理论结果中找到的足够大的车队规模时,我们的框架能够维持稳定性。对于当前部署的小车队规模,我们的方法比最接近的基线多服务6%的请求,同时将中位乘客等待时间减少了33%。
arXiv:2503.24310v1 声明类型: cross
摘要:在本研究中,我们介绍了BEATS,一种用于评估大型语言模型(LLMs)中的偏差、伦理、公平性和事实性的新型框架。基于BEATS框架,我们提出了一个用于评估LLMs的偏差基准,该基准涵盖了29个不同的衡量指标。这些指标涵盖了广泛的特点,包括人口统计学、认知和社会偏差,以及伦理推理、群体公平性和与误导信息风险相关的事实性衡量标准。这些指标使定量评估LLM生成的响应在多大程度上可能延续社会偏见得以扩展系统性不平等成为可能。要想在这一基准中获得高分,LLM必须在他们的响应中表现出非常公平的行为,这意味着这成为了负责任的人工智能评估的严格标准。我们实验数据得出的实证结果表明,37.65% 的由行业领先模型生成的输出包含某种形式的偏差,突显了在关键决策系统中使用这些模型带来的重大风险。BEATS框架和基准提供了可扩展且统计上严格的基准评估LLMs的方法,诊断驱动偏差的因素,并开发缓解策略。借助BEATS框架,我们的目标是帮助开发更具社会责任和伦理对齐的人工智能模型。
arXiv:2503.24307v1 类型:跨领域
摘要:本研究对使用大型语言模型(LLMs)进行心理健康文本分析的三种方法进行了系统比较:提示工程、检索增强生成(RAG)和微调。使用 LLaMA 3,我们在两个数据集上评估了这些方法在情绪分类和心理健康状况检测任务中的表现。微调在情绪分类(91%的准确率)和心理健康状况(80%的准确率)方面表现最佳,但需要大量的计算资源和大规模的训练集,而提示工程和RAG则提供了较为灵活的部署方式,尽管性能中等(40-68%的准确率)。我们的研究结果为心理健康应用中实施基于LLM的解决方案提供了实用的见解,突出了准确性、计算资源需求和部署灵活性之间的权衡。
arXiv:2503.24305v1 交叉类型公告
摘要:小分子在生物医学、环境和农药化学领域中起着关键作用,每个领域都有独特的物理化学要求和成功标准。尽管生物医学研究受益于丰富的数据集和已确立的标准,但农业化学品数据依然稀缺,特别是在物种特异性毒性方面。本研究关注ApisTox,这是目前最全面的实验验证的化学毒性数据集,针对的是蜜蜂(Apis mellifera),一种生态上至关重要的传粉者。我们利用一系列机器学习方法来评估ApisTox,包括分子指纹、图核和图神经网络,以及预训练模型。与MoleculeNet基准中的药学数据集的比较分析表明,ApisTox代表了一个独特的化学空间。在非药学数据集(如ApisTox)上的性能下降表明,目前仅基于生物医学数据训练的最先进的算法具有有限的泛化能力。我们的研究强调了需要更多的多样化数据集以及针对农业化学品领域的目标模型开发的重要性。
arXiv:2503.24299v1 类型: cross
摘要: 我们正式引入了Shape Expressions语言(ShEx)的继承机制。该机制受到了面向对象编程语言中继承概念的启发,并提供了类似的优势,如重用、模块化和更灵活的数据建模。通过一个例子,我们解释了继承机制的主要特性。我们介绍了其语法和形式语义。该语义是在ShEx 2.1语义的基础上扩展的。同时,它还直接产生了一个验证算法,该算法是以前ShEx验证算法的扩展,而其算法复杂度保持不变。
arXiv:2503.24284v1 宣传类型: 横跨领域
摘要: 当前的欺骗性路径规划(DPP)方法解决了设计能够从被动外部观察者处隐藏其真实目标的路径的问题。这些方法不适用于观察者能够执行对抗性干预以阻碍路径规划代理的情况。在本文中,我们提出了在对抗性干预下解决DPP问题的一种新的基于马尔可夫决策过程(MDP)的模型,并开发了新的信息价值(VoI)目标来指导DPP策略的设计。利用我们提出的VoI目标,路径规划代理通过选择对观察者具有低信息价值的轨迹,使对抗性观察者选择次优干预措施。通过利用MDP线性规划理论的连接,我们推导出了计算效率高的合成在对抗性干预下执行DPP的策略的方法。在我们的实验中,我们展示了所提出的方法在对抗性干预下实现欺骗性的有效性,并证明了我们在具有说明性网格世界的测试问题上,与现有DPP方法和保守的路径规划方法相比,我们的方法具有更好的性能。
arXiv:2503.24278v1 宣告类型: cross
摘要:机器人学习中可扩展且可重复的策略评估一直是一个长期存在的挑战。评估对于衡量进展和构建更好的策略至关重要,但在现实世界中的评估,尤其是在能够提供统计上可靠结果的大规模评估中,会耗费大量的人工时间且难以获得。随着对越来越通用的机器人策略进行评估,所需的评估环境也越来越多样化,从而使评估瓶颈更加突出。为了使机器人策略的现实世界评估更加实用,我们提出了AutoEval系统,该系统能够在最少的人工干预下全天候自动评估通用的机器人策略。用户通过将评估作业提交到AutoEval队列中与AutoEval交互,类似于将软件作业提交到集群调度系统中,AutoEval将在框架内为评估任务安排策略,并具备自动成功检测和自动场景重置功能。我们展示了AutoEval几乎可以完全消除评估过程中的手动干预,使其能够全天候进行评估,且评估结果与手工执行的真实评估结果高度一致。为了促进机器人社区内对通用策略的评估,我们已提供了对BridgeData机器人设置中使用WidowX机器人臂的多个AutoEval场景的公共访问权限。未来,我们希望能够在各个机构中设置AutoEval场景,形成一个多样化的分布式评估网络。