LLM2D

arXiv 论文列表

作者: Songyuan Zhang, Oswin So, Mitchell Black, Zachary Serlin, Chuchu Fan
arXiv:2504.15425v1 声明类型: cross 摘要:多机器人系统中的任务通常需要机器人协作并完成团队目标同时保持安全。这个问题通常被形式化为约束马尔可夫决策过程(CMDP),其目标是最小化全局成本并将约束违反的平均值保持在用户定义的阈值以下。受现实世界机器人应用的启发,我们将安全定义为零约束违反。尽管已经提出了许多安全多智能体强化学习(MARL)算法来解决CMDP,但这些算法在该设置下面临训练不稳定的问题。为解决这一问题,我们使用约束优化的epigraph形式来提高训练稳定性,并证明集中式的epigraph形式问题可以通过每个代理以分布式方式求解。这产生了一种名为Def-MARL的新型集中式训练分布式执行MARL算法。在两个不同模拟器上的八个不同任务的仿真实验表明,Def-MARL实现了最佳的整体性能,满足安全约束,并保持了训练的稳定性。在 Crazyflie 四旋翼无人机上的真实硬件实验表明,与其它方法相比,Def-MARL具有安全协调代理完成复杂协作任务的能力。
发布时间: 4/23/2025
查看原文
作者: Nishath Rajiv Ranasinghe, Shawn M. Jones, Michal Kucer, Ayan Biswas, Daniel O'Malley, Alexander Buschmann Most, Selma Liliane Wanna, Ajay Sreekumar
arXiv:2504.15424v1 交叉发布类型: cross 摘要: 大型语言模型(LLMs)越来越多地被领域专家和非领域专家用于生成和翻译科学计算机代码。Fortran 一直是用于科学发现的高性能计算(HPC)领域中的主流编程语言之一。尽管采用率越来越高,但基于LLM的遗留代码翻译的实用性尚未得到彻底评估或量化。在这里,我们研究了基于LLM的Fortran到C++的翻译,作为一个使用开放权重LLM在两个不同的计算平台上构建自主工作流的步骤。我们统计量化了翻译后C++代码的编译准确性,测量了LLM翻译的C++代码与人工翻译的C++代码的相似性,并统计量化了Fortran到C++翻译的输出相似性。
发布时间: 4/23/2025
查看原文
作者: Van-Giang Trinh, Belaid Benhamou, Sylvain Soliman, Fran\c{c}ois Fages
arXiv:2504.15417v1 类型:跨领域 摘要: Datalog$^\neg$ 是在从演绎数据库和抽象论辩框架到回答集编程的各种领域中广泛使用的中心形式主义。其模型理论是为正常逻辑程序开发的逻辑语义的有限对应物,主要基于克拉克完成和两值或三值典范模型的概念,包括支持、稳定、常规和良基模型。在本文中,我们建立了 Datalog$^\neg$ 与布尔网络理论之间的形式联系,布尔网络理论最初由史都阿特·考夫曼和雷内·托马斯引入,用于推理基因调控网络。我们使用布尔网络理论中的一些先前结果来证明,在 Datalog$^\neg$ 程序中不存在奇圈时,常规模型与稳定模型一致,这意味着存在稳定模型;在不存在偶圈时,我们展示了稳定部分模型的唯一性,这意味着常规模型的唯一性。You 和 Yuan 在 1994 年为正常逻辑程序声称的这些关于常规模型的结果,但我们在负正常逻辑程序中仅能修正他们对良基分层的定义及其证明中的问题。我们还使用 Datalog$^\neg$ 程序的原子依赖图中反馈顶点集的基数来提供稳定部分模型、常规模型和稳定模型数量的上界。有趣的是,我们与布尔网络理论的联系还引导我们关注 Datalog$^\neg$ 程序的陷阱空间概念。我们将支持或稳定的陷阱空间的概念与 Datalog$^\neg$ 的其他语义联系起来,并展示了子集最小的稳定的陷阱空间与常规模型之间的等价性。
发布时间: 4/23/2025
查看原文
作者: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
arXiv:2504.15376v1 Announce Type: cross 摘要:我们介绍了CameraBench,这是一个大型数据集和基准测试,旨在评估和提高对摄像机运动理解的能力。CameraBench包含约3000个多样化的互联网视频,这些视频经过专家通过严格多阶段质量控制过程进行注释。我们的成果之一是与电影制作人合作设计的摄像机运动基本类型学。例如,我们发现一些运动,如“跟随”(或跟踪),需要理解场景内容(如移动的主题)。我们进行了一项大规模的人类研究来量化人类注释的表现,揭示出领域专业知识和基于教程的培训可以显著提高准确性。例如,一名新手可能会将“推近”(一个内参的变化)与“前进移动”(一个外参的变化)混淆,但可以通过培训来区分这两者。使用CameraBench,我们评估了Structure-from-Motion(SfM)和Video-Language Models(VLMs),发现SfM模型在捕获依赖于场景内容的语义基本类型方面遇到困难,而VLMs在捕获需要精确估计轨迹的几何基本类型方面存在困难。然后,我们在CameraBench上微调了一个生成性VLM,以实现两者的最优结合,并展示了其应用,包括运动增强的注释、视频问答以及视频-文本检索。我们希望通过我们的类型学、基准测试和教程推动未来的工作,向着理解任何视频中的摄像机运动的终极目标迈进。
发布时间: 4/23/2025
查看原文
作者: Calvin Luo, Zilai Zeng, Yilun Du, Chen Sun
arXiv:2504.15369v1 交叉类型: 交叉 摘要:视频生成模型在机器人领域展现了巨大的潜力,它们可以作为视觉规划者或策略监督者。当预先在互联网规模的数据上训练时,这些视频模型能够深刻理解与自然语言的对齐,并因此可以通过文本条件来促进对新下游行为的泛化。然而,它们可能不会对代理所处特定环境的具体特性敏感。另一方面,使用机器人行为的领域内示例训练视频模型会自然地编码环境特异性的复杂性,但可用的演示数据的规模可能不足以通过自然语言规范支持对未见任务的泛化。在这项工作中,我们研究了不同适应技术,这些技术将领域内信息与大规模预训练视频模型相结合,并探讨这些技术在多大程度上能够使机器人任务实现新颖的文本条件泛化,同时也在数据和资源考虑方面进行独立考量。我们成功地展示了在不同机器人环境中,通过少量示例数据适应强大视频模型可以成功促进对新颖行为的泛化。特别地,我们提出了一种新颖的适应策略,称为Inverse Probabilistic Adaptation,不仅能够在机器人任务和环境中一致性地实现优异的泛化性能,还能对适应数据的质量表现出鲁棒性,即使只有次优的领域内演示数据可用时,也能成功解决新颖任务。
发布时间: 4/23/2025
查看原文
作者: Mohit Gupta, Akiko Aizawa, Rajiv Ratn Shah
arXiv:2504.15330v1 Announce Type: cross 摘要:大型语言模型(LLMs)的出现显著影响了包括医疗在内的许多领域,通过增强自动化系统处理和生成类人类文本的能力。然而,尽管取得了进展,LLMs在医疗环境中的可靠性和准确性仍然存在关键问题。当前的评估方法往往缺乏稳健性,无法提供LLM性能的全面评估,这在临床环境中可能导致潜在风险。为了解决这些问题,我们提出了Med-CoDE,一种专门设计的评估框架,用于评估医疗LLMs。该框架利用批判性方法来定量测量模型生成的响应与已建立的医疗标准真相之间的分歧程度。该框架同时捕捉了医疗环境中的准确性和可靠性。提出的评估框架旨在通过提供一种系统的方法来评估医疗LLMs的质量和可信度,填补现有的评估缺口。通过广泛的实验和案例研究,我们展示了该框架在提供全面、可靠地评估医疗LLMs方面的实用性。
发布时间: 4/23/2025
查看原文
作者: Usevalad Milasheuski, Luca Barbieri, Sanaz Kianoush, Monica Nicoli, Stefano Savazzi
arXiv:2504.15328v1 Announce Type: cross 摘要:贝叶斯联邦学习(BFL)能够在分布式学习中实现不确定性量化和鲁棒适应。与频率主义方法不同,它估计全局模型的后验分布,提供有关模型可靠性的见解。然而,目前的BFL方法忽视了在动态环境下的持续学习挑战,其中数据分布会随时间变化。我们提出了一种应用于雷达数据的持续BFL框架,雷达数据在几天内收集,以进行人类感应。利用随机梯度 Langevin 动力学(SGLD),我们的方法顺序更新模型,并利用过去的后验分布为新任务构建先验。我们针对几种基线,评估了我们方法的准确性、预期校准误差(ECE)和收敛速度。结果强调了持续贝叶斯更新在保存知识并适应演变数据方面的有效性。
发布时间: 4/23/2025
查看原文
作者: Alberto Casagrande, Francesco Fabris, Rossano Girometti, Roberto Pagliarini
arXiv:2504.15325v1 类别: cross 摘要: 一致性测量,如科恩κ系数或内类别相关系数,用于衡量两个或多个分类器之间的匹配度。它们在从医学到人工智能等多个领域中被广泛应用,从医学中评估治疗方法和临床试验的有效性,到人工智能中量化分类器减少后的近似度。不同分类器对金色标准的一致性可以通过使用它们与金色标准本身的协议测量所诱导的顺序进行简单比较。然而,仅通过使用协议测量值来将一种方法简单地标记为好或坏需要一个标度或显著性指数。文献中为科恩κ系数提出了一些质量标度,但它们主要较为粗陋,其边界也是任意设定的。本文提出了一种通用的方法来评估任意两个分类器之间一致性值的显著性,并引入了两个显著性指数:一个适用于有限数据集,另一个用于处理分类概率分布。此外,本文还考虑了评估这些指数的计算问题,并确定了一些高效的算法来评估它们。
发布时间: 4/23/2025
查看原文
作者: Vuong M. Ngo, Edward Bolger, Stan Goodwin, John O'Sullivan, Dinh Viet Cuong, Mark Roantree
arXiv:2504.15324v1 Announce Type: cross 摘要:外泌体是细胞信号传导和疾病生物标志物中的重要囊泡。由于它们的复杂性,整体“omics”方法比单一生物标志物更为可取。虽然拉曼光谱法对于外泌体分析非常有效,但它需要高样品浓度且对脂质和蛋白质的敏感度有限。表面增强拉曼光谱有助于克服这些挑战。在本研究中,我们利用Neo4j图数据库组织了3,045个外泌体的拉曼光谱,增强了数据的一般化能力。为了进一步细化光谱分析,我们引入了一种新颖的光谱过滤过程,该过程结合了PageRank过滤器和最优维度降维。这种方法改进了特征选择,从而提高了分类性能。具体而言,使用我们的光谱处理方法,Extra Trees模型在基于拉曼光谱和表面分类高血糖、低血糖和正常外泌体样本时,分别达到了0.76和0.857的准确率,采用的是组10折交叉验证。我们的结果显示,结合图基光谱过滤和最优维度降维显著提高了分类准确性,减少了噪音同时保留了关键生物标志物信号。这种新颖框架增强了基于拉曼的外泌体分析,扩展了其在生物医学应用、疾病诊断和生物标志物发现方面的潜力。
发布时间: 4/23/2025
查看原文
作者: Donggyun Kim, Chanwoo Kim, Seunghoon Hong
arXiv:2504.15323v1 交叉类型: 摘要:尽管在少量样本学习中测试时微调是有益的,但在实时或资源受限的场景中,多次反向传播步骤可能会变得极其昂贵。为了解决这一局限,我们提出了一种方法,无需计算梯度即可模拟梯度下降,从而实现高效的测试时适应。具体来说,我们将梯度下降形式化为常微分方程(ODE)的欧拉离散化,并训练一个辅助网络,仅使用少量样本的支持集来预测任务条件下的漂移。然后,适应简化为简单的数值积分(例如,通过欧拉方法),仅需辅助网络的几次前向传递——不需要梯度或目标模型的前向传递。在使用Meta-Dataset和CDFSL基准测试跨域少量样本分类实验中,我们的方法在域外性能上显著优于未微调基线,同时内存成本仅为其6%,计算时间仅为标准微调的0.02%,因此在直接转移和完全微调方法之间建立了实践中的折衷方案。
发布时间: 4/23/2025
查看原文