arXiv:2505.00533v1 类型: cross
摘要: 深度神经网络常常由于训练数据和测试数据之间的分布变化而出现性能下降。尽管领域适应可以提供解决方案,但在许多真实情况下,隐私问题限制了对训练数据的访问。这种限制促成了测试时适应(TTA)的兴趣,即仅使用未标记的测试数据来适应模型。然而,当前的TTA方法仍然面临实际挑战:(1) 对实例级别的对齐过度关注,忽略了由于缺失来源相关性而导致的CORrelation ALignment (CORAL);(2) 模型更新所需的复杂回传操作,导致计算开销和(3) 领域遗忘。
为了解决这些挑战,我们提供了一种理论分析,探讨了测试时相关性对齐(TCA)的可行性,展示出高置信度实例与测试实例之间相关性对齐可以以理论保证的方式提高测试性能。基于此,我们提出了两个简单而有效的算法:LinearTCA和LinearTCA+。LinearTCA通过简单的线性变换实现实例和相关性对齐,而无需额外的模型更新,而LinearTCA+则作为一个即插即用模块,可以轻松增强现有的TTA方法。广泛实验证明了我们的理论见解,并展示了TCA方法在各种任务、基准和骨干网络中显著优于基线方法。值得注意的是,LinearTCA在OfficeHome数据集上的适应准确率提高了5.88%,同时仅使用了最高GPU内存使用率的4%和计算时间的0.6%,优于最佳基础TTA方法。
arXiv:2505.00515v1 安全类型: cross
摘要:安全性关键的交通模拟在评估在罕见和具有挑战性的场景下自主驾驶系统方面起着重要作用。然而,现有的方法由于缺乏对物理可行性的充分考虑,往往会生成不现实的场景,且生成效率低下。为了解决这些限制,我们提出了一种指导型潜在扩散模型(LDM),能够生成物理上现实且具有对抗性的安全关键交通场景。具体来说,我们的模型利用基于图的变分自编码器(VAE)来学习一个紧凑的潜在空间,该空间能够捕捉复杂的多智能体交互,同时提高计算效率。在此潜在空间中,扩散模型执行去噪过程,以生成现实的轨迹。为了实现可控和对抗性场景的生成,我们引入了新的指导目标,将扩散过程引导至产生对抗性和行为上现实的驾驶行为。此外,我们基于物理可行性检查开发了一种样本选择模块,以进一步增强生成场景的物理可行性。在nuScenes数据集上的广泛实验表明,我们的方法在对抗效果和生成效率上优于现有基线,同时保持较高的现实水平。我们的工作提供了一种有效的工具,用于现实的安全关键场景模拟,为进一步增强评估自主驾驶系统提供了途径。
arXiv:2505.00506v1 类型: cross
摘要:随着大规模语言模型(LLMs)在高风险领域中的部署越来越广泛,检测幻觉内容(即没有支持证据的内容)已成为一个关键挑战。现有的幻觉检测基准往往是合成生成的,主要集中于提取型问答,并未能捕捉到涉及多文档上下文和完整句子输出的现实世界场景的复杂性。我们介绍了HalluMix基准,这是一种多样化的、任务无关的数据集,包含了来自不同领域和格式的示例。使用此基准,我们评估了七个幻觉检测系统——包括开源和闭源系统——突出不同类型任务、文档长度和输入表示之间的性能差异。我们的分析指出了短和长上下文之间的显著性能差异,这对实际中的检索增强生成(RAG)实现具有重要影响。Quotient Detections在总体性能上表现最佳,准确率为0.82,F1分为0.84。
arXiv:2505.00503v1 宣告类型: cross
摘要:离线强化学习的性能受到状态分布偏移问题的重大影响,超分布(OOD)状态校正是解决这一问题的一种流行方法。本文提出了一种名为Density-Aware Safety Perception(DASP)的新型方法,用于OOD状态校正。具体来说,我们的方法鼓励代理优先采取导致更高数据密度结果的行动,从而促进其在其内或返回到已知分布(安全)区域的操作。为了实现这一点,我们在一个同时考虑决策潜在结果及其密度的变分框架内优化目标,从而为安全决策提供关键的上下文信息。最后,通过在离线MuJoCo和AntMaze套件上进行广泛的实验评估,验证了所提出方法的有效性和可行性。
arXiv:2505.00490v1 类型: cross
摘要:协作机器人必须不断适应新的任务和用户偏好,而不用给用户带来过重的负担。虽然以前的交互式机器人学习方法旨在减少人类的努力,但它们通常局限于单任务场景,而且不太适合持续的多任务协作。我们提出了COIL(Cost-Optimal Interactive Learning)——一种多任务交互规划器,在一系列任务中通过战略性地选择三种查询类型(技能、偏好和帮助)来最小化人类的努力。当用户偏好已知时,我们将COIL形式化为无容量设施选址(UFL)问题,这使得使用现成的近似算法可以在多项式时间内进行有界的次优规划。我们通过引入一步信念空间规划来扩展我们的形式化方法,以处理用户偏好中的不确定性,这些近似算法作为子程序保持多项式时间的性能。对操作任务的模拟和物理实验表明,我们的框架在保持任务成功完成的同时,显著减少了分配给人类的工作量。
arXiv:2505.00488v1 Announce Type: cross
摘要:四足机器人越来越多地被部署用于跨越各种地形的负载搬运任务。虽然基于模型预测控制(MPC)的方法可以考虑到负载变化,但它们通常依赖于预定义的步伐计划或轨迹生成器,限制了它们在非结构化环境中的适应性。为了应对这些限制,我们提出了一种自适应强化学习(RL)框架,使四足机器人能够动态适应变化的负载和多样的地形。该框架包括一个基准策略,负责基本的运动,以及一个自适应策略,能够学习纠正动作以在负载变化下保持稳定并改进命令跟踪。通过在Isaac Gym中的大规模模拟实验和在Unitree Go1四足机器人上的真实硬件部署,验证了所提出的方案。控制器在平坦地面、斜坡和楼梯上,在静态和动态负载变化下进行了测试。在所有设置中,我们的自适应控制器在跟踪身体高度和速度命令方面的表现始终优于基准控制器,展示了增强的鲁棒性和适应性,无需明确的设计步态或手动调整。
arXiv:2505.00487v1 声明类型:交叉
摘要:本文描述了使用DeepMIMO仿真器创建脚本并进行数据集分析的过程。使用FGSM方法执行了一次广告插页攻击,以最大化梯度。对比了二分类器在检测失真数据任务中的效果。在无对抗攻击、对抗攻击期间以及分离失真数据的条件下,分析了回归模型质量指标动态变化情况。结果显示,使用梯度最大化执行的对抗性FGSM攻击平均使MSE指标增加33%,R2指标降低10%。LightGBM二分类器在识别对抗性异常数据方面准确率为98%。回归机器学习模型容易受到对抗攻击的影响,但快速分析网络流量和在网络中传输的数据能够识别恶意活动。
arXiv:2505.00482v1 Announce Type: cross
摘要:我们提出了JointDiT,这是一种能够建模RGB和深度图像联合分布的扩散变换器。利用当前最先进的扩散变换器的架构优势和出色的图像先验知识,JointDiT 不仅能够生成高保真度的图像,还能生成几何上合理且准确的深度图。我们提出两种简单但有效的技术实现了这种固体的联合分布建模,即自适应调度权重,这些权重取决于每种模态的噪声级别,以及不平衡的时间步长采样策略。利用这些技术,我们可以在每个模态的所有噪声级别上训练我们的模型,使JointDiT 能够自然处理各种组合生成任务,包括联合生成、深度估计和深度条件图像生成,只需通过控制每个分支的时间步长即可。JointDiT 展现了出色的联合生成性能。此外,它在深度估计和深度条件图像生成中也取得了媲美的结果,表明联合分布建模可以作为条件生成的可替代方案。项目页面可在 https://byungki-k.github.io/JointDiT/ 查看。
arXiv:2505.00467v1 宣告类型:交叉
摘要:我们介绍了在2024年机器学习健康大会(Machine Learning for Healthcare Conference)上于2024年8月15日举行的名为“针对健康领域的大型语言模型进行红队测试”的预会议工作坊的设计过程和发现。工作坊参与者包括计算和临床专业知识的混合组合,他们试图发现漏洞——即真实临床提示,其中大型语言模型(LLM)输出的响应可能对临床造成危害。与临床医师合作进行红队测试有助于识别LLM漏洞,而这些漏洞可能不会被缺乏临床专业知识的LLM开发者所识别。我们报告了发现的漏洞,对其进行分类,并展示了对所有提供的LLM进行复现研究以评估这些漏洞的结果。
arXiv:2505.00455v1 交叉类型:cross
摘要:有效的数据可视化不仅需要技术熟练度,还需要深入理解数据存在的领域特定上下文。这种上下文通常包括关于数据来源、质量以及预期用途的隐形知识,而在数据集本身中很少明确表达。我们介绍了Data Therapist,这是一种基于网络的工具,通过结合迭代Q&A和交互式标注的过程,帮助领域专家将这种隐含知识外化。该系统由大型语言模型驱动,对用户提供的数据集进行分析,向用户提出针对性的问题,并允许在不同粒度级别进行标注。由此产生的结构化知识库既可指导人类的可视化设计,也可指导自动化可视化设计。我们在涉及分子生物学、会计学、政治学和可用安全性领域的专家配对进行的定性研究中评估了该工具。研究揭示了专家在处理其数据时的反复出现的思维模式,并强调了AI支持可以提高可视化设计的领域。