arXiv:2504.10753v1 声明类型: cross
摘要: 向用户推荐物品一直是基本任务,自始以来,研究者们一直在努力提高推荐系统的性能。大多数广为人知的模型通常采用表示学习,将用户和物品映射到统一的嵌入空间以进行匹配评估。这些方法的主要局限性,尤其是在处理明确反馈和稀疏数据上下文时更为明显。这两个主要局限性是它们容易过拟合以及在预测中无法包含先验不确定性。为了解决这些问题,我们提出了一种名为BDECF的新颖贝叶斯深度集成协作过滤方法。为了提高模型的一般化能力和质量,我们利用了贝叶斯神经网络,这种方法在其权重参数中包含了不确定性。此外,我们引入了一种新的可解释的非线性匹配方法,利用注意机制的优势来嵌入用户和物品的嵌入表示。此外,我们推崇基于集成的超模型的实现,以生成更稳健和可靠的预测,从而构建一个更完整的模型。通过在一系列公开可访问的真实世界数据集上进行广泛的实验和消融研究,我们证实了所提出方法的有效性及其组件的重要性。
arXiv:2504.10751v1 宣告类型: cross
摘要: 在本文中,我们开发了一种系统性框架,用于动态概率占用网格的时间顺序压缩。我们的方法借鉴了信号压缩理论的想法,通过构建一个优化问题来寻找一个多分辨率层次结构编码器,该编码器在压缩图的质量(失真)与其描述大小之间寻求平衡,后者与传输图所需的带宽以及在机载内存中存储图估计值所需的空间相关。由此产生的优化问题允许获得满足可用通信或内存资源的多分辨率图压缩,并且不需要了解占用网格动态的信息。我们开发了一种算法来解决这个问题,并在静态(即非时间变化)和动态(时间变化)占用网格的模拟中展示了所提框架的实用性。
arXiv:2504.10746v1 交叉类型: cross
摘要: 在混合现实应用中,真实的空间声学体验对于实现真正的沉浸感与视觉体验一样重要。尽管近年来在声学场景中的房间脉冲响应(RIR)估计的神经方法取得了进步,但大多数现有方法仅限于它们所训练的单一环境,无法将能力推广到具有不同几何形状和表面材料的新房间。我们旨在开发一个统一模型,能够在进行最少额外测量的情况下重构任何环境的三维声学体验。为此,我们提出了xRIR,一个跨房间RIR预测框架。我们可泛化的核心方法在于将一个几何特征提取器与一个RIR编码器相结合,几何特征提取器从全景深度图像中捕获空间上下文,而RIR编码器仅从几个参考RIR样本中提取详细的声学特征。为了评估我们的方法,我们引入了ACOUSTICROOMS新数据集,该数据集包含来自260个房间的高保真模拟超过300,000个RIR。实验结果显示,我们的方法显著优于一系列基线。此外,我们在四个真实世界环境上评估了我们的模型,成功实现了从仿真到现实的转移,证明了我们方法的普适性和我们数据集的逼真性。
arXiv:2504.10738v1 公告类型:交叉
摘要:智能联网车辆(ICVs)和集成车辆-道路-云系统的迅速增长增加了对高精度实时高清地图更新的需求。然而,由于众包数据的一致性问题,保证地图可靠性仍然具有挑战性,这些问题包括运动模糊、光照变化、恶劣天气和车道标记退化。本文介绍了CleanMAP,这是一种基于多模态大型语言模型(MLLM)的蒸馏框架,旨在过滤和精炼众包数据以实现高置信度的高清地图更新。CleanMAP利用了一个由MLLM驱动的车道可见性评分模型,该模型系统地量化了关键视觉参数,并根据其对车道检测的影响分配置信度分数(0-10)。一种新颖的动态分段置信度评分函数根据车道可见性调整分数,确保与人类评估强烈对齐的同时有效过滤不可靠数据。为了进一步优化地图精度,一种基于置信度的局部地图融合策略按置信度对局部地图进行排名,并选择最佳置信度范围内(最高分减去10%)的前k个最高评分局部地图,以平衡数据质量和数量。在真实自动驾驶车辆数据集上的实验评估验证了CleanMAP的有效性,展示了融合前三张局部地图实现了最低平均地图更新误差0.28米,优于基准(0.37米)并满足严格的精度标准(≤0.32米)。进一步使用真实车辆数据验证确认了84.88%与人类评估者的对齐率,加强了模型的稳健性和可靠性。这项工作确立了CleanMAP作为众包高清地图更新的可扩展和可部署的解决方案,确保更具精确性和可靠性的自动驾驶导航。代码将在 https://Ankit-Zefan.github.io/CleanMap/ 可以获得。
arXiv:2504.10735v1 宣告类型:交叉
摘要:随着模型规模的增长,找到高效的且成本效益高的超参数优化(HPO)方法对于深度学习管道变得越来越重要。虽然多保真度超参数优化(MF-HPO)在降低计算资源需求的同时使用较低保真度的估计值,但现有的保真度来源在较低的计算和内存限制下往往无法生效。我们提出了一种新的保真度来源:训练或冻结的层的数量。对于深层网络,这种方法在提供显著的计算和内存节省的同时,能够在低保真度下保存超参数之间的排名相关性,与完整的模型训练相比。我们通过ResNets和Transformers在我们的实证评估中展示了这一点,并且还分析了在使用GPU资源作为保真度进行超参数优化时冻结层的效用,以及与其他保真度来源结合的组合MF-HPO。这一贡献为使用硬件资源作为保真度的MF-HPO打开了新的应用领域,并为在联合保真度空间中导航的改进算法创造了机会。
arXiv:2504.10700v1 公告类型: cross
摘要: 利用图神经网络(GNNs)处理三维分子图结构的化学基础模型(CFMs)已成为计算化学家和材料科学家不可或缺的工具。这些模型有助于人们理解物质和发现新的分子和材料。与在大型同质图上操作的GNNs不同,CFMs使用的GNNs处理的是大量尺寸各异的几何图,这需要与为大型同质GNNs开发的不同优化策略。本文对CFM训练的两个关键阶段——数据分布和模型训练进行了优化,针对的是目前最先进的CFM——MACE。我们通过将其表述为多目标装载问题来应对数据分布中的负载均衡挑战。我们提出了一种迭代算法,提供了高效、快速且实用的解决方案,确保了有效的数据分布。对于训练阶段,我们确定了MACE中的核心计算内核是张量对称收缩,并优化了这个内核以提高整体性能。我们结合了均衡数据分布和内核优化的方法,显著提高了MACE的训练过程。实验结果表明,使用260万个样本数据集和740个GPU时,每轮训练的执行时间减少了10倍,从12分钟缩短至2分钟。
arXiv:2504.10699v1 Announce Type: 交叉
摘要:本文提出了一种双向快速扩展随机树(RRT)算法,用于解决混合系统运动规划问题。所提出的算法称为HyRRT-Connect,它在混合时间的前向和后向两个方向上进行传播,直到检测到前向和后向传播结果之间的重叠。然后,HyRRT-Connect 通过反转和拼接基于混合时间域定义的功能,构建一个运动计划,确保该运动计划满足给定的混合动力学。为了应对由于容忍前向和后向部分运动计划之间存在一定距离而导致的流中的潜在间断性,我们通过对前向部分运动计划的最终状态进行前向混合时间模拟来重构后向部分运动计划,从而有效消除间断性。所提出的算法应用于一个受控弹跳球系统和一个行走机器人示例,以突出其计算改进。
arXiv:2504.10694v1 类型:交叉
摘要:监狱突破攻击绕过了大型语言模型的安全边界,产生了有害的输出。在这篇论文中,我们询问现有监狱突破所生成的模型输出是否真正有用。例如,当将模型改造以提供制作炸弹的指令时,监狱突破是否能产出好的指令?由于大多数不安全答案(例如,炸弹指令)的有用性难以严格评估,我们通过将模型对与温和且易于评估的话题(例如生物或数学)相关的问题进行拒绝,构建了一个新的监狱突破评估集,从而获得已知真实答案。我们在五个有用性的基准测试中对八种代表性监狱突破进行了评估,结果显示,在监狱突破响应中的模型有用性出现了一致的下降,我们将其称为监狱突破税。例如,在所有经过测试的监狱突破都成功绕过了拒绝回答数学问题的模型安全边界时,这带来了高达92%准确性的下降。总体而言,我们的工作提出了监狱突破税作为AI安全中一个新且重要的指标,并引入了评估现有和未来监狱突破的基准。我们已在https://github.com/ethz-spylab/jailbreak-tax公开了该基准。
arXiv:2504.10685v1 交叉领域小样本目标检测(CD-FSOD)类型:交叉
摘要:当应用于跨领域时,现有的目标检测和少量样本检测模型在跨领域小样本目标检测(CD-FSOD)中面临着重大挑战。在NTIRE 2025的背景下,我们组织了第一届CD-FSOD挑战赛,旨在通过仅有限的标注数据推动当前目标检测器在全新目标领域的性能。此次挑战吸引了152名注册参赛者,收到了42支团队的提交,并最终有13支团队提交了有效的最终参赛作品。参赛者从不同角度处理此任务,提出了新颖的模型,在开源和封闭源设置下均取得了新的最先进的(SOTA)结果。在本文中,我们介绍了第一届NTIRE 2025 CD-FSOD挑战赛的整体情况,强调了提出的方法并总结了参赛者提交的结果。
arXiv:2504.10679v1 交叉领域公告类型
摘要:银行领域的品牌声誉通过对其代码混合和多语言内容中客户意见进行深入分析来维持。传统的NLP模型在低资源语言(如僧伽罗语-英语)混合时,会错分或忽略这些文本,并且无法捕捉到领域特定的知识。本研究介绍了一种混合NLP方法,以提高银行内容的关键词提取、内容过滤和基于方面的情感分类。英语关键词采用混合方法进行提取,该方法结合了微调后的SpaCy命名实体识别模型、基于FinBERT的KeyBERT嵌入、YAKE和EmbedRank,最终实现了91.2%的准确率。僧伽罗语关键词和代码混合关键词使用结合了领域特定僧伽罗语金融词汇的微调后的XLM-RoBERTa模型进行提取,准确率达到了87.4%。为确保数据质量,使用了多种模型进行无关评论过滤,其中BERT-base-uncased模型在英语中实现了85.2%的准确率,XLM-RoBERTa模型在僧伽罗语中实现了88.1%的准确率,优于GPT-4o、SVM和基于关键词的过滤方法。方面分类遵循相同模式,BERT-base-uncased模型在英语中实现了87.4%的准确率,XLM-RoBERTa模型在僧伽罗语中实现了85.9%的准确率,均超过了GPT-4和基于关键词的方法。这些发现证实,微调后的变换器模型在多语言金融文本分析中优于传统方法。目前提出的框架为代码混合和低资源银行环境中品牌声誉监控提供了一种准确且可扩展的解决方案。