arXiv:2409.12394v1 公告类型: 交叉 摘要: 物理对抗补丁已成为导致现实世界中交通标志识别(TSR)系统误分类的关键对抗攻击手段。然而,现有对抗补丁的隐蔽性较差,一旦部署就会无差别攻击所有车辆。本文提出了一种隐形且可触发的物理对抗补丁(ITPatch),采用新颖的攻击载体,即荧光墨水,以推进现有技术水平。它对目标标志应用精心设计的荧光扰动,攻击者随后可使用不可见的紫外线触发荧光效应,导致TSR系统误分类标志,并可能引发交通事故。我们进行了全面评估,以研究ITPatch的有效性,结果显示其在低光条件下成功率为98.31%。此外,我们的攻击成功绕过了五种流行的防御措施,成功率为96.72%。
arXiv:2409.12880v1 公告类型: 交叉 摘要: 电子商务商店支持多语言产品搜索,这需要准确的产品标题翻译。多语言大型语言模型(LLMs)在机器翻译任务中展示了令人鼓舞的能力,并且能够一步完成跨语言的产品标题增强和翻译。然而,产品标题翻译通常不仅仅需要语言转换,因为标题简短、缺乏上下文且包含专业术语。本研究提出了一种检索增强生成(RAG)方法,通过检索类似的双语产品信息,并将其作为少样本提示融入,以增强基于LLM的产品标题翻译。实验结果表明,我们提出的RAG方法在LLM有限熟练度的语言对中,将产品标题翻译质量提高了多达15.3%的chrF分数。
arXiv:2409.12388v1 公告类型: 交叉 摘要: 多说话者语音识别(MTASR)在分离和转录重叠语音方面面临独特挑战。为应对这些挑战,本文探讨了在结合序列化输出训练(SOT)用于MTASR时,连接主义时间分类(CTC)在说话者分离中的作用。我们的可视化结果显示,CTC引导编码器在声学嵌入的不同时间区域中表示不同的说话者。基于这一发现,我们提出了一种新颖的说话者感知CTC(SACTC)训练目标,基于贝叶斯风险CTC框架。SACTC是专为多说话者场景设计的CTC变体,它通过约束编码器在特定时间帧表示不同说话者的标记,显式地建模说话者分离。当与SOT结合时,SOT-SACTC模型在各种程度的语音重叠情况下始终优于标准的SOT-CTC。具体而言,我们观察到整体词错误率相对减少了10%,低重叠语音减少了15%。这项工作代表了基于CTC的多说话者语音识别任务增强的初步探索,为多说话者语音识别中的说话者分离提供了新的视角。
arXiv:2409.12842v1 公告类型: 交叉 摘要: 视觉语言模型(VLMs)能够同时对图像和文本进行推理,以解决从视觉问答到图像描述的多种任务。本文聚焦于地图解析,这是一个在VLM背景下尚未探索的新任务,对移动机器人尤其有用。地图解析不仅需要理解标签,还需要理解地图的几何配置,即各个区域是什么样的以及它们是如何连接的。为了评估VLMs在地图解析上的表现,我们使用平面图地图提示VLMs生成复杂的室内导航任务计划。我们的结果显示,VLMs在地图解析中表现出色,在需要九个导航动作序列的任务中成功率达到0.96,例如接近和通过门。除了直观的观察,例如VLMs在小地图和简单导航任务中表现更好,还有一个非常有趣的观察结果是,它在大型开放区域中的表现下降。我们根据实验结果提供了实用的建议来应对这些挑战。网页: https://shorturl.at/OUkEY
arXiv:2409.12832v1 公告类型: 交叉 摘要: 食品工业中的风味开发正面临着快速创新和精确风味轮廓创建的需求挑战。传统的风味研究方法通常依赖于迭代、主观的测试,缺乏现代需求所需的效率和可扩展性。本文提出了三项贡献来应对这些挑战。首先,我们为风味科学中的科学代理定义了一个新的问题领域,概念化为风味轮廓来源和理解的假设生成。为了促进该领域的研究,我们引入了FoodPuzzle,这是一个包含978种食品和1,766种风味分子轮廓的挑战性基准。我们提出了一种新颖的科学代理方法,结合上下文学习和检索增强技术,在食品科学领域生成基于事实的假设。实验结果表明,我们的模型在风味轮廓预测任务中显著超越了传统方法,展示了其改变风味开发实践的潜力。
arXiv:2409.12386v1 公告类型: 交叉 摘要: 尽管预训练的自动语音识别(ASR)系统在匹配的领域中表现出令人印象深刻的性能,但当面对由未见过的录音环境和条件引起的通道不匹配时,其性能往往会下降。为了缓解这一问题,我们提出了一种新的通道感知数据模拟方法,用于鲁棒ASR训练。我们的方法利用了通道提取技术和生成对抗网络(GANs)的协同作用。我们首先训练一个能够从任意音频中提取嵌入的通道编码器。在此基础上,使用少量目标域数据提取通道嵌入,并用于指导基于GAN的语音合成器。该合成器生成的语音忠实地保留了输入的音素内容,同时模仿了目标域的通道特性。我们在具有挑战性的跨台湾客家语(HAT)和跨台湾台语(TAT)语料库上评估了我们的方法,与基线相比,分别实现了相对字符错误率(CER)降低了20.02%和9.64%。这些结果突显了我们的通道感知数据模拟方法在弥合源域和目标域声学差异方面的有效性。
近年来,量子技术,特别是量子传感技术,在先进平台的能力及其应用方面取得了显著增长。在这一背景下,氮-空位(NV)色心作为领先的平台之一,提供了多功能、高灵敏度和高分辨率的磁场传感。然而,当前的核磁共振磁场传感方案(如应用于NV量子传感)在灵敏度、动态范围和带宽之间存在权衡。本文针对这一问题,并实施了机器学习工具,以在大动态范围场景中增强NV磁场传感的灵敏度/带宽权衡。我们通过实验验证了这一新方法,相关性能指标提高了多达5倍。我们的研究结果推动了量子机器学习协议在传感应用中的发展,使其更趋可行和高效。
arXiv:2409.12815v1 公告类型: 交叉 摘要: 许多气候过程通过大量非线性微分方程系统来表征;这,再加上参数化复杂相互作用所需的大量数据,意味着地球系统模型(ESM)模拟可能需要数周时间才能在大规模集群上运行。不确定性量化可能需要数千次运行,使得ESM模拟对于初步评估不切实际。替代方案可能包括简化模型中的过程,但最近的尝试集中在使用机器学习来补充这些模型,甚至作为完全替代品。我们利用机器学习,特别是全连接神经网络(FCNNs)和图卷积神经网络(GCNNs),以实现快速模拟和不确定性量化,从而为更广泛的ESM模拟提供信息。我们的替代模型在单个A100 GPU上大约310秒内模拟了80年,而ESM模型则需要数周时间,同时平均温度误差低于$0.1^{\circ}C$,最大误差低于$2^{\circ}C$。
arXiv:2409.12385v1 公告类型: 交叉 摘要: 当今许多现实应用,如视频监控和城市治理,需要解决戴口罩人脸的识别问题,其中多样化的口罩内容替换常常导致外观不完整和表示模糊,从而显著降低识别准确率。受近期非模态感知进展的启发,我们提出将非模态完成机制迁移到戴口罩人脸识别任务中,采用端到端的去遮挡蒸馏框架,该框架包含两个模块。去遮挡模块应用生成对抗网络进行人脸补全,恢复口罩下的内容并消除外观模糊。蒸馏模块采用预训练的通用人脸识别模型作为教师,并通过大量在线合成人脸对,将教师的知识传递给学生模型,用于补全人脸的训练。特别地,教师知识以多个阶次实例间的结构关系表示,作为后验正则化以实现适应性。通过这种方式,知识可以充分蒸馏并传递以识别戴口罩人脸。在合成和真实数据集上的实验证明了所提出方法的有效性。
arXiv:2409.12812v1 公告类型: 交叉 摘要: 目前,互联自动驾驶汽车(CAVs)已开始在全球范围内进行道路测试,但在复杂场景中的安全性和效率表现仍不尽如人意。协同驾驶利用CAVs的互联能力,实现整体大于部分之和的协同效应,成为提升CAV在复杂场景中性能的有前景方法。然而,当前协同驾驶缺乏交互和持续学习能力,限制了其在单一场景和特定协同驾驶自动化(CDA)中的应用。为解决这些问题,本文提出了CoDrivingLLM,一个交互式且可学习的LLM驱动的协同驾驶框架,以实现全场景和全CDA。首先,由于大型语言模型(LLMs)不擅长处理数学计算,引入了一个环境模块,根据语义决策更新车辆位置,从而避免直接由LLM控制车辆位置可能带来的潜在错误。其次,基于SAE J3216标准定义的四个CDA级别,我们提出了一种基于思维链(COT)的推理模块,包括状态感知、意图共享、协商和决策,增强了LLMs在多步骤推理任务中的稳定性。通过推理过程中的冲突协调器进行集中冲突解决。最后,通过引入记忆模块并采用检索增强生成,CAVs被赋予了从过往经验中学习的能力。我们通过在协商模块上的消融实验、不同经验推理以及与其他协同驾驶方法的比较,验证了所提出的CoDrivingLLM。