arXiv 论文列表

作者: Miriam Alber, Christoph H\"ones, Patrick Baier

在工业制造中，机器学习最具前景的应用之一是利用质量控制系统早期检测缺陷产品。这样的系统可以降低成本并减少由于视觉检查的单调性而导致的人为错误。如今，大量研究采用机器学习方法来识别不平衡视觉质量控制数据集中的罕见缺陷产品。这些方法通常依赖于两个组成部分：一个视觉主干来捕捉输入图像的特征，以及一个异常检测算法来判断这些特征是否在预期分布范围内。随着Transformer架构作为首选视觉主干的兴起，现在存在各种各样的这两种组件的组合，它们在检测质量和推理时间之间取得平衡。面对这种多样性，该领域的从业者往往需要花费大量时间来研究适合其当前用例的正确组合。我们的贡献是通过审查和评估当前的视觉Transformer模型以及异常检测方法来帮助从业者做出选择。为此，我们选择了这两个领域的SOTA模型，将它们结合起来并进行了评估，目标是获得适用于工业制造的小型、快速且高效的异常检测模型。我们在著名的MVTecAD和BTAD数据集上评估了实验结果。此外，我们还提供了在实践中选择适合质量控制系统的模型架构的指导方针，同时考虑给定的用例和硬件约束。

发布时间: 11/25/2024

查看原文

基于扰动的卷积神经网络归因图可靠性评估方法

作者: Lars Nieradzik, Henrike Stephani, Janis Keuper

本文提出了一种评估归因图的方法，归因图在解释卷积神经网络 (CNN) 的预测中起着核心作用。我们证明了广泛使用的插入/删除指标容易受到影响排名可靠性的分布偏移的影响。我们的方法建议用对抗性扰动代替像素修改，从而提供一个更稳健的评估框架。通过使用平滑度和单调性度量，我们说明了我们的方法在校正分布偏移方面的有效性。此外，我们对归因图进行了迄今为止最全面定量和定性评估。引入基线归因图作为健全性检查，我们发现我们的指标是唯一通过所有检查的指标。利用肯德尔τ等级相关系数，我们展示了我们的指标在 15 个数据集-架构组合中的较高一致性。在测试的 16 个归因图中，我们的结果清楚地表明 SmoothGrad 是目前最好的图。这项研究通过提供一个可靠且一致的评估框架，为归因图的发展做出了重要贡献。为确保可重复性，我们将提供代码以及我们的结果。

发布时间: 11/25/2024

查看原文

神经网络方法求解拓扑孤子的比较研究

作者: Koji Hashimoto, Koshiro Matsuo, Masaki Murata, Gakuto Ogiwara

拓扑孤子是具有稳定性且局域化的非线性微分方程解，在粒子物理学和宇宙学等物理学和数学的诸多领域都至关重要。然而，由于其底层方程的复杂性以及精确求解所需的计算资源，求解这些孤子带来了巨大的挑战。为了解决这个问题，我们开发了一种使用神经网络 (NN) 高效求解孤子的新方法。类似的神经网络方法还有基于物理的神经网络 (PINN)。在我们提出的方法与 PINN 的对比分析中，我们发现我们的方法在保持相同精度水平的同时，实现了更短的计算时间。这种计算效率的提升不仅克服了当前的局限性，也为研究拓扑孤子及其动力学行为开辟了新的途径。

发布时间: 11/25/2024

查看原文

双子座：联邦学习中基于语言引导的梯度反演攻击

作者: Junjie Shan, Ziqi Zhao, Jialin Lu, Rui Zhang, Siu Ming Yiu, Ka-Ho Chow

大型视觉语言模型的进展催生了许多改善生活的应用。然而，它们被滥用以制造新的威胁的可能性在很大程度上仍未被探索。本文揭示了视觉语言模型（VLMs）可以被用来克服联邦学习（FL）中梯度反转攻击（GIAs）长期存在的局限性，在联邦学习中，FL服务器从受害者客户端共享的梯度中重建私有数据样本。目前的GIAs在重建高分辨率图像方面面临挑战，尤其是在受害者拥有大量本地数据批次的情况下。虽然专注于重建有价值的样本而不是整个批次很有前景，但现有方法缺乏灵活性，无法让攻击者指定他们的目标数据。在本文中，我们介绍了Geminio，这是第一种将GIAs转化为语义上有意义的、有针对性攻击的方法。Geminio实现了全新的隐私攻击体验：攻击者可以用自然语言描述他们认为有价值的数据类型，Geminio将优先重建以关注这些高价值样本。这是通过利用预训练的VLM来指导恶意全局模型的优化来实现的，该模型在与受害者共享和优化后，只保留与攻击者指定的查询匹配的样本的梯度。大量的实验表明，Geminio在精确定位和重建目标样本方面非常有效，在FL和大型批次大小下，在复杂数据集上取得了很高的成功率，并显示出对现有防御的抵抗力。

发布时间: 11/25/2024

查看原文

基于激光雷达的端到端车辆-基础设施协同感知

作者: Zhenwei Yang, Jilei Mao, Wenxian Yang, Yibo Ai, Yu Kong, Haibao Yu, Weidong Zhang

时间感知，即检测和跟踪物体随时间变化的能力，对于自动驾驶维持对动态环境的全面理解至关重要。然而，这项任务受到诸多挑战的阻碍，包括由遮挡物体和观测盲区造成的感知不完整，这在单车感知系统中很常见。为了解决这些问题，我们引入了 LET-VIC，一个基于激光雷达的用于车路协同 (VIC) 的端到端跟踪框架。LET-VIC 利用车联网 (V2X) 通信，通过融合来自车辆和基础设施传感器的时空数据来增强时间感知。首先，它从车载和基础设施侧的激光雷达数据中空间整合鸟瞰图 (BEV) 特征，创建一个全面的视图，以减轻遮挡并补偿盲区。其次，LET-VIC 在帧之间整合时间上下文，允许模型利用历史数据来增强跟踪的稳定性和准确性。为了进一步提高鲁棒性，LET-VIC 包含一个校准误差补偿 (CEC) 模块，以解决传感器错位并确保精确的特征对齐。在 V2X-Seq-SPD 数据集上的实验表明，LET-VIC 显著优于基线模型，在不考虑通信延迟的情况下，mAP 至少提高了 13.7%，AMOTA 至少提高了 13.1%。这项工作为通过车路协同推进自动驾驶中的时间感知提供了一种切实可行的解决方案和新的研究方向。

发布时间: 11/25/2024

查看原文

Purrfessor：一个微调的多模态LLaVA饮食健康聊天机器人

作者: Linqi Lu, Yifan Deng, Chuan Tian, Sijia Yang, Dhavan Shah

本研究介绍了Purrfessor，一款创新的AI聊天机器人，旨在通过交互式多模态互动提供个性化的饮食指导。Purrfessor利用经过食物和营养数据微调的大型语言和视觉助手(LLaVA)模型以及人机协同方法，将视觉膳食分析与情境化建议相结合，以增强用户体验和参与度。我们进行了两项研究来评估聊天机器人的性能和用户体验：(a) 进行了模拟评估和人工验证，以检验微调模型的性能；(b)一项2（角色：机器人与宠物）x 3（模型：GPT-4与LLaVA与微调LLaVA）实验表明，与GPT-4机器人相比，Purrfessor显著增强了用户对关怀的感知（β=1.59，p=0.04）和兴趣（β=2.26，p=0.01）。此外，用户访谈强调了交互设计细节的重要性，强调了响应性、个性化和指导对于提高用户参与度的必要性。

发布时间: 11/25/2024

查看原文

GOT4Rec：用于序列推荐的思想图谱

作者: Zewen Long, Liang Wang, Shu Wu, Qiang Liu, Liang Wang

随着大型语言模型（LLM）的进步，研究人员探索了各种方法来最佳地利用其在顺序推荐场景中的理解和生成能力。然而，这项工作中仍然存在一些挑战。首先，大多数现有方法依赖于输入-输出提示范式，这可能导致不相关或不准确的响应。其次，虽然已经尝试使用链式思维 (CoT) 等提示策略来增强 LLM，但这些努力并没有完全利用 LLM 的推理能力，也没有有效地捕捉用户序列中包含的多方面信息。为了解决这些限制，我们提出了 GOT4Rec，这是一种利用思想图 (GoT) 提示策略的顺序推荐方法。具体来说，我们识别并利用用户历史序列中的三种关键信息：短期兴趣、长期兴趣以及来自其他用户的协同信息。我们的方法使 LLM 能够根据这些不同类型的信息独立推理和生成推荐，随后在 GoT 框架内聚合结果以得出最终推荐的项目。这种方法允许具有增强推理能力的 LLM 更有效地考虑用户序列中的各种信息，从而产生更准确的推荐和更全面的解释。在真实世界数据集上的大量实验证明了 GOT4Rec 的有效性，表明它优于现有的最先进基线。我们的代码可在 https://anonymous.4open.science/r/GOT4Rec-ED99 获取。

发布时间: 11/25/2024

查看原文

DAIRHuM：一个将人工智能表征与人类音乐判断直接对齐的平台，应用于卡纳蒂克音乐

作者: Prashanth Thattai Ravikumar

量化音乐AI模型表示并使其与人类行为保持一致是音乐信息检索(MIR)领域的一个重要挑战。本文提出一个平台，用于探索AI音乐模型表示与人类音乐判断之间的直接比对(DAIRHuM)。该平台旨在使音乐家和实验者能够在一个音乐录音数据集中标记相似性，并使用定量分数和可视化图表检查预训练模型与其标签的一致性。DAIRHuM被用于分析NSynth表示与两位打击乐手在卡纳提克四重奏乐团中演奏的节奏二重奏之间的一致性，这是一个注释数据稀缺且评估一致性并非易事类型的音乐示例。结果证明了模型与人类对节奏和谐的判断之间存在显著的一致性，同时突出了卡纳提克音乐中节奏感知和音乐相似性判断的关键差异。这项工作是首批使⽤户能够探索卡纳提克音乐中⼈与AI模型⼀致性、推进印度音乐MIR研究（同时处理数据稀缺和文化特异性）的努力之⼀。该平台的开发为代表性不足的音乐类型提供了更易访问的音乐AI工具。

发布时间: 11/25/2024

查看原文

跨领域无界：一种用于医学图像分割领域泛化的自适应特征和交叉注意力新范式

作者: Yuheng Xu, Taiping Zhang

领域不变表示学习是领域泛化的有效方法。以往的方法面临计算需求高、训练不稳定以及高维数据有效性有限等挑战，可能导致有价值特征的丢失。为了解决这些问题，我们假设理想的泛化表示应该在跨域图像的同一通道内表现出相似的模式响应。基于此假设，我们使用源域的深层特征作为查询，使用生成的域的深层特征作为键和值。通过跨通道注意力机制，将原始深层特征重构为鲁棒的正则化表示，形成一个明确的约束，引导模型学习领域不变表示。此外，风格增强是另一种常见的方法。然而，现有方法通常通过源域的凸组合生成新的风格，这通过将生成的风格限制在原始分布内来限制训练样本的多样性。为了克服这一限制，我们提出了一种自适应特征混合 (AFB) 方法，该方法在探索分布内空间的同时生成分布外样本，从而显著扩展了域范围。大量的实验结果表明，我们提出的方法在两个标准的医学图像分割领域泛化基准测试中取得了优越的性能。

发布时间: 11/25/2024

查看原文

基于显式去噪分布估计的扩散模型偏好对齐中的去噪步骤优先级

作者: Dingyuan Shi, Yong Wang, Hangyu Li, Xiangxiang Chu

扩散模型在文本到图像生成方面取得了显著成功，使得这些模型的校准方法日益重要。一个关键挑战是偏好标签的稀疏性，这些标签通常仅在去噪轨迹的终端可用。这就提出了如何根据这些稀疏标签对去噪步骤进行信用分配的问题。在本文中，我们提出了去噪分布估计（DDE），这是一种新的信用分配方法。与依赖于辅助模型或手工设计的方案的先前方法不同，DDE 更明确地推导其策略。提出的 DDE 直接从每个步骤的角度估计终端去噪分布。它配备了两种估计策略，能够用单一模型推理表示整个去噪轨迹。从理论上和经验上，我们都表明 DDE 优先优化去噪轨迹的中间部分，从而产生了一种新颖有效的信用分配方案。大量的实验表明，我们的方法在定量和定性方面都取得了优越的性能。

发布时间: 11/25/2024

查看原文