arXiv 论文列表

作者: Nikolaos Giakoumoglou, Tania Stathaki

arXiv:2407.12073v5 通知类型: replace-cross 摘要：知识蒸馏涉及将大型笨重的教师模型的知识转移到更紧凑的学生模型中。标准方法通过最小化教师网络和学生网络的概率输出之间的Kullback-Leibler (KL) 散度来进行。然而，这种方法未能捕捉教师内部表示中的重要结构关系。近年来的进展转向使用对比学习目标，但这些方法通过实例区分施加了过于严格的约束，即使样本在语义上是相似的，也强制它们分开。这促使我们提出另一种目标方法，通过该方法可以保留实例之间的相对关系。我们的方法为教师分布和学生分布分别使用不同的温度参数，学生输出更尖锐，从而可以在捕捉主要关系的同时保留次要的相似性。我们展示了我们的目标与InfoNCE损失和KL散度之间的理论联系。实验结果表明，我们的方法在多种知识迁移任务中显著优于现有知识蒸馏方法，与教师模型的对齐程度更高，有时甚至优于教师网络的表现。

发布时间: 5/14/2025

查看原文

判别性和一致性表示精炼

作者: Nikolaos Giakoumoglou, Tania Stathaki

arXiv:2407.11802v5 宣告类型: replace-cross 摘要：知识蒸馏（KD）的目标是将大型教师模型的知识转移到较小的学生模型中。虽然对比学习在自监督学习中通过创建鉴别性表示显示出前景，但其在知识蒸馏中的应用仍然有限，并主要集中在辨别性上，忽视了教师模型捕捉到的结构关系。为解决这一局限，我们提出了鉴别性和一致性蒸馏（DCD），该方法结合了对比损失和一致性正则化，以最小化教师和学生表示分布之间的差异。我们的方法引入了可学习的温度和偏差参数，在训练过程中根据这些互补目标进行调整，替代了对比学习方法中常用的固定超参数。通过在CIFAR-100和ImageNet ILSVRC-2012上的广泛实验，我们展示了DCD达到了最先进的性能，有时学生模型的准确率甚至超过了教师模型。此外，我们还展示了当将DCD的学习表示转移到Tiny ImageNet和STL-10时，其表现出优越的跨数据集泛化能力。

发布时间: 5/14/2025

查看原文

基于专家标注的AI工具用于BCC诊断的临床启发式增强可解释性和可理解性

作者: Iv\'an Matas, Carmen Serrano, Francisca Silva, Amalia Serrano, Tom\'as Toledo-Pastrana, Bego\~na Acha

arXiv:2407.00104v2 宣告类型: replace-cross 摘要：已经开发出一种AI工具，通过远程皮肤病学提供对BCC（基底细胞癌）诊断的可解释支持，从而加快转诊速度并优化资源利用。这种可解释性通过两种方式提供：一方面，在图像中找到主要的BCC皮肤镜模式以解释BCC/非BCC分类；另一方面，基于常见的视觉XAI（可解释性人工智能）Grad-CAM方法，开发了一种受到临床实践启发的视觉解释，其中定位了诊断相关的特征。由于目前没有BCC皮肤镜特征的公认 ground truth，通过基于期望最大化（EM）算法的算法从四位皮肤科医生的诊断中推断出一个标准参考。结果表明，在分类准确性和可解释性方面取得了显著改进，将此方法定位为早期BCC检测和转诊皮肤科医生的有价值工具。BCC/非BCC分类的准确率为90%。对于临床启发的XAI结果而言，有用的BCC模式的检测准确率为99%。至于临床启发的视觉XAI结果，Grad-CAM归一化值的手动分割临床特征内的平均值为0.57，而在该区域外为0.16。这表明模型在准确识别BCC模式的区域方面存在困难。这些结果证明了AI工具提供有用解释的能力。

发布时间: 5/14/2025

查看原文

为图形草图表示装备上下文意识位置编码的草图补丁

作者: Sicong Zang, Zhijun Fang

arXiv:2403.17525v2 宣告类型: replace-cross 摘要: 当利用素描绘制顺序来增强图形素描表示时，最近的研究通过按照基于时间的最近邻策略来根据绘制顺序将素描片段作为图边连接起来。然而，由于素描绘制的变化，这些构建的图边可能是不可靠的，因为片段之间的上下文关系可能与绘制顺序中的顺序位置不一致。在本文中，我们提出了一种保护变体绘制的方法，通过为素描片段配备上下文感知的位置编码 (PE) 来更好地利用绘制顺序来进行素描学习。我们引入了正弦绝对 PE 来嵌入绘制顺序中的顺序位置，并引入了可学习的相对 PE 来编码片段之间未见过的上下文关系。这两种类型的 PE 从不参与图边的构建，而是注入到图节点中，与从片段捕获的视觉模式合作。通过语义邻近度连接节点后，在通过图卷积网络进行消息聚合时，每个节点从其邻居处接收来自片段的语义特征和来自 PEs 的上下文信息，从而赋予局部片段模式全球上下文信息，进一步获得绘制顺序增强的素描表示。实验结果表明，我们的方法显着提高了素描修复和可控素描合成。源代码可以在 https://github.com/SCZang/DC-gra2seq 查找。

发布时间: 5/14/2025

查看原文

您信任您的模型吗？深度学习生态系统中的新兴恶意软件威胁

作者: Dorjan Hitaj, Giulio Pagnotta, Fabio De Gaspari, Sediola Ruko, Briland Hitaj, Luigi V. Mancini, Fernando Perez-Cruz

arXiv:2403.03593v2 通告类型: replace-cross 摘要：训练高质量的深度学习模型是一项具有挑战性的任务，因为它涉及到计算和技术要求。越来越多的个人、机构和公司依赖于在公共仓库中提供的第三方预训练模型。这些模型通常被直接使用或整合到产品管道中，因为它们只是以张量形式存在的数据，并被认为是可以安全使用的。在这篇论文中，我们提出了针对神经网络的新的人工智能供应链威胁。我们介绍了MaleficNet 2.0，这是一种新颖的技术，用于在神经网络中嵌入自我提取并自我执行的恶意软件。MaleficNet 2.0 使用了扩展频谱信道编码结合纠错技术，在深度神经网络的参数中注入恶意载荷。MaleficNet 2.0 的注入技术是隐蔽的，不会降低模型的性能，并且对移除技术具有鲁棒性。我们设计我们的方法以适应传统的以及分布式的机器学习环境，如联邦学习，并证明即使使用较少的位数来表示模型参数，该方法也是有效的。最后，我们使用 MaleficNet 2.0 实现了一个概念验证的自我提取神经网络恶意软件，证明了该攻击对广泛采用的机器学习框架的可行性。我们通过这项工作旨在提高对这些新的危险攻击的认识，不仅在研究界，也在行业中，并希望鼓励对此类威胁缓解技术的进一步研究。

发布时间: 5/14/2025

查看原文

LLM 多代理系统：挑战与开放问题

作者: Shanshan Han, Qifan Zhang, Yuhang Yao, Weizhao Jin, Zhaozhuo Xu

arXiv:2402.03578v2 通告类型: replace-cross 摘要：本文探讨了多智能体系统，并识别出仍需充分解决的挑战。通过利用各个智能体的多样能力和角色，多智能体系统可以通过智能体协作来处理复杂任务。我们讨论了优化任务分配、通过迭代辩论促进稳健推理、管理复杂和层次化的上下文信息，以及增强内存管理以支持多智能体系统中的复杂互动。我们还探讨了多智能体系统在区块链系统中的潜在应用，以便阐明其在实际分布式系统中的未来开发和应用前景。

发布时间: 5/14/2025

查看原文

AI加速发现交替磁性材料

作者: Ze-Feng Gao, Shuai Qu, Bocheng Zeng, Yang Liu, Ji-Rong Wen, Hao Sun, Peng-Jie Guo, Zhong-Yi Lu

arXiv:2311.04418v4 通告类型: replace-cross 摘要：交替磁性是一种新的磁性相位，已被理论上提出并实验验证，其不同于铁磁性和逆铁磁性。尽管已发现的交替磁性材料具有许多奇异的物理性质，但由于已知的交替磁性材料数量有限，这阻碍了对这些性质的研究。因此，发现具有不同性质的更多类型的交替磁性材料对于全面理解交替磁性以及促进下一代信息技术的应用（如存储设备和高灵敏度传感器）至关重要。由于每种交替磁性材料都有独特的晶体结构，我们提出了一种基于人工智能搜索引擎的自动化发现方法，该方法使用预训练的图神经网络学习材料晶体结构的内在特征，然后使用有限的正样本微调分类器来预测给定材料候选物的交替磁性概率。最后，我们成功发现了50种新的交替磁性材料，这些材料通过第一性原理电子结构计算得到了确认。广泛多样的电子结构特征揭示了这些新发现的交替磁性材料中显现出了各种新型物理性质，例如异常霍尔效应、异常 Kerr 效应和拓扑性质。值得注意的是，我们首次发现了4种 $i$-波交替磁性材料。总体而言，人工智能搜索引擎的表现远远优于人类专家，提出了一组具有独特性质的新交替磁性材料，暗示其在加速具有目标性质的材料发现方面的潜力。

发布时间: 5/14/2025

查看原文

离群值鲁棒神经网络训练：变差正则化遇上截尾损失以防止功能失效

作者: Akifumi Okuno, Shotaro Yagishita

arXiv:2308.02293v4 宣告类型: 交叉替换摘要: 在这项研究中，我们使用高度表达的神经网络解决异常值鲁棒预测建模的挑战。我们的方法集成了两个关键组件：(1) 变换截尾损失(TTL)，这是经典截尾损失的高效变体；(2) 高阶变异性正则化(HOVR)，它在预测函数上施加平滑性约束。传统稳健统计通常假设低复杂度模型，如线性和核模型，但在现代神经网络中单独应用TTL可能无法确保鲁棒性，因为它们的高度表达能力使得它们能够拟合内点和异常值，即使使用稳健损失也是如此。为了解决这一问题，我们重新审视了传统的失效点概念，并将其适应到非线性函数设置中，通过HOVR引入了一种正则化方案来控制模型的能力并抑制对异常值过度拟合。我们理论证明了我们的训练过程保留了较高的功能失效点，从而确保了对异常值污染的鲁棒性。我们为此框架开发了一种随机优化算法，并提供了其收敛性的理论保证。

发布时间: 5/14/2025

查看原文

残酷长音频基准

作者: Orevaoghene Ahia, Martijn Bartelds, Kabir Ahuja, Hila Gonen, Valentin Hofmann, Siddhant Arora, Shuyue Stella Li, Vishal Puttagunta, Mofetoluwa Adeyemi, Charishma Buchireddy, Ben Walls, Noah Bennett, Shinji Watanabe, Noah A. Smith, Yulia Tsvetkov, Sachin Kumar

arXiv:2505.03054v2 宣告类型: 替换摘要：开发能够理解多样化的语音互动的大规模音频语言模型（LMs）对于适应人类交流的多模态性质至关重要，这可以增加语言技术在不同用户群体中的可访问性。最近针对音频LMs的工作主要评估了它们在通常少于30秒的短暂音频片段上的性能，而对更接近自然用户与这些模型交互的长形式对话语音片段进行了有限的研究。我们引入了布署性长音频基准（BLAB），这是一个具有挑战性的长格式音频基准，使用平均51分钟长度的音频片段来评估音频LMs在定位、时长估计、情绪和计数任务上的表现。BLAB包含了833多个小时的多样的全长音频片段，每个片段都配有人工标注的基于文本的自然语言问题和答案。我们的音频数据来自宽容许可的来源，并经过了人工辅助的过滤过程以确保任务合规性。我们对六个开源和专有音频LMs进行了BLAB的评估，并发现所有这些模型，包括高级模型如Gemini 2.0 Pro和GPT-4o，在BLAB的任务中都表现不佳。我们的全面分析揭示了任务难度与音频时长之间的权衡关键洞察。总的来说，我们发现音频LMs在长形式的语音中表现出困难，随着时长的增加，其性能下降。他们在定位、时间推理和计数任务上表现不佳，难以理解非音位信息，并更多依赖提示而不是音频内容。BLAB作为一个具有挑战性的评估框架，用于开发具有稳健长格式音频理解能力的音频LMs。

发布时间: 5/14/2025

查看原文

SafeMate: 一个基于RAG的模块化应急指导代理

作者: Junfeng Jiao, Jihyung Park, Yiming Xu, Kristen Sussman, Lucy Atkinson

arXiv:2505.02306v2 通知类型: 替换摘要：尽管存在大量的公共安全文件和紧急应对方案，但在危机期间，大多数个体仍然缺乏解读和采取行动所需的能力。传统的应急决策支持系统（EDSS）针对专业人士设计，并且高度依赖于静态文件，如PDF或SOP，这些文件在压力下对非专家来说难以操作。这种机构知识与公众可访问性之间的差距构成了有效应急准备和响应的一个关键障碍。我们介绍了一种检索增强的人工智能助手SafeMate，它为普通用户在准备和实际紧急情况下的场景提供准确且上下文相关的指导。SafeMate基于模型上下文协议（MCP）构建，能够动态将用户查询路由到文档检索、检查单生成和结构化总结的工具。它使用FAISS和余弦相似度来识别可信来源中的相关内容。

发布时间: 5/14/2025

查看原文