arXiv 论文列表

作者: Iason Ioannis Panagos, Giorgos Sfikas, Christophoros Nikou

arXiv:2502.04834v1 Announce Type: cross 摘要：视觉语音识别（VSR），从视频数据中解码所说的话语，提供了显著的好处，尤其是在音频不可用的情况下。然而，视频数据的高维度导致了计算成本的急剧增加，需要强大的硬件支持，这限制了VSR在资源受限设备上的部署。本工作通过开发轻量级的VSR架构来解决这一限制。借助高效的运算设计范式，我们创建了紧凑且强大的模型，减少了资源需求并最大限度地减少了准确性损失。我们在一个大型公开数据集上训练和评估了这些模型，该数据集用于从视频序列中识别单词，证明了它们在实际应用中的有效性。我们还进行了广泛的消融实验，以彻底分析每个模型的大小和复杂性。代码和训练模型将公开发布。

发布时间: 2/10/2025

查看原文

高维黑盒优化中的乐观梯度学习与海森矩阵校正

作者: Yedidya Kfir, Elad Sarafian, Sarit Kraus, Yoram Louzoun

arXiv:2502.04829v1 宣告类型: cross 摘要: 黑箱算法旨在优化函数，而无需依赖其底层的分析结构或梯度信息，这使得它们在梯度不可用或难以计算时变得至关重要。传统的黑箱优化（BBO）问题解决方法主要依赖于非参数模型，并且难以扩展到大规模输入空间。与此相反，使用神经估算器建模函数并通过反向传播获取梯度信号的参数化方法可能会遭受显著的梯度误差。近期的一种替代方法，显式梯度学习（EGL），直接使用一阶泰勒近似学习梯度，已经在参数化和非参数化方法中展现出更优的性能。在本文中，我们提出了两种新的梯度学习变体来应对高维、复杂且高度非线性问题带来的健壮性挑战。乐观梯度学习（OGL）引入了一种偏向于函数图景中较低区域的偏差，而高阶梯度学习（HGL）则通过引入二阶泰勒修正来提高梯度准确性。我们将这些方法合并成统一的OHGL算法，并在合成的COCO数据集上实现了目前最先进的（SOTA）性能。此外，我们展示了OHGL在高维实际机器学习（ML）任务中的应用，如对抗训练和代码生成。我们的结果突显了OHGL生成更强候选的能力，为解决高维、非线性优化挑战的机器学习研究人员和实践者提供了一个有价值的工具。

发布时间: 2/10/2025

查看原文

MedMimic：基于医生灵感的多模态融合早期诊断不明原因发热

作者: Minrui Chen, Yi Zhou, Huidong Jiang, Yuhan Zhu, Guanjie Zou, Minqi Chen, Rong Tian, Hiroto Saigo

arXiv:2502.04794v1 Announce Type: cross 摘要：原因不明的发热（FUO）仍然是一个诊断难题。MedMimic 作为一种受现实世界诊断过程启发的多模态框架被引入。它使用预训练模型如 DINOv2、Vision Transformer 和 ResNet-18 将高维的 18F-FDG PET/CT 影像转换为低维的、语义上有意义的特征。随后，一种可学习的基于自注意力的融合网络将这些影像特征与临床数据结合起来进行分类。使用2017年至2023年来自四川大学华西医院的416例FUO患者的病例，多模态融合分类网络MFCN在七个任务中获得了0.8654到0.9291的宏平均AUROC分数，优于传统机器学习方法和单模态深度学习方法。消融研究和五折交叉验证进一步验证了其有效性。通过结合预训练大模型和深度学习的优势，MedMimic提供了一种有前景的疾病分类解决方案。

发布时间: 2/10/2025

查看原文

S$^2$-MAD：打破令牌壁垒以提升多_agent_辩论效率

作者: Yuting Zeng, Weizhe Huang, Lei Jiang, Tongxuan Liu, Xitai Jin, Chen Tianying Tiana, Jing Li, Xiaohua Xu

arXiv:2502.04790v1 类别: cross 摘要: 大型语言模型（LLMs）在各种自然语言处理（NLP）场景中展现出了惊人的能力，但在处理复杂算术和逻辑推理任务时仍然面临挑战。虽然链式思考（CoT）推理、自我一致性（SC）和自我纠正策略试图在顺序、多步推理中引导模型，多代理辩论（MAD）已经作为一种增强LLMs推理能力的有效方法出现了。通过增加代理的数量和辩论的频率，LLMs的性能显著提升。然而，这种策略导致了token成本的显著增加，提出了扩展性的障碍。为了应对这一挑战，我们提出了一种新的稀疏化策略，旨在在MAD中减少token成本。该方法通过最小化无效的信息交换和无益的讨论，从而增强辩论过程的整体效率。我们在多个数据集上对多种模型进行了比较实验，表明我们的方法在MAD中显著减少了token成本。具体来说，与MAD相比，我们的方法在保持性能下降低于2.0%的情况下，实现了高达94.5%的token成本的显著减少。

发布时间: 2/10/2025

查看原文

使用生成模型增强SQL注入检测与防范

作者: Naga Sai Dasari, Atta Badii, Armin Moin, Ahmed Ashlam

arXiv:2502.04786v1 类型: cross 摘要：SQL注入（SQLi）继续对web应用程序的安全性构成重大威胁，使攻击者能够在未经授权的情况下操纵数据库并访问敏感信息。尽管在检测技术方面取得了进展，但传统的基于签名的方法仍然难以识别那些规避预定义模式的高级SQL注入攻击。随着SQLi攻击的演变，建立更加适应性强的检测系统的迫切性变得越来越明显。本文提出了一种创新的方法，利用生成模型来增强SQLi检测和预防机制。通过结合使用变分自动编码器（VAE）、条件带梯度惩罚的Wasserstein GAN（CWGAN-GP）和U-Net，生成了合成SQL查询以扩充机器学习模型的训练数据集。提出的这种方法在SQLi检测系统中提高了准确性，减少了误报和漏报。广泛的实证测试进一步证明了该系统的适应能力，能够应对不断演变的SQLi攻击模式，从而增强了精确度和鲁棒性。

发布时间: 2/10/2025

查看原文

行为正则化扩散策略优化在离线强化学习中的应用

作者: Chen-Xiao Gao, Chenyang Wu, Mingjun Cao, Chenjun Xiao, Yang Yu, Zongzhang Zhang

arXiv:2502.04778v1 宣告类型: cross 摘要: 无监督强化学习(RL)的主要关注点是管理出分布动作危险利用的风险。实现这一目标的有效方法是通过行为正则化，通过引入约束来扩展传统的RL目标，这些约束强制策略保持接近行为策略。然而，现有行为正则化RL的相关文献主要集中在显式策略参数化上，例如高斯策略。因此，尚不清楚如何将这种框架扩展到更高级的策略参数化，例如扩散模型。在本文中，我们提出了BDPO，一种针对基于扩散的策略的原理上行为正则化RL框架，从而结合了扩散策略的强大表示能力和正则化提供的鲁棒性。我们方法的关键成分是通过计算扩散轨迹上逆时转移核中累积的偏差来计算Kullback-Leibler (KL)正则化。通过集成正则化，我们开发了一种高效的双时间尺度演员-评论家RL算法，在遵守行为约束的同时生成最优策略。在合成2D任务和来自D4RL基准的连续控制任务上的全面评估验证了其有效性和优越性能。

发布时间: 2/10/2025

查看原文

DMPA：针对模型差异的去中心化联邦学习模型污染攻击

作者: Chao Feng, Yunlong Li, Yuanzhe Gao, Alberto Huertas Celdr\'an, Jan von der Assen, G\'er\^ome Bovet, Burkhard Stiller

arXiv:2502.04771v1 宣告类型: cross 摘要：联邦学习（FL）因其作为一种主要的隐私保护机器学习范式的显著关注而受到重视。去中心化联邦学习（DFL）放弃了传统FL的集中服务器架构，增强了系统的鲁棒性和可扩展性。然而，DFL 这些优势也为恶意参与者执行对抗性攻击，特别是模型污染攻击，带来了新的漏洞。在模型污染攻击中，恶意参与者旨在通过创建并传播损坏的模型来降低良性模型的性能。现有关于模型污染攻击的研究主要集中在破坏集中联邦学习（CFL）范式中的全局模型，而在DFL方面则需要更多的研究。为了弥补这一研究空白，本文提出了一种创新的模型污染攻击，称为DMPA。该攻击计算多个恶意客户端模型的差异化特征，获得最有效的污染策略，从而由多个参与者协同执行联合攻击。通过多个数据集验证了此攻击的有效性，结果表明，DMPA 方法一贯超越现有的顶级FL模型污染攻击策略。

发布时间: 2/10/2025

查看原文

基于图联邦学习的主动内容缓存边缘计算方法

作者: Rui Wang

arXiv:2502.04760v1 交叉类型: cross 摘要：随着移动数据流量的快速增长和视频流媒体的日益普及，边缘计算中的主动内容缓存已成为降低延迟和缓解网络拥塞的关键。然而，传统的缓存策略如FIFO、LRU和LFU无法有效地预测未来的内容热门程度，而现有的主动缓存方法通常需要用户将数据上传到中央服务器，这引发了隐私和可扩展性方面的担忧。为解决这些问题，本文提出了一种基于图联邦学习的主动内容缓存（GFPCC）方案，在提高缓存效率的同时保护用户隐私。提出的该方法结合了联邦学习和图神经网络，使用户能够本地训练轻量级图卷积网络（LightGCN）以捕捉用户-项目关系并预测内容热门程度。而不是共享原始数据，只有训练好的模型参数被传输到中央服务器，中央服务器使用联邦平均算法聚合更新，改进全局模型，并选择最热门的文件进行主动缓存。在如MovieLens等实际数据集上的实验评估表明，GFPCC通过更准确的内容热门程度预测优于基线缓存算法，提高了缓存效率。此外，联邦学习框架增强了隐私保护能力，同时保持了高效的模型训练；然而，在具有动态用户偏好的大规模网络中，可扩展性仍是一个挑战。

发布时间: 2/10/2025

查看原文

使用大型语言模型增强钓鱼邮件识别

作者: Catherine Lee

arXiv:2502.04759v1 宣告类型: cross 摘要: 钓鱼攻击一直是网络罪犯常用的手段，并且继续对当今的数字世界构成重大威胁。当钓鱼攻击变得更加先进和复杂时，需要更有效的检测和预防方法的需求也在增加。为了解决检测钓鱼邮件这一具有挑战性的问题，研究人员开发了大量解决方案，特别是基于机器学习（ML）算法的解决方案。在本文中，我们研究了大型语言模型（LLMs）在检测钓鱼邮件方面的有效性。实验结果表明，LLM 在高精度下实现了高准确率；更重要的是，它还提供了可解释的决策证据。

发布时间: 2/10/2025

查看原文

通过开源大型语言模型处理进行概念导航和分类

作者: Ma\"el Kubli

arXiv:2502.04756v1 交叉公告类型：cross 摘要：本文提出了一种新的方法论框架，使用开源大规模语言模型（LLMs）从文本数据中检测和分类潜在结构，包括框架、叙事和主题。提出的混合方法结合了自动总结与有人工参与的验证，以提高结构识别的准确性和可解释性。通过结合迭代采样和专家细化，该框架保证了方法论的稳健性并确保了概念上的精确性。该方法应用于包括AI政策辩论、加密报道新闻文章和20个新sgroup数据集在内的多样化数据集，展示了其在系统性分析复杂政治言论、媒体框架和主题分类任务方面的能力和灵活性。

发布时间: 2/10/2025

查看原文