arXiv 论文列表

作者: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

arXiv:2504.14945v1 宣布类型：交叉学科摘要：近年来，大型推理模型（LRMs）的研究表明，通过强化学习（RL）和简单的基于规则的奖励，复杂的多步推理和自我反思等行为可以涌现。然而，现有的零RL方法本质上是“在线的”，仅限于在其自身输出上的学习，并且无法获取超出其初始能力的推理能力。我们提出了LUFFY（在离策略引导下学习推理），这是一种将离策略推理轨迹与零RL结合起来的框架。LUFFY在训练过程中通过结合离策略演示和在线策略滚存货档动态平衡模仿和探索。值得注意的是，在混合策略训练中，我们提出了经过正则化的重要性抽样策略塑造方法，以避免在混合策略训练中表面化和僵硬的模仿。令人惊讶的是，LUFFY在六个数学基准测试中实现了超过+7.0的平均收益，并且在分布外任务中的优势超过+6.2分。此外，在泛化方面，LUFFY显著超过了基于模仿的监督微调（SFT）。分析表明，LUFFY不仅能够有效模仿，还能超越演示进行探索，提供了一条有离策略引导支持的可扩展路径，用于训练可泛化的推理模型。

发布时间: 4/22/2025

查看原文

给AI一个声音：AI认为它应该被如何对待？

作者: Maria Fay, Frederik F. Fl\"other

arXiv:2504.14936v1 类别: cross 摘要: 随着生成人工智能(AI)技术的惊人进步，人们就该技术的监管和伦理问题展开了一场重要的公众讨论。当人类与人类讨论这些问题是否足够？或者考虑到AI正在越来越多地成为启发人们的一种可行来源（更不用说假设技术在未来某个时刻可能会成为“人工通用智能”并/或发展出意识），AI是否不应该参与到这场讨论中？AI为这场讨论带来了新的问题和视角，这些是我们以前可能未曾考虑过的。因此，让我们将这本书的关键主题视为活跃的参与者。因此，本章节包括了一段关于AI权利和伦理的人机对话。

发布时间: 4/22/2025

查看原文

在频域中具有从弱到强空间- temporal一致性的人工 adversarial 训练的视频-fast

作者: Songping Wang, Hanqing Liu, Yueming Lyu, Xiantao Hu, Ziwen He, Wei Wang, Caifeng Shan, Liang Wang

arXiv:2504.14921v1 宣告类型：交叉摘要：对抗训练（AT）已被证明通过最小-最大优化方法显著增强了对抗鲁棒性。然而，在视频识别任务中的有效性受到两大主要挑战的阻碍。首先，快速视频模型的对抗训练尚未得到充分探索，这严重妨碍了其实际应用。具体而言，大多数视频对抗训练方法在计算成本上都很高，训练时间长且费用高。其次，现有方法难以在干净准确性和对抗鲁棒性之间取得平衡。为了解决这些挑战，我们引入了“Video Fast Adversarial Training with Weak-to-Strong consistency”（VFAT-WS），这是第一个针对视频数据的快速对抗训练方法。具体而言，VFAT-WS 包含以下关键设计：首先，它结合了简单而有效的时空频率增强（TF-AUG）及其时空增强形式 STF-AUG，并结合了一步PGD攻击，以提高训练效率和鲁棒性。其次，它设计了一种从弱到强的时空一致性正则化，该正则化无缝地整合了简单的TF-AUG和更为复杂的STF-AUG。通过使用一致性正则化，它引导学习过程从简单的增强转向复杂的增强。两者共同作用，以在干净准确性和鲁棒性之间达成更好的平衡。在UCF-101和HMDB-51数据集上，结合CNN和Transformer模型的广泛实验表明，VFAT-WS 在对抗鲁棒性和抗噪声鲁棒性方面取得了显著改进，同时将训练速度提高了近490%。

发布时间: 4/22/2025

查看原文

StableQuant：适用于语音基础模型的层自适应后训练量化

作者: Yeona Hong, Hyewon Han, Woo-jin Chung, Hong-Goo Kang

arXiv:2504.14915v1 适配类型: 跨领域摘要：在本文中，我们提出了StableQuant，一种针对广泛使用的语音基础模型（SFMs）的新颖自适应后训练量化（PTQ）算法。尽管PTQ因其能够绕过额外的微调已经被成功应用于压缩大规模语言模型（LLMs），但直接将这些技术应用于SFMs可能会导致效果不佳，因为SFMs使用了不同的网络架构进行特征提取。StableQuant无论网络架构类型如何，均能表现出最佳的量化性能，因为它通过分析每层的尺度分布和整体性能来自适应地确定每个层的量化范围。我们将在两种SFMs，HuBERT和wav2vec2.0上对我们的算法进行自动语音识别（ASR）任务的评估，并实现了与传统PTQ方法相比更优的性能。通过8位量化，StableQuant成功地将SFM模型大小减少了四分之一，同时将推理速度翻倍，同时使词错误率（WER）性能下降控制在少于0.3%。

发布时间: 4/22/2025

查看原文

在实际环境中使用OCR时的外部干扰因素指南

arXiv:2504.14913v1 交叉公告类型摘要：随着AI技术的发展，OCR的性能得到了提升。随着OCR应用范围的扩大，各种使用环境引入的干扰可能性增加，这可能会导致其无法达到固有的性能。在某些条件下，这会导致识别准确性下降，使得识别设备的质量控制更加困难。因此，为了确保用户能够正确使用OCR，我们整理了导致性能下降的实际外部干扰因素及其引起的图像退化现象，并编制成外部干扰因素表格，并通过说明如何使用这些信息，将其组织成指南。

发布时间: 4/22/2025

查看原文

VLM 作为政策：短视频平台的共同法内容审核框架

作者: Xingyu Lu, Tianke Zhang, Chang Meng, Xiaobei Wang, Jinpeng Wang, YiFan Zhang, Shisong Tang, Changyi Liu, Haojie Ding, Kaiyu Jiang, Kaiyu Tang, Bin Wen, Hai-Tao Zheng, Fan Yang, Tingting Gao, Di Zhang, Kun Gai

arXiv:2504.14904v1 交叉类型：摘要：迅速增长的短视频平台（SVPs）在管理对用户心理健康有害的内容方面面临着重大挑战，特别是对于未成年人。此类内容在SVPs上的传播可能会导致严重的社会后果。尽管已经为此类内容的管理做出了大量努力，但现有的方法仍存在关键限制：（1）人工审查容易受到人为偏见的影响，并导致高昂的操作成本。（2）自动方法虽然高效，但缺乏对内容的细腻理解，导致准确性较低。（3）工业级的内容审核规定难以适应快速变化的趋势，因为其更新周期较长。本文中，我们通过使用真实用户/审阅者的反馈注释了首个SVP内容审核基准，以填补该领域的基准缺失。然后，我们在基准上评估了各种方法，验证了上述限制的存在。进一步地，我们提出了一种名为KuaiMod的共同法内容审核框架，以应对这些挑战。KuaiMod由三个部分组成：训练数据构建、离线适应和在线部署与精炼。利用大规模视觉语言模型（VLM）和链式思考（CoT）推理，KuaiMod能够基于稀疏用户反馈准确建模视频毒性和以快速更新速度和高准确性促进动态审核策略。离线实验和大规模在线A/B测试证明了KuaiMod的优势：KuaiMod在我们的基准测试中实现了最佳的审核性能。KuaiMod的部署将用户举报率降低了20%，其在视频推荐中的应用也显著提高了快手场景中的日活跃用户数（DAU）和APP使用时间（AUT）。我们已将基准公开在https://kuaimod.github.io。

发布时间: 4/22/2025

查看原文

潜隐贝叶斯优化 via 自回归归一化流

作者: Seunghun Lee, Jinyoung Park, Jaewon Chu, Minseo Yoon, Hyunwoo J. Kim

arXiv:2504.14889v1 类别: cross 摘要：贝叶斯优化（BO）因其在优化昂贵和复杂的目标函数方面的有效性而得到认可。最近在潜在空间贝叶斯优化（LBO）方面的进展通过将生成模型（如变分自编码器（VAEs））集成进来，展示了管理高维度和结构化数据空间复杂性的潜力。然而，现有的LBO方法通常受到值不匹配问题的影响，这个问题源于输入空间和潜在空间之间的重构差距。这种值不匹配问题在优化过程中传播错误，导致次优结果。为了应对这一问题，我们提出了一种基于规范流的贝叶斯优化（NF-BO），该方法利用规范流作为生成模型，从输入空间到潜在空间建立一一对应的编码函数，以及左逆解码函数，从而消除重构差距。具体地，我们引入了SeqFlow，这是一种针对序列数据的自回归规范流。此外，我们还开发了一种新的候选采样策略，该策略能够根据各个令牌的重要性动态调整探索概率。通过广泛的实验，我们的NF-BO方法在分子生成任务上表现出色，显著优于传统的LBO方法和近期的LBO方法。

发布时间: 4/22/2025

查看原文

latent空间维度对物联网僵尸网络检测性能的影响：VAE编码器与ViT编码器对比

作者: Hassan Wasswa, Aziida Nanyonga, Timothy Lynar

arXiv:2504.14879v1 交叉公告类型摘要：物联网（IoT）技术的快速发展导致了IoT设备、应用和服务数量的显著增加。这种IoT设备数量的激增，以及它们的广泛存在，使它们成为了各种网络攻击，尤其是通过物联网僵尸网络的攻击的主要目标。因此，安全问题在物联网生态系统中变得尤为重要。本文研究了潜在维度如何影响在训练数据集的潜在向量表示上训练的不同深度学习分类器性能。主要目标是在两个最先进的架构的编码器组件：视觉变换器（ViT）和变分自编码器（VAE）利用下，将高维训练数据集投影到学习到的低维潜在空间中的模型结果进行比较。编码器组件被用于将高维结构化的.csv物联网僵尸网络流量数据集投影到不同的潜在尺寸中。在N-BaIoT和CICIoT2022数据集上进行评估，结果显示，基于VAE-编码器的维度减少方法优于基于ViT-编码器的维度减少方法，这四个性能指标包括准确性、精确度、召回率和F1分数，这些结果可以归因于这些数据集中缺乏空间模式，而ViT模型试图从图像实例中学习和提取这些模式。

发布时间: 4/22/2025

查看原文

ReSpec: 基于相关性和特异性的时间在线过滤方法用于视频-文本数据流学习

作者: Chris Dongjoo Kim, Jihwan Moon, Sangwoo Moon, Heeseung Yun, Sihaeng Lee, Aniruddha Kembhavi, Soonyoung Lee, Gunhee Kim, Sangho Lee, Christopher Clark

arXiv:2504.14875v1 宣布类型: cross 摘要：视频-文本数据的快速增长在训练过程中带来了存储和计算方面的挑战。在线学习能够实时处理流式数据，为解决这些问题提供了有前途的解决方案，并且在需要实时响应的场景下也能实现快速适应。提高学习效率和效果的一种策略是识别并优先选择能够提高目标下游任务性能的数据。我们提出了基于相关性和具体性的在线筛选框架（ReSpec），根据以下四个标准选择数据：（i）模态对齐以确保干净数据，（ii）任务相关性以确保目标导向的数据，（iii）具体性以确保信息丰富且详细的数据，以及（iv）效率以实现低延迟处理。相关性通过即将流入的数据与下游任务的概率对齐来确定，而具体性则通过与表示最不具体数据的基础嵌入的距离来高效地代理信息丰富性。通过从目标任务数据建立参考点，ReSpec 实时筛选流入的数据，从而消除了对大量存储和计算的需求。在大规模数据集 WebVid2M 和 VideoCC3M 上进行评估，ReSpec 在五个零样本视频检索任务中达到了最新技术水平，仅使用了不到 5% 的数据，在计算资源上几乎无影响。源代码可从 https://github.com/cdjkim/ReSpec 获取。

发布时间: 4/22/2025

查看原文

桥接差距：从弱监督到全监督的时空动作定位PseudoFormer方法

作者: Ziyi Liu, Yangcen Liu

arXiv:2504.14860v1 类型: cross 摘要：弱监督时空动作定位（WTAL）已经取得了显著的成功，但仍受到时间注释不足的影响，导致其与完全监督方法在性能和框架上有差距。尽管最近的方法使用了伪标签进行训练，但三个关键挑战仍然没有解决：生成高质量的伪标签、充分利用不同的先验知识以及优化带噪声标签的训练方法。鉴于这些角度，我们提出了一种名为 PseudoFormer 的新型双分支框架，以填补弱监督和完全监督时空动作定位（TAL）之间的差距。我们首先引入了 RickerFusion，它将所有预测的动作提案映射到一个全局共享空间，以生成质量更好的伪标签。随后，我们在弱分支的片段级和提案级标签以及不同的先验知识的帮助下，利用回归模型进行训练。最后，我们使用不确定性掩码和迭代精炼机制对含噪声伪标签的训练进行训练。PseudoFormer 在两个常用的基准数据集 THUMOS14 和 ActivityNet1.3 上取得了最先进的 WTAL 结果。此外，广泛的消融研究还展示了我们方法中每个组件的贡献。

发布时间: 4/22/2025

查看原文