arXiv:2504.15515v2 Announce Type: replace-cross
摘要: 我们定义了一类测度,在一维样本空间中衡量概率密度函数之间的差异。该构造基于映射函数的凸函数,该映射函数将一个密度推进到另一个密度。我们将这类信息测度称为传输 $f$-散度。我们呈现了传输 $f$-散度的若干性质,包括不变性、凸性、变分公式以及以映射函数为基数的泰勒展开。提供了传输 $f$-散度在生成模型中的若干例证。
arXiv:2504.14985v2 宣告类型: 替换-交叉
摘要:评估大型语言模型(LLMs)的安全性和安全性仍然是一项复杂任务,通常需要用户在各种临时基准、数据集、度量标准和报告格式的分散景观中导航。为了解决这一挑战,我们提出了aiXamine,一个全面的黑盒评估平台,用于LLM的安全性和安全性评估。aiXamine整合了超过40项测试(即基准),这些测试按八个关键服务组织,针对安全性和安全性中的特定维度进行评估:对抗稳健性、代码安全性、公平性和偏见、幻觉、模型和数据隐私、离分布(OOD)稳健性、过度拒绝以及安全性对齐。该平台将评估结果汇总为每个模型的单个详细报告,提供模型性能的详细分解、测试示例以及丰富的可视化。我们使用aiXamine评估了超过50个公开可用和专有的LLM,进行了超过2000项检查。我们的发现揭示了一些领先模型的重要漏洞,包括OpenAI的GPT-4o对对抗攻击的敏感性、xAI的Grok-3的偏向输出以及Google的Gemini 2.0在隐私方面的弱点。此外,我们观察到开源模型在某些服务领域,如安全性对齐、公平性和偏见以及离分布稳健性,可以达到或超过专有模型的表现。最后,我们确定了不同的蒸馏策略、模型规模、训练方法和架构选择之间的权衡。
arXiv:2504.14921v2 通知类型: 替换交叉
摘要:对抗训练(AT)已被证明通过最小-最大优化方法显著增强了对抗鲁棒性。然而,在视频识别任务中的有效性受到了两个主要挑战的阻碍。首先,对于视频模型的快速对抗训练尚未进行充分探索,这严重阻碍了其实用应用。具体来说,大多数视频对抗训练方法在计算上成本高昂,导致训练时间长且费用高。其次,现有方法在干净准确性和对抗鲁棒性之间难以平衡。为了解决这些挑战,我们引入了基于弱到强一致性的视频快速对抗训练(VFAT-WS),这是首个针对视频数据的快速对抗训练方法。具体来说,VFAT-WS 包含以下关键设计:首先,它整合了一种简单而有效的时域频率增强(TF-AUG)及其空间-时间增强形式 STF-AUG,并与单步 PGD 攻击结合使用,以提高训练效率和鲁棒性。其次,它设计了一种从弱到强的空间-时间一致性正则化,无缝整合了更简单的 TF-AUG 和更复杂的 STF-AUG。通过利用一致性正则化,它引导学习过程从简单的增强到复杂的增强。两者结合在一起,实现了在干净准确性和鲁棒性之间的更好平衡。在 UCF-101 和 HMDB-51 数据集上的实验,包括卷积神经网络(CNN)和基于变换器的模型,表明 VFAT-WS 在对抗鲁棒性和抗毁性方面取得了显著改善,同时将训练加速近 490%。
arXiv:2504.14509v2 通知类型: replace-cross
摘要:在本文中,我们介绍了DreamID,一种基于扩散的面部替换模型,该模型在身份相似性、属性保留、图像保真度和快速推断速度方面达到了很高的水平。与传统的面部替换训练过程不同,后者往往依赖于隐式监督,并且难以达到满意的结果。DreamID 通过构建三重ID组数据建立了明确的面部替换监督,显著增强了身份相似性和属性保留。扩散模型的迭代性质在利用高效图像空间损失函数时提出了挑战,因为在训练过程中执行耗时的多步采样以获得生成的图像是不切实际的。为了解决这一问题,我们利用了加速扩散模型SD Turbo,将推断步骤减少为单次迭代,从而可以进行高效的像素级端到端训练,并且带有明确的三重ID组监督。此外,我们提出了一种改进的基于扩散的模型架构,其中包括SwapNet、FaceNet和ID Adapter。这种健壮的架构充分释放了三重ID组明确监督的全部潜力。最后,为了进一步扩展我们的方法,我们在训练过程中显式地修改了三重ID组数据,以微调并保留特定的属性,如眼镜和面部形状。广泛的实验表明,DreamID 在身份相似性、姿态和表情保留以及图像保真度方面优于现有的最先进方法。总体而言,DreamID 在 512*512 分辨率下只需 0.6 秒即可实现高质量的面部替换结果,并且在复杂的光照条件、大角度和遮挡等具有挑战性的场景中表现出色。
arXiv:2504.13969v2 宣布类型: replace-cross
摘要:本文介绍了 Tinker Tales,一种以桌面游戏形式的互动故事讲述框架,旨在支持早期儿童的叙事发展和人工智能素养教育。该框架通过附有NFC芯片的游戏棋子和标记,结合扬声器和麦克风,将实体和语音交互与人工智能集成。孩子们使用棋子和标记选择和定义关键故事情节元素,如人物、地点、物品和情感,为人工智能提供进一步的细节,并获得适当的帮助,类似于成年人引导人工智能完成特定任务(例如写作)。为了评估,使用儿童人工智能代理进行了几轮游戏会话,并从多个角度评估了生成的故事的质量和安全性。这项工作突显了将物理和数字元素结合在人工智能素养教育中的潜力,提供了一种安全且互动的方式,让儿童学习如何有效与人工智能协作。
arXiv:2504.13955v2 公告类型:替换-交叉
摘要:用于心理健康支持的AI系统的进展受限于能访问的心理治疗对话数据有限,特别是在创伤治疗方面。我们提出了创伤一千声,这是一个基于 PTSD(创伤后应激障碍)长期暴露疗法协议的合成基准数据集,包含3000场心理治疗对话。数据集包括500个独特的病例,每个病例通过六种对话视角进行探索,反映了从初始焦虑到最高峰的创伤压力再到情绪处理的心理治疗进程。我们使用确定性和概率生成方法,结合了多元的人口统计学特征(年龄18-80岁,平均年龄49.3岁,男性占49.4%,女性占44.4%,非二元性别占6.2%)、20种创伤类型和10种与创伤相关的行为。分析结果显示了创伤类型和症状的真实分布(目睹暴力10.6%,欺凌10.2%)、(噩梦23.4%,药物滥用20.8%)。临床专家验证了数据集的治疗真实性,指出其情感深度,同时建议进行更多真实性的改进。我们还开发了一个情感轨迹基准,使用标准化的评估指标来衡量模型响应。这个隐私保护的数据集解决了创伤相关心理卫生数据的关键缺口,为推进面向患者的的应用和临床培训工具提供了有价值的资源。
arXiv:2504.13945v3
公告类型: replace-cross
摘要: 大型视觉语言模型(LVLMs)的迅猛发展极大地推动了文档理解的应用,特别是在光学字符识别(OCR)和多语言翻译方面。然而,目前对LVLMs的评估,如广泛使用的OCRBench,主要集中在验证它们对短文本和简单布局长文本响应的正确性,而对其理解复杂布局设计下的长文本能力的评估虽然非常重要,但被很大程度上忽视了。在本文中,我们提出了菜单OCR和翻译基准(MOTBench),这是一种专门的评估框架,强调菜单翻译在跨文化交流中的关键作用。MOTBench 要求LVLMs准确识别并翻译菜单上的每道菜及其价格和单位项目,提供其视觉理解和语言处理能力的全面评估。我们的基准包括中文和英文菜单,这些菜单具有复杂布局、多种字体以及不同语言中的文化特异性元素,以及精确的人工标注。实验结果显示,我们的自动评估结果与专业的人类评估结果高度一致。我们评估了一系列公开的当前最先进的LVLMs,并通过分析它们的输出来识别它们的优缺点,为未来LVLM发展的指导提供了宝贵的见解。MOTBench 可在 https://github.com/gitwzl/MOTBench 上获得。
arXiv:2504.13763v2 Announce Type: replace-cross
摘要:Logit Lens 是一种广泛采用的方法,用于解释基于变压器的语言模型的机理可解释性,通过将内部表示投影到输出词汇空间,从而分析这些表示在各个层中的演变过程。虽然将 Logit Lens 应用于视觉变压器(ViTs)在技术上较为直接,但其直接使用在捕捉视觉表示的丰富性方面存在局限。基于 Toker 等人(2024)~\cite{Toker2024-ve} 的工作,他们引入了 Diffusion Lens 用于可视化文本到图像扩散模型的文字编码器中的中间表示,我们展示了 Diffusion Lens 能够有效可视化图像编码器中的残差流表示,但无法捕捉各个子模块的直接贡献。为克服这一局限,我们提出了 \textbf{Diffusion Steering Lens} (DSL),这是一种无需训练的新颖方法,它引导子模块输出,并紧接着捕捉间接贡献。通过干预性研究,我们验证了该方法,展示了 DSL 提供了 ViTs 内部处理的直观且可靠的解释。
arXiv:2504.13460v2 声明类型: replace-cross
摘要:传统的时空动作定位(TAL)方法依赖于大量详细的标注数据,而少数-shot TAL通过仅使用少量训练样本识别未见过的动作类别,从而减少了这种依赖性。然而,现有的少数-shot TAL方法通常仅集中于视频级别的信息,忽略了文本信息,这些文本信息可以为定位任务提供有价值的语义支持。因此,我们提出了一种基于Chain-of-Thought文本推理的新少数-shot时空动作定位方法,以提高定位性能。具体来说,我们设计了一种新型少数-shot学习框架,利用文本语义信息增强模型捕捉动作共性和变异的能力,其中包括一种设计用于在不同级别对查询和支撑视频进行对齐的语义感知文本-视觉对齐模块。同时,为了在文本级别更好地表达动作之间的时序依赖性和因果关系,以辅助动作定位,我们设计了一种类似于Chain of Thought (CoT)的推理方法,逐步引导视觉语言模型(VLM)和大型语言模型(LLM)为视频生成CoT-like文本描述。生成的文本可以捕捉到比视觉特征更多的动作变异。我们在公开可用的ActivityNet1.3和THUMOS14数据集上进行了广泛的实验。我们介绍了第一个名为Human-related Anomaly Localization的数据库,并探讨了TAL任务在人类异常检测中的应用。实验结果表明,我们提出的方法在单实例和多实例场景中显著优于现有方法。我们将发布我们的代码、数据和基准。
arXiv:2504.13340v2 宣告类型:替换交叉
摘要:半月板是膝关节内的软骨组织,有助于关节润滑和重量分散。半月板的损伤会导致与膝关节骨关节炎(OA)的产生和发展有关,这是一种主要由残疾引起的状况,而治疗效果有限。准确的自动化半月板分割可以实现早期检测和治疗半月板异常,从而更深入地了解半月板在OA疾病进展中的作用。该领域的主要关注点主要使用卷积网络的各种变体,但尚未尝试利用最新的大型视觉变压器分割模型。Segment Anything Model(SAM)是一种所谓的基础分割模型,由于用于训练模型的数据量大,它在各种不同任务中被发现具有有用性。在这项研究中,SAM被改编以从3D膝关节磁共振成像中自动分割半月板。还训练了一个3D U-Net作为基线。研究发现,仅微调解码器时,SAM无法与3D U-Net竞争,Dice分数为$0.81\pm0.03$,而在保留测试集上,3D U-Net的Dice分数为$0.87\pm0.03$。当从头到尾微调SAM时,Dice分数达到了$0.87\pm0.03$。在IWOAI膝关节MRI分割挑战2019中获胜的Dice分数为$0.88\pm0.03$的情况下,两种配置的SAM性能和3D U-Net相当。基于Hausdorff距离的性能显示,两种配置的SAM在匹配半月板形态方面均不如3D U-Net。结果表明,尽管SAM具有普适性,但无法在半月板分割任务中超越一个基本的3D U-Net,且可能不适合涉及低对比度和边界模糊的精细解剖结构的类似3D医学图像分割任务。