arXiv:2504.01444v1 安全类型: 交叉
摘要: 多模态大型语言模型(MLLMs),通过将视觉和其他模态整合到大型语言模型(LLMs)中,显著增强了人工智能的能力,但也引入了新的安全漏洞。通过利用视觉模态的漏洞和代码训练数据的长尾分布特性,我们介绍了PiCo,这是一种新型的逃逸框架,旨在逐步绕过先进的MLLMs中的多层次防御机制。PiCo采用逐层逃逸策略,使用标记级别的图文攻击来规避输入过滤,并在编程上下文指令中嵌入有害意图以绕过运行时监控。为了全面评估攻击的影响,我们进一步提出了一种新的评估指标,以评估攻击后模型输出的毒性和有用性。通过在代码风格的视觉指令中嵌入有害意图,PiCo在Gemini-Pro Vision中实现了84.13%的平均攻击成功率,在GPT-4中实现了52.66%的攻击成功率,超过了以前的方法。实验结果突显了当前防御中的关键差距,强调了需要更 robust 的策略来保护先进的MLLMs。
arXiv:2504.01429v1 类型: 交叉
摘要:大型语言模型(LLMs)与图神经网络(GNNs)的结合 recently 被探索用于增强文本属性图(TAGs)的功能。大多数现有方法将图结构的文本描述或邻接节点的文本直接输入到LLMs中。然而,这些方法往往会使得LLMs简单地将结构信息视为一般的上下文文本,从而限制了它们在图相关任务中的有效性。在本文中,我们引入了LanSAGNN(语言语义各向异性图神经网络)框架,将各向异性GNN的概念扩展到自然语言层面。该模型利用LLMs提取为节点对量身定制的语义信息,有效地捕捉了节点关系中的独特交互。此外,我们提出了一种高效的双层LLMs微调架构,以更好地将LLMs的输出与图任务对齐。实验结果表明,LanSAGNN在不增加复杂性的情况下显著增强了现有的基于LLMs的方法,同时显示了强大的抗干扰能力。
arXiv:2504.01428v1 宣告类型: cross
摘要:光学相干断层成像血管成像(OCTA)通过提供血液血管的精确3D成像,在成像微血管网络方面显示出巨大重要性,但它依赖于专用传感器和昂贵的设备。为此,先前的工作显示出将 readily available 的3D光学相干断层成像(OCT)图像转换为3D OCTA图像的潜力。然而,现有的OCTA转换方法直接从连续和无限的空间中学习OCT域到OCTA域的映射,并仅从单一视角,即OCTA项目图,获得指导,导致结果欠佳。为解决这一问题,我们提出了在离散和有限空间中从OCT到OCTA的3D图像转换的多视角三对齐框架,名为MuTri。在第一阶段,我们通过重建3D OCT和3D OCTA数据,预先训练两个向量量化变分自编码器(VQ-VAE),为后续多视角指导提供语义先验。在第二阶段,我们的多视角三对齐促使另一个VQVAE模型在离散和有限的空间中学习OCT域到OCTA域的映射。具体地,我们提出了一种对比启发式的语义对齐,旨在最大化与从OCT和OCTA视角预训练的模型的互信息,以促进代码本学习。同时,我们提出了一种血管结构对齐,旨在最小化与从OCTA项目图视角预训练的模型的结构差异,从学习详细的血管结构信息中受益。我们还收集了第一个大规模数据集,即OCTA2024,该数据集包含846个主题的OCT和OCTA体积配对。
arXiv:2504.01420v1 宣布类型: cross
摘要:在AI驱动招聘正在改变招聘实践的时代,公平性和偏差问题变得越来越重要。为了探索这些问题,我们引入了一个基准FAIRE(公平性评估在简历评估中),以测试大型语言模型(LLMs)在评估来自不同行业的简历时是否存在种族和性别偏差。我们使用两种方法——直接评分和排名——来衡量当简历稍作修改以反映不同的种族或性别身份时,模型性能的变化情况。我们的研究发现显示,尽管每种模型都表现出一定程度的偏差,但这种偏差的量级和方向差异巨大。这个基准提供了一个明确的方法来检验这些差异,并提供了有关基于AI的招聘工具公平性的宝贵见解。它强调了减少AI驱动招聘中的偏差的紧迫需求。我们的基准代码和数据集已开源在我们的仓库中:https://github.com/athenawen/FAIRE-Fairness-Assessment-In-Resume-Evaluation.git。
arXiv:2504.01407v1 声称类型: cross
摘要: 大型视频语言模型(LVLMs)在各种视频语言任务中表现出色。然而,当处理长视频时,由于涉及大量的视频帧,它们会遇到重大挑战。通过时空下采样长视频可能导致视觉错觉,使准确解释长视频变得困难。受人类分层时间搜索策略的启发,我们提出了一种名为**TimeSearch** 的新框架,使 LVLMs 能以类似人类的方式理解长视频。TimeSearch 将两种类似人类的原始概念整合到了一个统一的自回归 LVLM 中:1)**Spotlight** 通过时间增强帧表示(TAFR)高效地识别相关的时空事件,明确地将视觉特征与时间戳绑定;2)**Reflection** 评估所识别事件的正确性,利用 LVLM 内在的时间自我反思能力。TimeSearch 逐步探索关键事件,并基于反思信心优先进行时间搜索。在具有挑战性的长视频基准上的广泛实验证实,TimeSearch 显著优于之前的最佳方法,在 LVBench 上准确率从 41.8% 提高到 51.5%。此外,时间定位实验表明,合适的 TAFR 足以在一种简单但通用的方式中有效地激发 LVLM 的令人惊讶的时间定位能力,这在 Charades-STA 上的 mIoU 上提高了 11.8%。代码将公开发布。
arXiv:2504.01403v1 Announce Type: cross
摘要:传统稀疏检索和密集检索方法难以利用通用的世界知识,并且往往无法捕捉查询和产品的细腻特征。随着大型语言模型(LLMs)的出现,工业搜索系统开始使用LLMs生成产品检索标识符。常用的标识符包括(1)静态/语义ID和(2)产品术语集。第一种方法需要从零开始创建产品ID系统,从而错过了嵌入在LLMs中的世界知识。而第二种方法利用了这种通用知识,但由于查询和产品之间的词汇分布存在显著差异,基于产品标识符往往与用户搜索查询不匹配,导致产品召回率较低。此外,当查询包含大量属性时,这些算法会产生大量的标识符,使得难以评估它们的质量,从而导致总体召回效率低下。
为应对这些挑战,本文提出了一种新的电商检索范式:生成式检索和对齐模型(GRAM)。GRAM通过同时训练查询和产品的文本信息来生成共享文本标识符代码,有效地弥合了查询和产品之间的差距。这种方法不仅增强了查询和产品之间的连接,还提高了推理效率。模型使用协同对齐策略生成优化以最大化检索效率的代码。此外,它引入了一种查询-产品评分机制,用于在不同代码之间比较产品值,进一步提高了检索效率。大量的离线和在线A/B测试表明,GRAM显著优于传统模型和最新的生成式检索模型,证实了其有效性和实用性。
arXiv:2504.01400v1 类型: cross
摘要: 工具学习使大语言模型(LLMs)能够利用外部工具解决复杂的用户任务,已经成为扩展模型能力的一个有前途的方向。然而,当前的方法主要侧重于数据合成,旨在微调LLMs以有效地调用工具,很大程度上忽视了如何充分激发模型的潜力。在本文中,我们提出了一种名为ToolACE-R的新方法,该方法引入了适应性的自我完善机制以促进工具调用。我们的方法采用了模型感知的迭代训练程序,随着模型能力的逐步提升,逐步整合更多的训练样本。此外,它允许LLMs迭代地改进其工具调用,优化性能而不必依赖外部反馈。为了进一步提高计算效率,我们在扩展推理时间时集成了一种适应性机制,使模型能够自主决定停止改进过程的时间。我们在多个基准数据集上进行了广泛的实验,结果显示ToolACE-R在性能方面与基于高级API的模型相媲美,甚至在没有任何改进的情况下也是如此。此外,通过适应性的自我完善,其性能可以进一步高效地提升。我们的结果表明,所提出的方法的有效性,该方法与不同规模的基模型兼容,为更高效的工具学习提供了有前景的方向。
arXiv:2504.01395v1 宣告类型: cross
摘要: 差分隐私(DP)图像合成旨在从敏感数据集中生成合成图像,缓解组织在共享和利用合成图像时的隐私泄露担忧。尽管先前的方法在训练差分隐私扰动的扩散模型(DP-SGD)方面取得了显著进展,但它们仍然在性能上不尽如人意。在此项工作中,受教学顺序学习的启发,我们提出了一种两阶段的DP图像合成框架,扩散模型从容易到困难逐步学习生成DP合成图像。与现有方法直接使用DP-SGD训练扩散模型不同,我们提出了在初期阶段的一个容易阶段,扩散模型从敏感图像中学习简单的特征。为了便于这一容易阶段,我们提出了使用`中央图像',即敏感数据集的随机样本的简单聚合。直观上,虽然这些中央图像不显示细节,但它们展示了所有图像的有用特征,并仅导致最小的隐私成本,从而有助于早期阶段的模型训练。我们在四个研究数据集上进行了实验,结果显示,与当前最先进的方法相比,我们合成图像的保真度和实用性指标分别提高了33.1%和2.1%。
arXiv:2504.01366v1 类别: cross
摘要: 空间旅行是一种孤立和受限环境(ICE),会使宇航员暴露在心理危险中,如压力、危险和单调。虚拟现实(VR)和人工智能(AI)技术可以作为心理防护措施,因为它们可以数字化模拟沉浸式环境、互动伴侣和治疗体验。我们的研究采用范围文献综述的方法,以确定目前关于VR和AI基干预措施在缓解宇航员或在其他孤立和受限环境中成年人的情绪状态或改善情绪方面的适用性和有效性。此外,该综述还旨在识别知识空白,以及是否需要进行系统评价和元分析。该综述纳入了在空间或其它外太空环境中使用或计划使用的干预措施的研究。我们的搜索策略在七个主要数据库中查到了3390条记录,最终确定了19篇相关研究。所有研究都集中在VR干预措施上,没有找到符合条件的基于AI的干预研究。VR干预措施被发现对于放松和改善情绪、应急培训、作为一种互动通信平台、比较内部设计以及增强锻炼都是有效的。情绪和情感指标(如焦虑和压力)有所改善,但用户偏好不同,并且报告了一些虚拟现实不适症的情况。由于结果的异质性,不建议进行系统评价和元分析。尚有很大的研究空间,可以使用标准化评估工具对更广泛的情绪和情感变量进行VR的应用研究。此外,AI作为心理防护措施的应用潜力也值得进一步调查。
arXiv:2504.01337v1 公告类型:交叉
摘要:混合专家(MoE)在保持近似恒定的计算成本的情况下成功地扩大了模型规模。通过使用门控网络来路由输入标记,它选择性地激活专家网络子集来处理相应的标记表示。然而,在实践中,MoE的效率实现面临着两个主要原因的挑战:专家激活的不平衡,这会导致在模型或专家并行时出现大量闲置时间,以及容量利用率不足;以及由于系统级别专家并行中的大量专家路由组合而导致的巨大通信开销。先前的工作通常将其表述为由门控网络对某些专家的偏好所引起的负载不平衡问题,或者将其归因于静态执行,无法适应运行时的动态专家工作负载。在这项工作中,我们从全新视角出发,对MoE路由策略进行更高层次的分析:专家之间的协作和专业化,其中一些专家倾向于广泛与其他专家协同工作(协作),而另一些专家更可能仅与特定子集的专家协同工作(专业化)。我们的实验表明,大多数专家倾向于过度协作,导致通过重复将标记发送到不同的加速器而增加了通信开销。为此,我们提出了一种新的协作约束路由(C2R)策略,鼓励更专业化级别的专家组,同时提高专家利用率,并提出了一种进一步利用专家专业化性的高效MoE实现。我们在LLaMA-MoE和Qwen-MoE上分别在十个下游NLP基准测试中实现了0.51%和0.33%的平均性能提升,同时减少了GPU之间的全对全通信成本,这在现有的最优方案MegaBlocks之上带来了额外20%-30%的总运行时间节省。