arXiv 论文列表

作者: D. Cotroneo, F. C. Grasso, R. Natella, V. Orbinato

arXiv:2412.07538v2 宣告类型: replace-cross 摘要：漏洞预测在高效识别安全问题方面非常重要，尽管这需要目标软件系统的源代码，这是一个限制性的假设。本文提出了一项实验研究，旨在无需源代码或复杂的二进制表示的情况下预测二进制代码中的漏洞，通过神经反编译二进制文件并利用深度学习在反编译后的源代码上预测漏洞，这一方法取得了比现有最佳方法更好的效果，表明通过这种方法可以针对二类（易受攻击/非易受攻击）和多类（漏洞类型）分析识别出易受攻击的程序。

发布时间: 4/1/2025

查看原文

精确、快速且低成本的概念擦除在值空间中：正交补 matters

作者: Yuan Wang, Ouxiang Li, Tingting Mu, Yanbin Hao, Kuien Liu, Xiang Wang, Xiangnan He

arXiv:2412.06143v2 宣告类型：替换-交叉摘要：由扩散模型支持的文本到图像（T2I）生成及其不断增加的实际应用导致了迫切需要从预训练模型中精确、及时且低成本地消除不需要的概念，例如版权、冒犯性和不安全的内容。概念消除的需求包括两个方面：不仅需要精确去除目标概念（即消除效果），而且需要在生成过程中对非目标内容进行最小程度的改变（即先验保留）。现有的方法在保持消除效果和先验保留之间有效的平衡方面存在挑战，并且可能计算成本高昂。为了改进，我们提出了一种无需训练的精确、快速且低成本的概念消除方法，名为自适应价值分解器（AdaVD）。我们的方法基于在扩散模型的UNet内的每个交叉注意力层的价值空间中计算正交补的经典线性代数操作。我们设计了一个偏移因子以自适应地导航消除强度，从而在不牺牲消除效果的情况下增强有效的先验保留。与基于训练和无需训练的最新方法的广泛比较实验表明，提出的AdaVD在单个和多个概念消除方面都表现出色，与第二好的方法相比，在先验保留方面提高了2到10倍，同时实现最佳或接近最佳的消除效果。AdaVD支持一系列扩散模型和下游图像生成任务，代码可在以下地址获得：https://github.com/WYuan1001/AdaVD。

发布时间: 4/1/2025

查看原文

PaintScene4D：从文本提示生成一致的4D场景

作者: Vinayak Gupta, Yunze Man, Yu-Xiong Wang

arXiv:2412.04471v2 宣告类型: replace-cross 摘要：近年来，在扩散模型方面取得的进展已经彻底改变了2D和3D内容的创作方式，但在生成逼真的动态4D场景方面仍然存在重大挑战。现有动态4D生成方法通常依赖于从预训练的3D生成模型中提取知识，这些模型往往是在合成对象数据集上进行微调的。因此，生成的场景往往是物体中心的，缺乏逼真度。虽然文本转视频模型可以生成更具真实感的场景并包含运动，但在空间理解方面它们往往表现不佳，并且在渲染过程中提供了有限的摄像机视角控制。为了克服这些局限性，我们提出了PaintScene4D，这是一种新颖的文本转4D场景生成框架，它摒弃了传统的多视角生成模型，转而采用的一种简化架构，利用在多样化真实世界数据集上训练的视频生成模型。我们的方法首先使用视频生成模型生成一个参考视频，然后选择一个策略性的相机数组来进行渲染。我们应用逐级扭曲和填充技术，以确保从多个视角来看在空间和时间上保持一致。最后，我们使用动态渲染器优化多视角图像，从而根据用户偏好实现灵活的摄像机控制。采用无需训练的架构，我们的PaintScene4D能够高效地生成可以从任意轨迹观看的真实4D场景。代码将向公众开放。我们的项目页面是 https://paintscene4d.github.io/

发布时间: 4/1/2025

查看原文

长视频扩散生成与分段交叉注意力及内容丰富的视频数据整理

作者: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

arXiv:2412.01316v2 宣布类型: 替换交叉摘要：我们引入了Presto，一种新颖的视频扩散模型，旨在生成具有长程连贯性和丰富内容的15秒视频。将视频生成方法扩展到长时间内维持场景多样性面临着显著的挑战。为了解决这个问题，我们提出了分段交叉注意力（SCA）策略，该策略沿时间维度将隐藏状态分割成段，允许每个段对相应的子字幕进行交叉注意。SCA不需要额外的参数，能够无缝集成到当前的DiT架构中。为了促进高质量长视频的生成，我们构建了LongTake-HD数据集，包含261,000个内容丰富的视频，并具有场景连贯性，其中每个视频附带一个整体视频字幕和五个递进的子字幕。实验结果表明，我们的Presto在VBench语义得分上达到了78.5%，在动态程度上达到了100%，优于现有的最先进的视频生成方法。这表明我们提出的方法显著增强了内容丰富性、保持了长程连贯性并捕捉到了复杂的文本细节。更多信息请参阅我们的项目页面：https://presto-video.github.io/。

发布时间: 4/1/2025

查看原文

GREAT：几何-意图协作推理在开放词汇3D物体功能归心中

作者: Yawen Shao, Wei Zhai, Yuhang Yang, Hongchen Luo, Yang Cao, Zheng-Jun Zha

arXiv:2411.19626v2 通告类型: 替换-交叉摘要：开放词汇3D物体功能接地旨在根据任意指令预测3D物体上的“行动可能性”区域，这对于机器人通用地感知现实场景并应对操作变化至关重要。现有方法专注于通过图像或描述3D几何体交互的语言来引入外部交互先验。然而，它们仍然容易受到有限语义空间的限制，因为它们未能利用推断不变的几何属性和潜在的交互意图。通常，人类通过多步推理来解决复杂任务，并利用关联性和类比思考应对各种情况。鉴于此，我们提出了用于开放词汇3D物体功能接地的GREAT（GeometRy-intEntion collAboraTive inference），这是一种新颖的框架，该框架挖掘对象的不变几何属性，并在潜在的交互场景中进行类比推理，形成功能知识，全面结合几何和视觉内容来定位3D物体功能。此外，我们引入了点图像功能数据集v2（PIADv2），这是目前最大的3D物体功能数据集，以支持该任务。广泛的实验表明了GREAT的有效性和优越性。相关代码和数据集可在https://yawen-shao.github.io/GREAT/获取。

发布时间: 4/1/2025

查看原文

FreqX: 另一个域中分析归因方法

作者: Zechen Liu, Feiyang Zhang, Wei Song, Xiang Li, Wei Wei

arXiv:2411.18343v2 宣告类型: replace-cross 摘要: 个性化联邦学习(PFL)允许客户端在不泄露其私人数据集的情况下合作训练一个个性化模型。然而，PFL面临非IID、异构设备、缺乏公平性以及不明确的贡献等问题，迫切需要深度学习模型的可解释性来克服这些挑战。这些挑战提出了新的可解释性需求，包括低成本、隐私和详细信息。目前没有任何方法能够满足这些需求。在本文中，我们通过引入信号处理和信息理论提出了一种新的可解释性方法 \emph{FreqX}。我们的实验表明，FreqX 的解释结果既包含属性信息，也包含概念信息。并且，FreqX 的运行速度至少比包含概念信息的方法快10倍。

发布时间: 4/1/2025

查看原文

UniPose：统一多模态的人体姿态理解、生成和编辑框架

作者: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

arXiv:2411.16781v2 宣布类型: 替换-交叉摘要：人类姿态在数字时代中起着关键作用。尽管最近的研究在理解和生成人类姿态方面取得了令人瞩目的进展，但它们通常只支持单一类型的控制信号，并且在孤立状态下运作，这限制了它们在实际场景中的应用。本文介绍了UniPose框架，该框架利用大型语言模型（LLMs）在多种模态下理解、生成和编辑人类姿态，包括图像、文本和3D SMPL姿态。具体而言，我们应用姿态分词器将3D姿态转换为离散的姿态令牌，这使得姿态能够在统一的词汇表中无缝集成到LLM中。为了进一步增强细粒度的姿态感知能力，我们为UniPose配备了多种视觉编码器，其中包括特定于姿态的视觉编码器。得益于统一的学习策略，UniPose有效地在不同与姿态相关的任务之间传递知识，适应未见过的任务，并展现出扩展的能力。本文首次尝试构建一个通用框架，用于姿态的理解、生成和编辑。广泛的实验突显了UniPose在各种姿态相关任务中的竞争甚至优越性能。

发布时间: 4/1/2025

查看原文

《“正确”的方向正确吗？通过以自我中心的指令调优提升多模态大型语言模型中的对象定向理解》

作者: Ji Hyeok Jung, Eun Tae Kim, Seoyeon Kim, Joo Ho Lee, Bumsoo Kim, Buru Chang

arXiv:2411.16761v2 公告类型: 替换-交叉摘要: 多模态大型语言模型（MLLMs）充当关键接口，将人类与多模态应用中的AI技术连接起来。然而，当前的MLLMs由于训练数据中对象方向注解的一致性较差，在准确解释图像中的对象方向方面面临挑战，这阻碍了对一致方向理解的开发。为了解决这个问题，我们提出了以自我为中心的指令调优方法，该方法基于从用户自我中心视角派生的一致注解标准，使MLLMs的方向理解与用户视角保持一致。我们首先生成了利用MLLMs识别对象细节能力并结合先验知识以增强方向理解的自我中心指令数据。使用这些数据，我们进行了指令调优以增强模型对方向的准确解释能力。此外，我们引入了EgoOrientBench基准，该基准使用来自不同领域的图像在三个任务中评估MLLMs的方向理解能力。在该基准上的实验结果显示，自我中心指令调优显著改善了方向理解而不会牺牲整体MLLM性能。自我中心指令数据和基准数据集可以在我们项目页面 https://github.com/jhCOR/EgoOrientBench 上获取。

发布时间: 4/1/2025

查看原文

小语言模型性能更受训练数据质量和数量哪个因素的影响？

作者: Aryan Sajith, Krishna Chaitanya Rao Kathala

arXiv:2411.15821v2 通知类型: 替换-交叉摘要：本研究探讨了训练数据质量与数量对小型语言模型（SLMs）性能的相对影响，使用了TinyStories数据集进行实证分析。研究分析了数据集在大小（原大小的25%和50%）和复制（受控率为25%、50%、75%和100%）方面的变化。模型性能是基于验证损失、准确率和困惑度指标进行评估的。结果显示，训练数据质量在SLMs的整体性能中起着更重要的作用，尤其是在这次实验的规模下。轻微的复制对模型准确率产生了积极影响（在25%复制率下准确率提高了0.87%）且未显著增加困惑度（从0%到25%复制率，困惑度增加了0.52%），而过度复制导致了显著的性能下降（100%复制率下准确率下降了40%）。这次探索的影响不仅限于模型性能；训练大规模模型会对企业和个人造成显著的财务和计算负担，特别是在发展中国家，这可能成为一种障碍。此外，大规模训练相关的能源消耗也引发了环境方面的关注。理解数据质量与数量的相对重要性可以帮助使AI技术更加普及，使先进的模型对所有人更具访问性和可持续性。

发布时间: 4/1/2025

查看原文

大型语言模型 Memorized bug 基准吗？

作者: Daniel Ramos, Claudia Mamede, Kush Jain, Paulo Canelas, Catarina Gamboa, Claire Le Goues

arXiv:2411.13323v3 Announce Type: replace-cross 摘要：大型语言模型（LLMs）已经成为了软件工程中各种任务的重要组成部分，包括代码生成、bug检测和修复。为了评估这些领域中模型的表现，已经开发了包含实际软件项目中的bug的众多bug基准。然而，软件工程社区中日益增长的担忧是，这些基准可能无法可靠地反映真实的LLM性能，因为存在数据泄露的风险。尽管存在这一担忧，但有限的研究探讨了潜在泄露对模型性能的影响。在本文中，我们系统地评估了流行的LLM，以评估它们在广泛使用的bug基准中对数据泄露的脆弱性。为了识别潜在的泄露，我们使用了多个指标，包括对常用训练数据集中基准成员资格的研究，以及对负对数似然和n-克gram准确性分析。我们的发现表明，某些模型（特别是codegen-multi）在广泛使用的基准如Defects4J中表现出明显的记忆迹象，而最新使用更大数据集（如LLaMa 3.1）训练的模型仅显示出有限的泄露迹象。这些结果强调了仔细选择基准和采用稳健的评估指标的必要性，以充分评估模型的能力。

发布时间: 4/1/2025

查看原文