arXiv 论文列表

MMGDreamer：混合模态图用于几何可控的3D室内场景生成

作者: Zhifei Yang, Keyang Lu, Chao Zhang, Jiaxing Qi, Hanqi Jiang, Ruifei Ma, Shenglin Yin, Yifan Xu, Mingzhe Xing, Zhen Xiao, Jieyi Long, Guangyao Zhai

arXiv:2502.05874v3 表示类型: 替换-交叉摘要：可控的3D场景生成在虚拟现实和室内设计中有广泛的应用，生成的场景在几何结构方面应表现出高度的真实性和可控性。场景图提供了一种适宜的数据表示形式，有助于这些应用。然而，当前基于图的方法在场景生成中仅限于文本输入，并且对灵活的用户输入适应不足，阻碍了对物体几何结构的精确控制。为了解决这个问题，我们提出了一种用于场景生成的双重分支扩散模型MMGDreamer，该模型结合了新颖的混合模态图、视觉增强模块和关系预测器。混合模态图允许物体节点整合文本和视觉模态，并且节点之间可以选择性地存在关系。这增强了对灵活用户输入的适应性，并使生成场景中的物体几何结构控制更加精细。视觉增强模块通过使用文本嵌入构建视觉表示，丰富了仅文本节点的视觉保真度。此外，我们的关系预测器利用节点表示来推断节点之间的缺失关系，从而产生更连贯的场景布局。广泛的实验结果表明，MMGDreamer在控制物体几何结构方面表现出色，实现了最先进的场景生成性能。项目页面：https://yangzhifeio.github.io/project/MMGDreamer。

发布时间: 3/27/2025

查看原文

面向上下文的语义重组机制用于大规模语言模型

作者: Richard Katrix, Quentin Carroway, Rowan Hawkesbury, Matthias Heathfield

arXiv:2501.17386v2 通知类型: 替换-交叉摘要：情境感知处理机制越来越多地成为提高语言生成模型的语义和情境能力的关键研究领域。情境感知语义重组机制（CASRM）作为一种新型框架被引入，旨在解决大规模文本生成任务中的连贯性、情境适应性和错误传播限制。通过整合动态生成的情境向量和注意调节层，CASRM 提高了词元级表示与更广泛的情境依赖性之间的对齐。实验评估表明，CASRM 在技术、对话和叙事等多种领域中显著提高了语义连贯性。通过一系列不同的测试场景评估其对未见过领域的适应性和对模糊输入的处理能力，突显出所提出的机制的稳健性。详细的计算分析表明，虽然 CASRM 引入了额外的处理开销，但其在语言精确性和情境相关性方面的改进超过了复杂度的边际增加。该框架还成功地减轻了序列任务中的错误传播，提高了对话延续和多步骤文本合成的性能。对词元级注意分布的进一步研究强调了通过情境感知增强所实现的动态焦点转移。研究结果表明，CASRM 提供了一种可扩展且灵活的解决方案，用于将情境智能整合到现有的语言模型架构中。

发布时间: 3/27/2025

查看原文

基于多模态执行路径分析的高精度勒索软件检测智能代码嵌入框架

作者: Levi Gareth, Maximilian Fairbrother, Peregrine Blackwood, Lucasta Underhill, Benedict Ruthermore

arXiv:2501.15836v2 公告类型: replace-cross 摘要：现代威胁环境不断演进，日趋复杂，挑战着传统检测方法的有效性，迫使人们寻找能够应对复杂对手战术的创新解决方案。开发了一种新型框架，通过多模态执行路径分析来识别勒索软件活动，该框架将高维嵌入和动态启发式推导机制相结合，以捕捉不同攻击变种的多样化行为模式。该方法展示了高度的适应性，有效抵消了勒索软件家族常用来逃避检测的混淆策略和多态特性。全面的实验评估表明，与基线技术相比，该方法在精确度、召回率和准确性指标上取得了显著进展，特别是在可变加密速度和混淆执行流程条件下的表现尤为出色。该框架实现了可扩展且计算效率高的性能，确保其在从资源受限环境到高性能基础设施等各种系统配置中具有稳健的应用性。值得注意的发现包括降低的误报率和即使对采用高级加密机制的勒索软件家族也有改进的检测延迟。该模块化设计允许无缝集成额外的模态，从而使其具备对未来威胁向量的扩展能力和抵御能力。定量分析进一步强调了该系统的能效特性，突显了其在业务运营严格约束环境下部署的实用性。结果强调了结合先进的计算技术和动态适应性以保护数字生态系统免受日益复杂的威胁的重要性。

发布时间: 3/27/2025

查看原文

TransPlace: 通过图神经网络实现可转移的电路全局布线

作者: Yunbo Hou, Haoran Ye, Shuwen Yang, Yingxue Zhang, Siyuan Xu, Guojie Song

arXiv:2501.05667v2 全局布局类型: 交叉替换摘要：全局布局是计算机芯片物理布局设计中一个关键步骤，对于优化芯片性能至关重要。之前的方法会从头开始单独优化每个电路设计。它们忽视了可转移的知识限制了解决方案的效率和芯片性能，尤其是在电路复杂性急剧增加时。本研究提出了一种名为 TransPlace 的全局布局框架，该框架能够学习在连续空间中放置数百万个不同尺寸的单元。TransPlace 引入了 i) 网表图以高效建模网表拓扑结构，ii) 单元流和相对位置编码以学习 SE(2)-不变表示，iii) 一种为放置知识的自适应参数化定制的图神经网络架构，以及 iv) 一种从粗到细的布局策略。与最先进的布局方法相比，TransPlace 在少量高质量布局训练后，能够以 1.2 倍的速度放置未见过的电路，同时减少 30% 的拥塞、9% 的延时和 5% 的线长。

发布时间: 3/27/2025

查看原文

HLV-1K：大规模一小时视频基准，用于时间特定长视频理解

arXiv:2501.01645v2 通知类型: 替换-交叉摘要：多模态大型语言模型由于许多有前途的实际应用，已成为深度视觉理解领域的热门话题。然而，由于1）长期视频分析的挑战，2）大型模型方法的低效性，以及3）缺乏大规模基准数据集，一小时跨度的视频理解（包含成千上万的视觉帧）仍被忽视。在这些方面，本文重点关注建立一个大规模一小时长视频基准——HLV-1K，旨在评估长视频理解模型。HLV-1K 包含1009个一小时长的视频，以及14,847个具有时间感知查询和多样注解的高质量问答（QA）和多项选择问答（MCQA）对，涵盖了帧级、事件内级、跨事件级以及长期推理任务。我们使用现有最先进的方法评估了该基准，并展示了它的价值，用于测试不同级别和各种任务的深层长视频理解能力。这包括促进对长直播视频、会议录音和电影等细节层面的长视频理解任务的发展。

发布时间: 3/27/2025

查看原文

面向端到端神经形态基于体素的3D物体重建无需物理先验知识

作者: Chuanzhi Xu, Langyi Chen, Haodong Chen, Vera Chung, Qiang Qu

arXiv:2501.00741v2 通知类型: replace-cross 摘要: 神经形态相机，也称为事件相机，是异步亮度变化传感器，能够捕捉极快速的运动而不产生运动模糊，这使它们特别适用于极端环境下的3D重建。然而，现有使用单目神经形态相机进行3D重建的研究较少，大多数方法依赖于估计物理先验并采用复杂多步流水线。在这项工作中，我们提出了一种端到端的方法，用于使用神经形态相机进行密集体素3D重建，从而消除估计物理先验的需求。该方法结合了一种新颖的事件表示，以增强边缘特征，使提出的特征增强模型能够更有效地学习。此外，我们引入了最优二值化阈值选择原则作为未来相关工作的指导方针，使用阈值优化获得的最佳重建结果作为基准。我们的方法在重建准确性上较基准方法提高了54.6%。

发布时间: 3/27/2025

查看原文

DiTCtrl：在多模态扩散变换器中探索注意力控制以实现无调谐多提示长视频生成

作者: Minghong Cai, Xiaodong Cun, Xiaoyu Li, Wenze Liu, Zhaoyang Zhang, Yong Zhang, Ying Shan, Xiangyu Yue

arXiv:2412.18597v2 Announce Type: replace-cross 摘要：使用多模态扩散变换器（MM-DiT）架构，Sora类似的视频生成模型已经取得了显著进步。然而，当前的视频生成模型主要关注单指令，难以生成多个顺序指令引导下的连贯场景，这些场景更能够反映现实世界的动态场景。虽然一些开创性的工作已经探索了多指令视频生成，但它们面临着包括严格的数据需求、指令跟随能力弱以及不自然过渡等重大挑战。为了解决这些问题，我们首次提出了一种在MM-DiT架构下无需额外训练的多指令视频生成方法——DiTCtrl。我们提出的核心思想是将多指令视频生成任务视为具有平滑过渡的 temporal 视频编辑任务。为了实现这一目标，我们首先分析了MM-DiT的注意力机制，发现其3D全注意力机制与UNet-like扩散模型中的跨注意力/自我注意力模块的行为类似，这允许在多指令视频生成中通过注意力共享实现基于掩码的精确语义控制。基于我们的精心设计，DiTCtrl生成的视频在多个顺序指令下实现了平滑过渡和一致的对象运动，无需额外训练即可完成。此外，我们还提出了一个名为MPVBench的新基准，专门用于多指令视频生成，以评估多指令生成性能。广泛的实验表明，我们的方法在无需额外训练的情况下实现了最先进的性能。

发布时间: 3/27/2025

查看原文

思维森林：扩展运行时计算以增强LLM推理

作者: Zhenni Bi, Kai Han, Chuanjian Liu, Yehui Tang, Yunhe Wang

arXiv:2412.09078v4 通告类型: 替换-交叉摘要：大型语言模型（LLMs）在各种语言任务中展示了卓越的能力，但在解决复杂推理问题方面仍面临重大挑战。虽然现有的方法，如思维链（CoT）和思维树（ToT），通过分解问题或结构化提示来增强推理能力，但它们通常仅进行一次推理过程，可能会错过复查错误路径的机会，从而影响准确性。为了解决这一局限性，我们提出了一种新的推理框架，称为思维森林（FoT），它结合了多个推理树，利用集体决策解决复杂逻辑问题。FoT 使用稀疏激活策略来选择最相关的推理路径，从而提高效率和准确性。此外，我们引入了一种动态自我修正策略，能够进行实时错误修正，同时引入共识引导决策策略，以优化正确性和计算资源。实验结果表明，结合这些策略的 FoT 框架显著增强了 LLMs 的推理能力，使其能够更加精确和高效地解决复杂任务。代码将在 https://github.com/iamhankai/Forest-of-Thought 提供。

发布时间: 3/27/2025

查看原文

DEIM: DETRwith改进匹配以实现快速收敛

作者: Shihua Huang, Zhichao Lu, Xiaodong Cun, Yongjun Yu, Xiao Zhou, Xi Shen

arXiv:2412.04234v3 通知类型: 交叉替换摘要: 我们引入了DEIM，这是一种创新且高效的训练框架，旨在通过基于Transformer的架构（DETR）加速实时物体检测的收敛速度。为了缓解DETR模型中固有的一对一（O2O）匹配稀疏监督问题，DEIM采用了一种密集型一对一匹配策略。这一方法通过引入额外的目标，结合标准数据增强技术，增加了每张图像的正样本数量。虽然密集型一对一匹配有助于加速收敛，但也引入了大量低质量的匹配，这可能会影响性能。为此，我们提出了匹配意识损失（MAL），这是一种新颖的损失函数，可以在各种质量级别上优化匹配，增强密集型一对一匹配的有效性。在COCO数据集上的大量实验验证了DEIM的有效性。当与RT-DETR和D-FINE集成时，它能够始终如一地提高性能同时将训练时间减少50%。值得注意的是，与RT-DETRv2结合时，DEIM在一个NVIDIA 4090 GPU的训练日中实现了53.2%的AP。此外，DEIM训练的实时模型在NVIDIA T4 GPU上以124 FPS和78 FPS分别达到54.7%和56.5%的AP，无需额外数据。我们认为DEIM为实时物体检测的进步设定了新的基准。我们的代码和预训练模型可在 https://github.com/ShihuaHuang95/DEIM 获取。

发布时间: 3/27/2025

查看原文

基于极正弦的分段扭曲直观轴向增强方法用于医疗切片分割

作者: Yiqin Zhang, Qingkui Chen, Chen Huang, Zhengjie Zhang, Meiling Chen, Zhibing Fu

arXiv:2412.03352v2 宣布类型: replace-cross 摘要：大多数用于医学图像分析的数据驱动模型依赖于通用增强来提高准确性。实验证据已经证实了它们的有效性，但这些方法背后不明确的机制阻碍了医学界对这些方法的广泛接受与信任。我们重新审视并认可了医学图像与传统数字图像的不同特性，因此提出了一个针对医学的增强算法，该算法更具灵活性且与放射学扫描程序更加契合。该方法根据极坐标中的半径使用分段仿射和正弦畸变射线，从而模拟人体平躺在扫描台上时的不确定姿势。我们的方法能够在不影响轴平面基本相对位置的情况下生成人体内脏分布。我们引入了两种非适应性算法，即基于元数据的扫描台去除和基于相似性的参数搜索，以增强我们增强方法的 robustness。与现有的其他方法相比，我们的方法以其直观的设计和易于医学专业人士理解而突出，从而增强了其在临床场景中的适用性。实验表明，我们的方法在多个著名分割框架中能够提高不同模态的准确性，而无需更多的数据样本。我们的预览代码可在 https://github.com/MGAMZ/PSBPD 查找。

发布时间: 3/27/2025

查看原文