arXiv 论文列表

作者: Jirong Zha, Yuxuan Fan, Xiao Yang, Chen Gao, Xinlei Chen

arXiv:2504.05786v1 Announce Type: cross 摘要：3D空间理解在机器人技术、自主车辆、虚拟现实和医疗成像等实际应用中至关重要。近年来，大型语言模型（LLMs）已经在各个领域展现出了显著的成功，被用来增强3D理解任务，显示出超越传统计算机视觉方法的潜力。在此综述中，我们对现有方法进行了一次全面的回顾，这些方法将LLMs与3D空间理解相结合。我们提出了一种分类法，将现有方法分为三大类：基于图像的方法，从2D视觉数据中推断3D理解；基于点云的方法，直接处理3D表示；以及结合多种数据流的混合模态方法。我们系统地回顾了这些类别的代表性方法，涵盖了数据表示、架构修改以及连接文本和3D模态的训练策略。最后，我们讨论了当前的限制，包括数据集稀缺和计算挑战，同时指出了在空间感知、多模态融合和实际应用方面的有前景的研究方向。

发布时间: 4/9/2025

查看原文

视频流作为时间序列：发现视频QA中的时间一致性与变异性

作者: Zijie Song, Zhenzhen Hu, Yixiao Ma, Jia Li, Richang Hong

arXiv:2504.05783v1 Announce Type: cross 摘要：视频问答（VideoQA）是一个复杂的时间-语言任务，要求对视觉内容和时间动态有复杂的理解。传统的基于变换器的架构虽然在整合多模态数据方面效果显著，但在通过位置编码简化时间动态方面往往存在局限性，且无法捕捉视频序列内的非线性交互。在本文中，我们引入了时间三重变换器（T3T），这一新颖的架构用于建模时间和时间变异性。T3T集成了三个关键组件：时间平滑（TS）、时间差异（TD）和时间融合（TF）。TS模块利用布朗桥捕捉平滑的时间连续过渡，而TD模块识别并编码视频内容中的显著时间变化和突变。随后，TF模块将这些时间特征与文本线索综合起来，促进更深层次的上下文理解和响应准确性。通过在多个VideoQA基准数据集上的广泛测试，展示了T3T的有效性。我们的结果强调了在提高基于视频的问答准确性和深度方面，对时间建模采取细腻方法的重要性。

发布时间: 4/9/2025

查看原文

MDK12-Bench：评估多模态大语言模型推理能力的多学科基准

作者: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang

arXiv:2504.05782v1 多模态推理类型: 交叉摘要：多模态推理，即将语言和视觉线索整合到问题解决和决策过程中，是人类智能的基本方面，也是通往人工通用智能的关键步骤。然而，对多模态大型语言模型（MLLMs）的多模态推理能力的评估仍然不够充分。大多数现有的推理基准受到数据量有限、领域覆盖狭窄和知识分布不规范的限制。为了弥补这些不足，我们引入了MDK12-Bench，这是一个多学科基准，通过现实世界的小学至十二年级考试来评估MLLMs的推理能力。该基准涵盖了六大学科（数学、物理、化学、生物学、地理和信息科学），包括从小学到十二年级不同难度级别的共计140,000个推理实例。它基于组织良好的知识结构，标注了6,827个实例级别的知识点，提供详细的答案解释、难度标签和跨年份划分，为全面评估提供了坚固的平台。此外，我们提出了一个新颖的动态评估框架，通过在评估过程中逐步调整问题形式、问题类型和图像风格来减少数据污染问题。在MDK12-Bench上的大量实验揭示了当前MLLMs在多模态推理方面的显著局限性。我们基准上的发现为下一代模型的发展提供了见解。我们的数据和代码可从https://github.com/LanceZPF/MDK12获得。

发布时间: 4/9/2025

查看原文

可转移掩模变换器：基于区域自适应转移性估计的跨域语义分割

作者: Enming Zhang, Zhengyu Li, Yanru Wu, Jingge Wang, Yang Tan, Ruizhe Zhao, Guan Wang, Yang Li

arXiv:2504.05774v1 交叉声明类型摘要：近期在视力转换器（ViTs）方面取得的进展已经设定了新的语义分割基准。然而，在将预训练的ViTs适应新的目标域时，由于分布偏移，往往会显著降低性能，导致全局注意力亚最优。由于自注意力机制本质上是数据驱动的，当源域和目标域在纹理、尺度或物体共现模式上存在差异时，它们可能会在关键对象的关注上失败。虽然全局和基于补丁的域适应方法提供了部分解决方案，但在不同图像区域间转移能力的空间异质性下，基于区域的动态形变区域适应至关重要。我们提出了Transferable Mask Transformer（TMT），这是一种新的基于区域的适应框架，通过空间转移能力分析对跨域表示进行对齐。TMT 包含两个关键组件：（1）一个自适应簇基转移能力估计器（ACTE），动态将图像分割为结构上和语义上一致的区域，以进行局部转移能力评估；（2）一个可转移遮罩注意（TMA）模块，将区域特定的转移能力图融入到ViTs的注意力机制中，优先在转移能力低且语义不确定性高的区域进行适配。在20对跨域中的全面评估证明了TMT的优势，相比于简单的微调，其平均提高了2%的MIoU，并且相比于最新的基线方法提高了1.28%。源代码将公开可用。

发布时间: 4/9/2025

查看原文

一种轻量级多模块融合方法用于韩文字符识别

作者: Inho Jake Park, Jaehoon Jay Jeong, Ho-Sang Jo

arXiv:2504.05770v1 宣告类型: cross 摘要：光学字符识别（OCR）在文档处理、车牌识别和智能监控等应用中至关重要。然而，现有的OCR模型往往在现实场景中表现不佳，原因包括不规则的文本布局、图像质量较差、字符变异性以及高昂的计算成本。本文介绍了SDA-Net（笔画敏感注意力和动态上下文编码网络），这是一种旨在实现鲁棒单字符识别的轻量级高效架构。SDA-Net 包含了：（1）双重注意力机制，以增强笔画级和空间特征提取；（2）一个动态上下文编码模块，利用可学习的门控机制自适应地细化语义信息；（3）一种受 U-Net 启发的特征融合策略，用于结合低级和高级特征；以及（4）一种高度优化的轻量级骨干网络，以减少内存和计算需求。实验结果表明，SDA-Net 在具有挑战性的 OCR 基准测试中实现了最先进的准确率，并具有显著更快的推理速度，使其非常适合部署在实时和边缘基于的 OCR 系统中。

发布时间: 4/9/2025

查看原文

不规则采样时间序列的时空动态嵌入

作者: Mincheol Kim, Soo-Yong Shin

arXiv:2504.05768v1 类型: cross 摘要: 在许多实际应用中，特别是在医疗保健领域，每个患者的临床数据是在需要时以不规则的间隔在数据库中单独记录的。这导致了稀疏且不规则采样的时间序列，使其难以作为神经网络模型先决条件的结构化表示进行处理。因此，我们提出了一种时间动态嵌入（TDE），它可以使得神经网络模型接收随着时间变化变量数量发生变化的数据。TDE 将每个时间序列变量视为随着时间演变的嵌入向量，而不是传统的固定结构表示，这导致了一个关键的缺失问题。对于每个时间步骤，TDE 可以选择性地采用和聚合仅观察到的变量子集，并基于当前观察来表示患者的当前状态。实验在三个临床数据集中进行了：PhysioNet 2012、MIMIC-III 和 PhysioNet 2019。TDE 模型在减少训练运行时间的同时，与基于插补的基线方法和一些最新的最先进的方法相比，表现竞争力或更好。

发布时间: 4/9/2025

查看原文

人类与AI协作的解析：综述与展望

作者: Bowen Lou, Tian Lu, Raghu Santanam, Yingjie Zhang

arXiv:2504.05755v1 宣告类型: cross 摘要: 人工智能(AI)正在以前所未有的速度发展，显示出显著的提升决策制定和生产率的潜力。然而，人类与AI的合作决策过程仍处于不发达阶段，往往未能充分发挥其革新潜力。本文探讨了AI代理从被动工具转变为主动合作者在人—机团队中的进化过程，强调它们在复杂环境中的学习、适应和自主操作能力。这种范式转变改变了传统的团队动态，需要新的交互协议、任务分配策略和责任分配框架。基于团队情况意识（SA）理论，我们识别了当前人—机团队研究中的两大关键缺口：AI代理与人类价值观和目标的对齐困难，以及AI能力作为真正团队成员的未充分利用。为解决这些缺口，我们提出了一种结构化的研究展望，重点关注人类与AI团队的四个方面：形式化、协调、维护和培训。我们的框架强调了共同的心智模型、信任建设、冲突解决和技能适应对于有效团队合作的重要性。此外，我们讨论了不同团队组成、目标和复杂性所带来的独特挑战。本文为未来的研究和可持续、高性能的人—机团队的实际设计提供了基础议程。

发布时间: 4/9/2025

查看原文

DDT: 分解扩散变换器

作者: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang

arXiv:2504.05741v1 类别：交叉学科摘要：去噪变换器展示了令人瞩目的生成质量，尽管需要更长的训练迭代和更多的推理步骤。在每个去噪步骤中，去噪变换器将噪音输入编码以提取低频语义成分，然后使用相同的模块解码高频成分。这种方案创造了一个固有的优化困境：提取低频语义需要减少高频成分，这在语义编码和高频解码之间产生了矛盾。为了解决这一挑战，我们提出了一种新的**D**ecoupled**D**iffusion**T**ransformer（**DDT**），具有一个分离的设计：专用条件编码器用于语义提取，以及一个专门的速度解码器。我们的实验表明，随着模型大小的增加，更大的编码器能够获得性能改进。对于 ImageNet 256×256，我们的 DDT-XL/2 达到了新的最佳性能（与之前的方法相比，训练收敛速度快近 4 倍，FID 为 1.31）。对于 ImageNet 512×512，我们的 DDT-XL/2 达到了新的最佳 FID 为 1.28。此外，作为附带的好处，我们的解耦架构通过使相邻去噪步骤之间能够共享自我条件而提高了推理速度。为了最小化性能下降，我们提出了一个新的统计动态规划方法来确定最优的共享策略。

发布时间: 4/9/2025

查看原文

按秩然后评分：提升大型语言模型以实现自动作文评分

作者: Yida Cai, Kun Liang, Sanwoo Lee, Qinghan Wang, Yunfang Wu

arXiv:2504.05736v1 通知类型: cross 摘要：近年来，大规模语言模型（LLMs）在各种任务中取得了显著的成功。然而，它们在自动作文评分（AES）领域的潜力仍然很大程度上未被探索。此外，与英语数据相比，针对中文AES的方法发展得不够完善。在本文中，我们提出了一种基于大规模语言模型的细调框架Rank-Then-Score（RTS），以增强其作文评分能力。具体来说，我们使用特征增强的数据对排名模型（Ranker）进行微调，并将排名模型的输出（候选分数集）与作文内容输入评分模型（Scorer），生成最终分数。在HSK和ASAP两个基准数据集上的实验结果表明，RTS在所有LLM和数据集上的一致平均QWK值上始终优于直接提示（Vanilla）方法，并且在使用HSK数据集进行中文作文评分时表现出最佳性能。

发布时间: 4/9/2025

查看原文

独立架构的一般化界面对过参数化的深ReLU网络的研究

作者: Thomas Chen, Chun-Kai Kevin Chien, Patricia Mu\~noz Ewald, Andrew G. Moore

arXiv:2504.05695v1 类别: cross 摘要: 我们证明了过参数化的神经网络能够实现与过参数化程度无关的、与Vapnik-Chervonenkis (VC) 维数无关的测试误差泛化能力。我们证明了仅依赖于测试集和训练集的度量几何、激活函数的正则性质以及权重的算子范数和偏置的范数的明确边界。对于输入空间维度受限的训练样本大小下过参数化的深层ReLU网络，我们明确构造了无需使用梯度下降的零损失最小化器，并证明了泛化误差与网络架构无关。

发布时间: 4/9/2025

查看原文