arXiv 论文列表

作者: Yanbiao Ma, Bowei Liu, Wei Dai, Jiayi Chen, Shuo Li

arXiv:2502.11809v1 宣布类型：交叉摘要：在对象识别过程中，即使在平衡训练数据条件下，深度神经网络（DNNs）通常会对某些类别表现出偏向性。这些偏向性的内在机制仍然不清楚。受到人类视觉系统通过分层处理解开对象流形以实现对象识别的启发，我们提出了一种几何分析框架，将DNN中类别特定感知流形的几何复杂性与其模型偏差联系起来。我们的研究发现表明，几何复杂度的不同差异会导致不同类别的识别能力不同，从而引入偏差。为了支持这种分析，我们呈现了Perceptual-Manifold-Geometry库，该库旨在计算感知流形的几何属性。

发布时间: 2/18/2025

查看原文

基于潜在空间特征的深度神经网络精确深度估计

作者: Siddiqui Muhammad Yasir, Hyunsik Ahn

arXiv:2502.11777v1 宣布类型: cross 摘要：深度估计在推进人机交互中扮演着至关重要角色，尤其是在室内环境中，准确的三维场景重建对于导航和物体处理任务至关重要。单目深度估计依赖单一的RGB摄像头，相比传统使用立体相机或LiDAR的方法，提供了更经济的解决方案。然而，尽管最近取得了进展，许多单目方法在准确界定深度边界时仍存在问题，导致重建不够精准。为应对这些挑战，这项研究提出了一种新的深度估计框架，该框架利用深度卷积神经网络中的潜在空间特征，以增强单目深度图的精度。所提出的模型采用双编码器-解码器架构，能够实现颜色到深度和深度到深度的转换。这种结构通过潜在空间编码，允许细化的深度估计。为了进一步提高深度边界和局部特征的准确性，还引入了一种新的损失函数。该函数将潜在损失与梯度损失结合起来，帮助模型保持深度边界的完整性。该框架在NYU Depth V2数据集上进行了彻底测试，其中它建立了新的基准，特别是在复杂室内场景中表现出色。结果表明，该方法有效减少了深度歧义和模糊，使其成为人在机器人交互和三维场景重建应用中的 promising 解决方案。

发布时间: 2/18/2025

查看原文

验证缺口：语言模型在计算算术问题但未能验证其结果的机理分析

作者: Leonardo Bertolazzi, Philipp Mondorf, Barbara Plank, Raffaella Bernardi

arXiv:2502.11771v1 交叉类型: cross 摘要：大型语言模型（LLMs）验证其输出并识别潜在错误的能力对于确保其鲁棒性和可靠性至关重要。然而，当前的研究表明LLMs在自我纠正方面存在困难，遇到了显著的错误检测挑战。虽然已经有一些研究探讨了提高LLMs自我纠正能力的方法，但很少有人关注理解模型内部驱动错误检测机制。在本文中，我们对LLMs中的错误检测进行了机制分析，重点关注简单的算术问题。通过电路分析，我们确定了负责检测算术错误的计算子图在四个较小规模的LLMs中。我们的研究发现，所有模型均高度依赖于$\textit{一致性头}$—评估算术解中数值表面级对齐情况的注意力头。此外，我们观察到，模型内部的算术计算主要发生在较高层，而验证则主要在中间层进行，在最终的算术结果完全编码之前。这种算术计算和验证之间的结构性分离似乎解释了当前LLMs为何难以检测即使是简单的算术错误。

发布时间: 2/18/2025

查看原文

基于多特征融合的 Lightweight 人像伪造检测

作者: Siddiqui Muhammad Yasir, Hyun Kim

arXiv:2502.11763v1 宣布类型: cross 摘要: 深度伪造技术利用基于深度学习的面部操纵技术无缝地在视频中替换面部，生成极其逼真但人工生成的内容。尽管这项技术在媒体和娱乐中有益的应用，但对其能力的滥用可能导致身份盗窃、网络欺凌和虚假信息等严重风险。深度学习与视觉认知的整合导致了在处理数字媒体平台上由于人工生成的深度伪造图像引起的隐私风险方面的重要技术进步。在这项研究中，我们提出了一种高效且轻量级的方法来检测深度伪造图像和视频，使其适用于有限计算资源的设备。为了减少与深度学习模型通常相关的计算负担，我们的方法结合了机器学习分类器和关键帧方法以及纹理分析。此外，通过直方图梯度方向 (HOG)、局部二值模式 (LBP) 和 KAZE 带提取的特征与随机森林、极端梯度提升、极树和支持向量分类器算法结合使用来进行评估。我们的研究结果表明，HOG、LBP 和 KAZE 特征的特征级融合分别在 FaceForensics++ 和 Celeb-DFv2 上将准确性提高到 92% 和 96%。

发布时间: 2/18/2025

查看原文

连续学习中的费舍信息计算研究

作者: Gido M. van de Ven

arXiv:2502.11756v1 宣告类型: cross 摘要: 深度神经网络连续学习中最流行的方法之一是弹性权重巩固（EWC），它涉及到计算Fisher信息。然而，Fisher信息的精确计算方式很少被描述，网络上可以找到多种不同的实现方式。本文讨论并实证比较了几种常用的实现方式，这表明许多目前报告的EWC结果可能通过改变Fisher信息的计算方式而得以改进。

发布时间: 2/18/2025

查看原文

语言模型的视觉能力更胜一筹：基于对比解码的LLM多模态推理

作者: Yuqi Pang, Bowen Yang, Haoqin Tu, Yun Cao, Zeyu Zhang

arXiv:2502.11751v1 交叉公告类型摘要：尽管大型语言模型（LLMs）在语言任务中的推理和生成方面表现出色，但它们并不专门针对多模态挑战进行设计。然而，训练多模态大型语言模型（MLLMs）是一个资源密集型的过程，并受到各种训练限制的制约。在本文中，我们提出了一种基于模块化的视觉对比解码（MVCD）框架来克服这一障碍。我们的框架利用了LLMs的上下文学习（ICL）能力，并且特别为这一框架设计了视觉对比例 Witness 解码（CED），无需任何额外的训练。通过将视觉信号转换为文本，并在解码过程中关注对比输出分布，我们可以突出上下文示例引入的新信息，探索这些信息之间的联系，并避免过度依赖先验编码的知识。MVCD 提升了 LLMS 的视觉感知能力，使其能够看到并推理输入的视觉内容。为了展示 MVCD 的有效性，我们在四个LLMs上对五个问答数据集进行了实验。我们的结果不仅显示了模型精度的一致提升，还很好地解释了我们解码策略中的有效组成部分。我们的代码将在 https://github.com/Pbhgit/MVCD 上提供。

发布时间: 2/18/2025

查看原文

JotlasNet：联合张量低秩表示和注意力稀疏解开卷网络以加速动态MRI

作者: Yinghao Zhang, Haiyan Gui, Ningdi Yang, Yue Hu

arXiv:2502.11749v1 Announce Type: 综合摘要：联合低秩和稀疏展平网络在动态MRI重建中表现出优越性能。然而，现有工作主要利用了矩阵低秩先验，忽略了动态MRI图像的张量特性，并且只对多通道数据应用了一个全局阈值对稀疏约束，限制了网络的灵活性。此外，大多数方法本质上具有复杂的网络结构，变量之间存在复杂交互。本文提出了一种新颖的深度展平网络JotlasNet，通过联合利用张量低秩和基于注意力的稀疏先验来解决动态MRI重建问题。具体而言，利用张量低秩先验来充分利用高维数据中的结构相关性。卷积神经网络通过自适应学习低秩和稀疏变换域。提出了一种新颖的基于注意力的软阈值操作符，将可学习的唯一阈值分配给CNN学习到的稀疏域中的每个通道。该网络自一个精心设计的复合分裂算法展开，从而具有简单高效的并行结构。在两个数据集（OCMR, CMRxRecon）上进行的广泛实验表明，JotlasNet在动态MRI重建中的性能优越。

发布时间: 2/18/2025

查看原文

SQL-o1：一种自我奖励启发式动态搜索方法用于文本到SQL

作者: Shuai Lyu, Haoran Luo, Zhonghong Ou, Yifan Zhu, Xiaoran Shang, Yang Qin, Meina Song

arXiv:2502.11741v1 声明类型: cross 摘要: Text-to-SQL（Text2SQL）任务旨在将自然语言查询转换为可执行的SQL查询。得益于大型语言模型（LLMs）的应用，该领域取得了显著进展。然而，SQL生成中的模型可扩展性、生成空间有限以及SQL生成中的连贯性问题等挑战仍然存在。为了解决这些问题，我们提出了一种名为SQL-o1的方法，这是一项基于自我奖励的启发式搜索方法，旨在增强LLMs在SQL查询生成中的推理能力。SQL-o1结合了蒙特卡洛树搜索（MCTS）以进行启发式过程级搜索，并构建了一个模式感知数据集，以帮助模型更好地理解数据库模式。在Bird和Spider数据集上的广泛实验表明，与最新的基线方法相比，SQL-o1在复杂Bird数据集上的执行准确性提高了10.8%，甚至超越了基于GPT-4的方法。此外，SQL-o1在少量示例学习场景中表现出色，并且具有很强的跨模型迁移能力。我们的代码在以下地址公开：https://github.com/ShuaiLyu0110/SQL-o1。

发布时间: 2/18/2025

查看原文

ReviewEval：AI生成评论的评估框架

作者: Chavvi Kirtani, Madhav Krishan Garg, Tejash Prasad, Tanmay Singhal, Murari Mandal, Dhruv Kumar

arXiv:2502.11736v1 评审类型: 交叉学科摘要: 学术研究的不断增长与合格评审人员短缺的局面迫切需要创新性的同行评审方法。尽管大型语言模型（LLMs）有望为这一过程自动化带来可能，但它们目前仍存在表面化的评论、虚构事实和缺乏可操作洞察的问题。本研究通过引入一种全面的评价框架来克服这些挑战，该框架衡量与人类评价的一致性、验证事实准确性、评估分析深度并识别可操作的洞察。我们还提出了一种新的对齐机制，使生成的 AI 评审能够针对每个会议和期刊的独特评价优先级进行定制。为了提高这些评审的质量，我们引入了一种自改进循环，以迭代优化 LLM 的评审提示。该框架为评估基于 AI 的评审系统建立了标准化指标，从而增强了 AI 生成的评审在学术研究中的可靠性。

发布时间: 2/18/2025

查看原文

主动仓库发现：一种灵活的生成位置-路由框架

作者: Site Qu, Guoqiang Hu

arXiv:2502.11715v1 类别：交叉学科摘要：结合设施（仓库）定位和车辆路径规划挑战的定位-路线问题（LRP），受限于对预定义仓库候选者的依赖，限制了解空间并可能导致次优结果。关于不需要预定义仓库的LRP的研究较为稀缺，且主要集中于迭代尝试在平面区域内放置仓库的启发式算法。这些方法缺乏主动生成满足特定地理要求仓库位置的能力，揭示出现有研究领域的一个明显空白。为弥补这一空白，我们提出了一种数据驱动的生成DRL框架，旨在基于包含地理和需求信息的客户请求数据主动生成仓库，无需预定义的仓库候选者。该框架可以运行在两种不同的模式下：直接生成精确的仓库位置和创建多元高斯分布以灵活地进行仓库样本抽样。通过从客户请求数据中提取仓库的地理模式，我们的方法可以动态响应物流需求，找到比传统方法进一步降低总路由成本的高质量仓库位置。大量的实验表明，与通过随机尝试识别的仓库相比，我们的框架能够主动生成的仓库可以导致成本更低、更优的解决方案路径。我们框架的影响可能延伸到实际应用中，特别是在急救医疗救援和灾难救援物流领域，快速建立和调整仓库位置至关重要，展示了其在动态和不可预测环境中解决LRP的潜力。

发布时间: 2/18/2025

查看原文