arXiv 论文列表

OmniDocBench：配备全面标注的多样化PDF文档解析基准测试

作者: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He

arXiv:2412.07626v2 公告类型：替换-交叉摘要：文档内容提取是计算机视觉中的关键任务，支撑着大型语言模型（LLMs）和检索增强生成（RAG）系统的数据需求。尽管最近取得了一些进展，但由于现有基准的文档类型覆盖面狭窄以及简化且不现实的评估程序，当前的文档解析方法未能得到公平且全面的评价。为解决这些差距，我们引入了OmniDocBench，一个新颖的基准，涵盖九种文档来源的高度注释数据，包括学术论文、教科书以及更具有挑战性的手写笔记和密集排版的报纸等。OmniDocBench 支持灵活的多层次评估——从端到端评估到特定任务和属性基于的分析，使用了19种布局分类和15个属性标签。我们对基于流水线的方法和端到端的视觉语言模型进行了详尽的评估，揭示了它们在不同文档类型中的优缺点。OmniDocBench 设定了文档解析公平、多样和精细评估的新标准。数据集和代码可在 https://github.com/opendatalab/OmniDocBench 获取。

发布时间: 3/26/2025

查看原文

基于Transformer的视觉模型的逆向推理

作者: Jan Rathjens, Shirin Reyhanian, David Kappel, Laurenz Wiskott

arXiv:2412.06534v3 宣布类型: replace-cross 摘要：理解计算机视觉中的深度神经网络机制仍然是一项基本挑战。虽然许多先前的方法集中在可视化深度神经网络中的中间表示，尤其是卷积神经网络，但这些技术在基于变压器的视觉模型中尚未得到充分探索。在本研究中，我们采用模块化的方法训练逆模型，从检测变压器和视觉变压器的中间层重构输入图像，显示了该方法的有效性和可行性。通过重建图像的定性和定量评估，我们获得了这些架构内在机制的见解，突出了它们在上下文形状、图像细节的保留、层间相关性以及对颜色扰动的鲁棒性方面的异同。我们的分析说明了这些特性如何在模型中出现，有助于更深入地理解基于变压器的视觉模型。用于重现我们实验的代码可在 github.com/wiskott-lab/inverse-tvm 获取。

发布时间: 3/26/2025

查看原文

SILMM：自我提升的大型多模态模型用于组合文本到图像生成

作者: Leigang Qu, Haochuan Li, Wenjie Wang, Xiang Liu, Juncheng Li, Liqiang Nie, Tat-Seng Chua

arXiv:2412.05818v2 更新类型: 替换-交叉摘要：大型多模态模型（LMMs）在多模态理解和生成方面展示了令人印象深刻的性能，推动了文本到图像生成的进展。然而，在合成场景中实现LMMs的准确文本-图像对齐仍然是一个挑战。现有的方法，如多步生成的布局规划和从人类反馈或AI反馈中学习，高度依赖于提示工程、昂贵的人工注释以及持续升级，限制了其灵活性和可扩展性。在本文中，我们引入了一种模型无关的迭代自我提升框架（SILMM），该框架能够使LMMs提供有帮助且可扩展的自我反馈，并通过直接偏好优化（DPO）优化文本-图像对齐。DPO可以很容易地应用于使用离散视觉令牌作为中间图像表示的LMMs；而对于使用连续视觉特征的LMMs，则不太适用，因为获取生成概率是一个挑战。为了使SILMM适应具有连续特征的LMMs，我们提出了一种多样性机制以获得多样的表示，并提出了一种基于核函数的连续DPO进行对齐。在三个合成文本到图像生成基准上的广泛实验验证了SILMM的有效性和优越性，T2I-CompBench++上的改进超过了30%，而在DPG-Bench上的改进约为20%。

发布时间: 3/26/2025

查看原文

大型语言模型的安全培训能否泛化到语义相关的真实提示？

作者: Sravanti Addepalli, Yerram Varun, Arun Suggala, Karthikeyan Shanmugam, Prateek Jain

arXiv:2412.03235v2 安全公告类型: 替换交叉摘要：大规模语言模型（LLMs）已知容易受到精心设计的对抗性攻击或“监禁攻击”，这些攻击会导致在使用安全性微调方法对齐于人类偏好后仍生成令人厌恶的内容。虽然输入令牌空间的高维性使得不可避免地找到能够“监禁”这些模型的对抗提示，但我们旨在评估经过安全性微调的LLMs是否对自然提示安全，这些自然提示与可能在对齐后产生安全响应的有毒种子提示在语义上相关。我们惊讶地发现，即使是像GPT-4这样的经对齐的流行LLM，也可以通过并非特意用于“监禁”模型的简单提示被妥协。此外，我们实证展示了，给定一个会产生有毒响应的未对齐模型的种子提示，可以系统地生成多个与该种子提示语义相关的自然提示，这些提示能够“监禁”对齐的LLM。为此，我们提出了一种响应引导问题扩充方法（ReG-QA），用于评估安全性对齐的LLMs对自然提示的泛化能力，该方法首先使用未对齐的LLM（Q到A）生成多个有毒答案，然后利用LLM生成可能会产生这些答案的问题（A到Q）。我们意外地发现，即使是在不否认的情况下，安全性微调的LLM如GPT-4o也容易从不安全的内容生成自然的“监禁”问题，因此可以用于后者（A到Q）的步骤。我们在JailbreakBench排行榜上获得的攻击成功率与/优于领先的对抗性攻击方法，同时对Smooth-LLM和同义词替换等防御措施的稳定性要显著优于现有的所有排行榜上的攻击方法。

发布时间: 3/26/2025

查看原文

Helvipad: 用于全方位立体深度估算的真实世界数据集

作者: Mehdi Zayene, Jannik Endres, Albias Havolli, Charles Corbi\`ere, Salim Cherkaoui, Alexandre Kontouli, Alexandre Alahi

arXiv:2411.18335v2 Announce Type: replace-cross 摘要：尽管在立体深度估计方面取得了进展，全景成像still有待进一步探索，主要原因在于缺乏适当的数据。我们介绍了一个用于全景立体深度估计的现实世界数据集Helvipad，该数据集包含来自各种环境的40K视频帧，包括室内外拥挤场景，涵盖了多种光照条件。数据集通过使用两个360°摄像机进行上下布置以及一个LiDAR传感器收集，包含了通过将3D点云投影到等圆柱图像上的精确深度和视差标签。此外，我们通过使用深度补全提供了增强的训练集，以增加标签密度。我们对传统和全景图像的领先立体深度估计模型进行了基准测试。结果显示，尽管最近的立体方法表现尚可，但在全景成像中准确估计深度仍面临挑战。为了解决这一问题，我们引入了对立体模型的必要适应性改进，从而提高了性能。

发布时间: 3/26/2025

查看原文

RoboSpatial：向2D和3D视觉-语言模型教学空间理解以应用于机器人技术

作者: Chan Hee Song, Valts Blukis, Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield

arXiv:2411.16537v2 通告类型: replace-cross 摘要：空间理解是一种使机器人能够感知其周围环境、对其环境进行推理并与其进行有意义互动的关键能力。在现代机器人技术中，这些能力越来越多地由视觉-语言模型提供。然而，在空间推理任务中，这些模型面临着重大挑战，因为它们的训练数据主要基于通用图像数据集，这些数据集往往缺乏复杂的空间理解能力。例如，数据集经常未能捕捉到参考框架的理解，而有效的空间推理则需要理解从自我中心、世界中心还是物体中心视角进行推理。为了解决这一问题，我们引入了RoboSpatial，这是一个用于机器人领域空间理解的大规模数据集。它包括真实的室内和桌面上场景，以3D扫描和自我中心图像的形式捕捉，并且标注了与机器人相关的丰富空间信息。该数据集包含100万张图像、5000个3D扫描和300万个空间关系的标注。2D自我中心图像与3D扫描的配对使其同时适用于2D和3D任务。我们的实验表明，使用RoboSpatial训练的模型在下游任务如空间功能预测、空间关系预测和机器人操作方面优于基线模型。

发布时间: 3/26/2025

查看原文

生成性提示内化

作者: Haebin Shin, Lei Ji, Yeyun Gong, Sungdong Kim, Eunbi Choi, Minjoon Seo

arXiv:2411.15927v3 Announce Type: replace-cross 摘要：最近基于大型语言模型的应用中使用的提示往往是固定的且长度较长，导致了显著的计算负担。为解决这一挑战，我们提出了一种名为生成提示内化（GenPI）的轻量级方法，该方法采用联合训练方法。GenPI 不仅复制具有提示输入的模型行为，还生成提示的内容以及模型行为应相应变化的原因。我们证明了我们的方法能够在各种基于代理的应用场景中有效地内化复杂的提示。为了实现有效的训练而无需与专用环境进行交互，我们引入了一种数据合成技术，该技术通过交换代理和环境的角色来自主收集对话数据集。这种方法特别适用于只有预定义提示而没有相应训练数据集的场景。通过内化复杂的提示，生成提示内化使高性能和高效推理成为可能，而无需显式的提示。

发布时间: 3/26/2025

查看原文

XAI的机理解释策略

作者: Marcin Rabiza

arXiv:2411.01332v4 宣布类型: replace-cross 摘要：尽管在 XAI 方面取得了显著进展，学者们继续指出其在建立稳健的概念基础以及与更广泛的科学解释讨论整合方面仍存在持续的不足。为应对这一挑战，新兴的 XAI 研究越来越多地借鉴来自不同科学学科和科学哲学领域的解释策略以填补这些空白。本文概述了一种机械论机制来解释深度学习系统的功能组织，并将最近在 AI 可解释性方面的进展置于更广泛哲学背景之下。根据机械论方法，解释不透明的 AI 系统涉及识别决策过程背后的机制。对于深度神经网络而言，这意味着识别功能相关的组件——如神经元、层、电路或激活模式——并通过分解、定位和重组来理解它们的作用。来自图像识别和语言建模的原理证明案例研究将这一理论框架与 OpenAI 和 Anthropic 最近的研究成果进行了对齐。研究结果表明，追求机械论解释可以揭示传统解释性技术可能忽略的元素，最终有助于更全面地解释 AI。

发布时间: 3/26/2025

查看原文

法律领域的自然语言处理：任务、数据集、模型与挑战综述

作者: Farid Ariai, Gianluca Demartini

arXiv:2410.21306v2 宣告类型: replace-cross 摘要：自然语言处理（NLP）正在彻底改变法律专业人士和普通人在法律领域的操作方式。NLP 在法律领域的巨大潜力，尤其是在开发各种法律流程的计算工具方面，多年来已经吸引了研究人员的兴趣。本次综述遵循《系统评价和荟萃分析优先报告项目》框架，共review了154篇研究，经过手动筛选后最终选择了133篇。本文探索了法学领域内NLP的基础概念，阐述了处理法律文本的独特方面和挑战，如文件长度广泛、语言复杂以及有限的开放法律数据集。本文概述了特定于法律文本的NLP任务，如法律文档摘要、法律命名实体识别、法律问答、法律论据挖掘、法律文本分类和法律判决预测。在法律语言模型（LMs）部分，我们分析了已开发的LMs及其适应法律领域的各种方法。此外，我们还确定了16个开放研究挑战，包括人工智能应用中的偏见、需要更稳健和可解释的模型，以及提高解释性以应对法律语言和推理的复杂性。

发布时间: 3/26/2025

查看原文

仔细思考，再次检查！元生成解锁大模型在低资源跨语言总结中的应用

作者: Zhecheng Li, Yiwei Wang, Bryan Hooi, Yujun Cai, Naifan Cheung, Nanyun Peng, Kai-wei Chang

arXiv:2410.20021v2 宣告类型: 替换-交叉摘要：跨语言摘要（CLS）旨在为目标语言生成源文本的摘要。目前，指令微调的大型语言模型（LLMs）在各种英语任务中表现出色。然而，与英语、中文或西班牙语不同，对于那些资源相对较少、使用或数据有限的低资源语言，最近的研究显示，在少量提示设置下，LLMs在CLS任务上的表现仍不尽如人意。这引发了问题：LLMs是否能够处理低资源语言的跨语言摘要任务？为了解决这一问题，我们通过四步零样本方法“总结、改进、翻译和润色”（SITR）及其相应设计的提示，全面探索了大型语言模型在低资源语言跨语言摘要任务中的潜力。我们在两种知名的跨语言摘要数据集上使用多种LLMs，对各种低资源目标语言进行了测试。结果显示：i) GPT-3.5 和 GPT-4 在使用我们的零样本 SITR 方法时，显著且一致地超越了其他基线方法。ii) 通过采用我们的方法，我们释放了LLMs的潜力，使它们能够有效地处理低资源语言的跨语言摘要任务。

发布时间: 3/26/2025

查看原文