arXiv 论文列表

作者: Long Kiu Chung, Shreyas Kousik

arXiv:2501.13023v2 安全公告类型: 替换-交叉摘要：尽管神经网络在关键安全控制应用中的部署越来越多，但在这些应用中强制执行其输出的约束仍然困难重重，这意味着很难保证这样的环境中的安全性。虽然许多现有方法致力于验证神经网络是否满足安全约束，但很少有方法解决如何纠正不安全的网络问题。少数从验证中提取训练信号的工作无法处理非凸集，并且要么保守要么速度较慢。为应对这些挑战，本文提出了一种神经网络训练方法，该方法可以鼓励具有修正线性单元 (ReLU) 非线性的神经网络生成避免非凸不安全区域的非凸输入集的精确图像。通过使用比例混合zonotope进行可达性分析，结合现有混合zonotope集表示的修改版本，通过混合整数线性程序 (MILP) 的可微碰撞检查实现不同参数化的非凸多面体集的可参数化缩放，从而实现了这一点。所提出的方法对于具有多达240个神经元的网络显示出有效且快速的效果，计算复杂度主要由缩放大小与神经元数量及输入和不安全集复杂性成线性关系的矩阵逆操作所主导。通过将此方法应用于针对非凸输入集的仿射系统训练一个保持不变的神经网络控制器以及为一个黑箱动力学系统生成安全避免计划，我们证明了此方法的实用性。

发布时间: 4/2/2025

查看原文

多模态人工智能系统在多主题物理概念测验上的多语言表现

作者: Gerd Kortemeyer, Marina Babayeva, Giulia Polverini, Ralf Widenhorn, Bor Gregorcic

arXiv:2501.06143v2 声明类型: 替换-交叉摘要：我们使用一个涵盖多个语言和学科类别的物理学概念测试集合，研究了一种基于大规模语言模型的人工智能系统（AI）——GPT-4o——的多语言和跨模态性能。这些测试集合来源于PhysPort网站，涵盖了从经典物理学（如力学、电磁学、光学和热力学）到相对论、量子力学、天文学、数学以及实验技能等多个主题领域。与之前的仅基于文本的研究不同，我们将测试集合作为图片上传，以反映学生在纸上看到的内容，从而评估系统的跨模态功能。研究结果表明，不同学科之间的表现存在差异，实验技能尤为薄弱。同时，我们还观察到不同语言之间的差异，英语和欧洲语言展现出最强的表现。值得注意的是，测试项目相对难度与调查的语言几乎没有关联。当我们对比AI的结果与现有文献中学生表现的现有数据时，发现除了实验技能外，该AI系统在所有学科类别中都优于平均受过指导的本科生。此外，该AI在需要对图片进行视觉解释的项目上表现较差，而在纯文本项目的上面表现更好。

发布时间: 4/2/2025

查看原文

基于可学习尺度的无数据组wise全方位量化Winograd卷积

作者: Shuokai Pan, Gerti Tuzi, Sudarshan Sreeram, Dibakar Gope

arXiv:2412.19867v2 宣布类型: 替换-交叉摘要：尽管大规模文本到图像扩散模型在复杂视觉任务和下游任务中取得了革命性的突破，但由于其极高的计算和存储成本限制了其适用性，因此限制了其应用。近期工作中已经探索了扩散模型的量化来减少计算成本和内存带宽使用。为了进一步提高推理时间，在卷积层（在扩散模型中占很大一部分计算量）上使用快速卷积算法（如 Winograd）可以进一步优化。然而，使用现有粗糙粒度的后训练量化方法的全量化 Winograd 过程中质量的显著损失，以及为了恢复质量而对 Winograd 变换矩阵进行微调的复杂性和成本，使得它们不适合大规模基础模型。鉴于 Winograd 中存在极大的值范围，我们研究了在量化扩散模型时细粒度分组量化的影响。尽管细粒度分组量化可以很好地处理完全量化 Winograd 卷积，但在 Winograd 域计算中很大一部分分布不均衡方面，它难以应对。为了减少 Winograd 域中的范围差异，我们仅调整 Winograd 变换矩阵的尺度参数进行微调，而不使用任何特定领域的训练数据。由于我们的方法不依赖于任何训练数据，因此量化扩散模型的泛化性能得到了安全保证。对于文本到图像生成任务，使用 Winograd 的 8 位全量化扩散模型在 FID 和 CLIP 分数上几乎可以实现无损质量，与全精度模型相比。对于图像分类任务，与 Winograd PTQ 方法相比，我们的方法在 ResNet18 和 ResNet-34 上分别使用 Winograd F(6, 3)得到的 top-1 ImageNet 准确率分别高出 1.62% 和 2.56%。

发布时间: 4/2/2025

查看原文

PICLe：伪标注在低资源命名实体检测的上下文学习中

作者: Sepideh Mamooler, Syrielle Montariol, Alexander Mathis, Antoine Bosselut

arXiv:2412.11923v2 任务类型: 替换-交叉摘要：上下文内学习（ICL）使大型语言模型（LLMs）能够使用少量示范进行任务，当标注示例难以获取时，促进任务调整。然而，ICL 对示范的选择敏感，尚不清楚哪些示范属性能够促进上下文内泛化。在这项工作中，我们对低资源命名实体检测（NED）的上下文内示范进行了扰动研究。我们令人惊讶的发现是，部分正确标注的实体提到的上下文内示范与完全正确的示范一样有效，可用于任务转移。根据我们的发现，我们提出了伪标注上下文内学习（PICLe）框架，这是一个利用嘈杂的伪标注示范进行上下文内学习的框架。PICLe 利用 LLMS 在零样本首次处理中对许多示范进行标注。然后，我们将这些合成示范聚类，并从每个聚类中采样特定的上下文内示范集，独立地使用每个集预测实体提到。最后，我们使用自我验证来选择最终的实体提到集。我们在五个生物医学 NED 数据集上评估了 PICLe，并展示了在低资源设置中，即使没有人工标注，PICLe 在使用有限的黄金示例作为上下文内示范时也优于 ICL。

发布时间: 4/2/2025

查看原文

Forest-of-Thought: 扩规模的实时计算增强LLM推理

作者: Zhenni Bi, Kai Han, Chuanjian Liu, Yehui Tang, Yunhe Wang

arXiv:2412.09078v5 提纲类型: replace-cross 摘要：大型语言模型（LLMs）在各种语言任务中展示了非凡的能力，但解决复杂的推理问题仍然是一个重大挑战。现有的方法，如步骤推理（CoT）和思维树（ToT），通过分解问题或构建设备提示来增强推理能力，但它们通常只进行一次推理过程，可能会忽视错误的推理路径，从而影响准确性。为了解决这一限制，我们提出了一种新的推理框架，称为思维森林（FoT），该框架结合了多个推理树，利用集体决策来解决复杂逻辑问题。FoT采用稀疏激活策略来选择最相关的推理路径，从而提高效率和准确性。此外，我们还引入了一种动态自我校正策略，能够实现实时错误更正，并通过共识引导的决策策略优化准确性和计算资源。实验结果表明，通过这些策略结合FoT框架，极大地增强了LLMs的推理能力，使其能够以更高的精度和效率解决复杂任务。代码将在https://github.com/iamhankai/Forest-of-Thought提供。

发布时间: 4/2/2025

查看原文

TOBUGraph：基于知识图谱的检索以超越RAG提升LLM性能

作者: Savini Kashmira, Jayanaka L. Dantanarayana, Joshua Brodsky, Ashish Mahendra, Yiping Kang, Krisztian Flautner, Lingjia Tang, Jason Mars

arXiv:2412.05447v2 更新类型: 交叉替换摘要：检索增强生成（RAG）是提高大规模语言模型（LLM）检索能力的领先且广泛使用的技术之一，但在商业应用场景中仍然面临诸多限制。RAG 主要依赖于嵌入空间中的查询-片段文本-文本相似性进行检索，无法捕捉片段之间的深层次语义关系，对分片策略高度敏感，并且容易产生幻觉。为了解决这些挑战，我们提出了 TOBUGraph，这是一种基于图的检索框架，它能够动态且自动地从非结构化数据中构建知识图。利用大语言模型（LLMs），TOBUGraph 提取结构化知识以及数据之间的多样关系，超越了 RAG 的文本-文本相似性。检索通过图遍历实现，利用提取出的关系和结构来提升检索准确性，避免了分片配置的需求，同时减少了幻觉的发生。我们通过 TOBU 在生产环境中的一项实际应用，展示了 TOBUGraph 在个人记忆组织和检索方面的有效性。使用真实用户数据的评估结果显示，TOBUGraph 在精确度和召回率上均优于多种 RAG 实现，通过提升检索准确性显著改善了用户体验。

发布时间: 4/2/2025

查看原文

单目视频中的动态场景串行前向重建

作者: Hanxue Liang, Jiawei Ren, Ashkan Mirzaei, Antonio Torralba, Ziwei Liu, Igor Gilitschenski, Sanja Fidler, Cengiz Oztireli, Huan Ling, Zan Gojcic, Jiahui Huang

arXiv:2412.03526v2 通知类型: replace-cross 摘要：最近在静态前向场景重建方面的进展在高质量新颖视图合成方面展示了显著的进步。然而，这些模型往往难以在多种环境中进行泛化，并且无法有效处理动态内容。我们提出了 BTimer（简称 BulletTimer），这是第一个用于实时重建和动态场景新颖视图合成的具有运动感知的前向模型。我们的方法通过聚合所有上下文帧的信息，在给定的目标（'子弹'）时间戳下以3D高斯射点表示重建整个场景。这样的表述使 BTimer 能够通过利用静态和动态场景数据集的优势来获得可扩展性和泛化能力。给定一个随意的单目动态视频，BJTimer 在 150ms 内重建子弹时间场景，同时在静态和动态场景数据集上达到了最先进的性能，甚至在与基于优化的方法相比时也是如此。

发布时间: 4/2/2025

查看原文

PhyT2V：由LLM引导的迭代自我修 refinement 物理接地的文本到视频生成

作者: Qiyao Xue, Xiangyu Yin, Boyuan Yang, Wei Gao

arXiv:2412.00596v2 通知类型: replace-cross 摘要：基于Transformer的扩散模型最近使得文本到视频（T2V）生成成为可能，但由于当前T2V模型在物理现实理解上的局限性和时间建模能力的不足，它们缺乏遵循现实世界常识和物理规则的能力。现有的解决方案要么是数据驱动的，要么需要额外的模型输入，但无法将T2V模型推广到分布外领域。本文中，我们提出了PhyT2V，这是一种新的数据无关的T2V技术，通过在T2V提示中启用链式思考和逆向推理，将当前T2V模型的视频生成能力扩展到分布外领域。我们的实验结果表明，PhyT2V将现有的T2V模型遵守现实世界物理规则的能力提高了2.3倍，并在T2V提示增强器的基础上实现了35%的改进。源代码可在https://github.com/pittisl/PhyT2V 获取。

发布时间: 4/2/2025

查看原文

差异性的特征：利用梯度改善字典学习

作者: Jeffrey Olmo, Jared Wilson, Max Forsey, Bryce Hepner, Thomas Vin Howe, David Wingate

arXiv:2411.10397v2 公告类型: 交叉替换摘要：稀疏自编码器（Sparse Autoencoders, SAEs）是一种通过学习神经网络内部激活的稀疏和超完备分解来提取神经网络表示的有效方法。然而，传统的SAEs仅考虑激活值，而不考虑这些激活对下游计算的影响。这限制了可用于学习特征的信息，并使自编码器偏向忽略那些虽有小激活值但强烈影响模型输出的特征。为了应对这一问题，我们引入了梯度自编码器（Gradient SAEs, g-SAEs），它通过在选择前K项时利用输入激活的梯度来修改$k$-稀疏自编码器架构中的TopK激活函数。对于给定的稀疏度水平，g-SAEs在传递通过网络时生成的重构更忠于原始网络性能。此外，我们发现证据表明，g-SAEs学习到的潜在特征在平均意义上更能有效地引导模型在任意上下文中的行为。通过考虑激活的下游影响，我们的方法利用了神经网络特征的双重性质，即作为回顾性的表示和展望性的行动。尽管以前的方法主要聚焦于前者来发现特征，g-SAEs代表了一种朝着考虑后者迈出的步骤。

发布时间: 4/2/2025

查看原文

MambaPEFT：探索Mamba的参数高效微调

作者: Masakazu Yoshimura, Teruaki Hayashi, Yota Maeda

arXiv:2411.03855v3 发布类型: replace-cross 摘要：通过使用大量数据构建大型模型，已经建立了一个基于 Transformer 的模型生态系统。参数高效微调（PEFT）是一种关键技术，可以在最小的成本下将这些模型部署到下游任务，同时实现有效的性能。最近，基于状态空间模型（SSM）的 Mamba 模型因其在 Transformer 的潜在替代方案中引起了关注。尽管已经提出了许多基于 Mamba 的大型模型，但如何高效地将预训练的 Mamba 模型适应到下游任务仍是一个未探索的领域。在本文中，我们对 Mamba 的 PEFT 方法进行了探索性分析。我们探讨了现有的 Transformer 的 PEFT 方法在应用于 Mamba 时的有效性。我们还对这些方法进行修改，以便更好地与 Mamba 架构对齐。此外，我们提出了新的基于 Mamba 的 PEFT 方法，利用了 Mamba 的独特结构。我们的实验表明，与 Transformer 相比，PEFT 在 Mamba 上表现得更有效。最后，我们展示了如何有效地结合多种 PEFT 方法，并提供了一种超越现有工作的框架。为了确保可再现性，我们将在发表后发布代码。

发布时间: 4/2/2025

查看原文