arXiv 论文列表

作者: Sung Woong Cho, Hwijae Son

arXiv:2412.03161v2 Announce Type: replace-cross 摘要：涉及偏微分方程（PDEs）的逆问题可以被视为从测量数据到未知量的映射发现过程，通常在操作学习方法的框架内进行。然而，现有方法通常依赖大量标记的训练数据，这在大多数实际应用中是不切实际的。此外，这些监督模型可能无法准确捕捉到基本物理原理。为了解决这些局限性，我们提出了一种名为物理信息深度逆算子网络（PI-DIONs）的新架构，该架构可以在没有标记训练数据的情况下学习基于PDE的逆问题的解算子。我们扩展了逆问题文献中建立的稳定性估计，将其应用于操作学习框架，从而为我们的方法提供了一个稳健的理论基础。这些估计保证了在有限样本和网格上训练的提出模型在整体领域和函数空间中能够有效泛化。通过广泛的实验，我们展示了PI-DIONs可以在不需要标签数据的情况下有效地学习逆问题的解算子。

发布时间: 2/10/2025

查看原文

大规模语言模型测试时计算量的简单可证明缩放法则

作者: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

arXiv:2411.19477v2 通知类型: replace-cross 摘要: 我们提出了一种简单而有原则的方法，这些方法为大型语言模型（LLMs）的测试时计算提供了可证明的缩放定律，只需要一个黑盒LLM和其他任何东西（例如，不需要外部验证器或奖励模型）即可实现最小的实施。 (i) 第一种方法是一种两阶段拔河式算法：给定一个输入问题，它首先生成多个候选解决方案，然后通过两两比较候选解决方案的淘汰赛，将它们聚合为最终输出。假设LLM能够以非零概率生成正确解，并且在比较一对正确解和错误解时表现优于随机猜测，我们理论上证明，随着测试时计算的增长，该算法的失败概率以指数或幂律（取决于具体的缩放方式）的形式衰减为零。 (ii) 第二种方法是一种两阶段联赛式算法，其中每个候选解决方案通过与其他多个对手的平均胜率来评估，而不是在失败后被一个对手淘汰。在与淘汰式算法要求相似但更为 robust 的技术假设下，我们理论上证明，随着测试时计算的增长，联赛式算法的失败概率也以指数形式衰减为零。通过在两个具有挑战性的基准测试GPQA和MMLU-Pro上进行广泛的实验，我们验证了所提出的理论，并展示了这两种算法卓越的缩放性能。

发布时间: 2/10/2025

查看原文

超导量子电路中基于图神经网络的可扩展参数设计

作者: Hao Ai, Yu-xi Liu

arXiv:2411.16354v2 量子计算优越性展示类型：替换-交叉摘要：为了展示量子计算的优越性，正在设计和制造越来越多的大规模超导量子计算芯片。然而，模拟量子系统复杂性的挑战对量子芯片的计算机辅助设计，尤其是大规模芯片的设计造成了重大挑战。利用图神经网络（GNNs）的可扩展性，我们在这里提出了一个用于大规模超导量子电路的参数设计算法。该算法依赖于所谓的“三阶台阶扩展”机制，该机制包括两个神经网络模型：一个在小型电路上监督训练以应用于中型电路，以及一个在中型电路上无监督训练以应用于大型电路。我们通过减少量子交叉干扰错误来展示该算法。同时考虑单量子门和双量子门的频率（对应节点和边的参数）。数值结果表明，经过良好训练的设计器在效率、有效性和可扩展性方面取得了显著优势。例如，在由大约870个量子比特组成的大型超导量子电路中，基于GNNs的算法将当前最先进的算法产生的错误减少了51%，时间从90分钟缩减到27秒。总体而言，提出了一种性能更好且更具可扩展性的算法来设计超导量子芯片的参数，最初展示了将GNNs应用于超导量子芯片的优势。

发布时间: 2/10/2025

查看原文

Harnessing 规模和物理：一种用于任意几何结构的偏微分方程多图神经算子框架

作者: Zhihao Li, Haoze Song, Di Xiao, Zhilu Lai, Wei Wang

arXiv:2411.15178v3 宣布类型: replace-cross 摘要：偏微分方程（PDEs）是许多科学现象的基础，但传统的计算方法往往难以处理复杂的非线性系统和不规则的几何形状。本文介绍了AMG方法，这是一种专为在任意几何形状上高效求解PDEs设计的多图神经算子方法。AMG利用先进的基于图的技术和动态注意力机制，在一种新颖的GraphFormer架构中，能够准确管理各种领域的空间变化和复杂的数据依赖性。通过构建多尺度图来处理变化的特征频率，并通过物理图来封装内在的物理特性，AMG在性能上显著优于之前的方法，这些方法通常局限于均匀网格。我们在六个基准上对AMG进行了全面评估，展示了其相对于现有最先进的模型的一致优越性。我们的研究结果突显了定制图神经算子在克服传统PDE求解器面临挑战方面的变革潜力。我们的代码和数据集可在https://github.com/lizhihao2022/AMG获得。

发布时间: 2/10/2025

查看原文

GenBFA：针对LLMs的位翻转攻击的进化优化方法

作者: Sanjay Das, Swastik Bhattacharya, Souvik Kundu, Shamik Kundu, Anand Menon, Arnab Raha, Kanad Basu

arXiv:2411.13757v2 通告类型: replace-cross 摘要：大型语言模型（LLMs）已经彻底改变了自然语言处理（NLP），在文本生成和总结等任务中表现优异。然而，它们在关键任务应用中的日益广泛应用引发了对基于硬件的安全威胁的关注，特别是位翻转攻击（Bit-Flip Attacks，BFA）。BFA 可以通过诸如行锤击（Rowhammer）等故障注入方法实现，针对内存中的模型参数，从而破坏模型的完整性和性能。在 LLMs 的庞大参数空间中识别对 BFA 至关重要的参数面临着重大挑战。虽然先前的研究表明，基于 Transformer 的架构相对于传统深层神经网络来说更不易受到 BFA 的影响，但我们挑战了这种假设。首次，我们证明，在具有数十亿参数的 LLM 中，仅仅三个位翻转就可以导致灾难性的性能下降。当前的 BFA 技术由于高效地在庞大参数空间中识别关键参数的难度而无法充分利用这一漏洞。为了解决这一问题，我们提出了 AttentionBreaker，一种专门为 LLMs 设计的新框架，能够高效地遍历参数空间以识别关键参数。此外，我们引入了 GenBFA，这是一种进化优化策略，旨在进一步细化搜索，隔离最核心的位，以实现高效且有效的攻击。实验证明，AttentionBreaker 在揭露和利用 LLM 架构中的关键漏洞方面具有显著的效果。例如，在 LLaMA3-8B-Instruct 8 位量化（W8）模型中，仅仅三个位翻转（总计参数的 4.129 x 10^-9%）就导致完全的性能崩溃：在 MMLU 任务上的准确性从 67.3% 降至 0%，而维基文本困惑度则从 12.6 上升至 4.72 x 10^5。这些发现突显了 AttentionBreaker 在揭示和利用 LLM 架构中关键漏洞方面的有效性。

发布时间: 2/10/2025

查看原文

DiMSUM: 扩展的蟒蛇——一种可扩展且统一的空间-频率方法用于图像生成

作者: Hao Phung, Quan Dao, Trung Dao, Hoang Phan, Dimitris Metaxas, Anh Tran

arXiv:2411.04168v3 宣告类型: 替换-交叉摘要：我们介绍了一种新颖的状态空间架构，有效地利用空间和频率信息，增强输入图像在图像生成任务中的局部特征诱导偏见。虽然状态空间网络，包括Mamba，一种革命性的递归神经网络进步，通常从左到右扫描输入序列，它们在设计有效的扫描策略方面面临困难，尤其是在处理图像数据时。我们的方法表明，将小波变换集成到Mamba中可以增强对视觉输入的局部结构意识，并通过将频谱分解为小波子带，分别表示低频和高频分量，从而更好地捕捉频谱的长期关系。这些基于小波的输出随后通过交叉注意力融合层与原始的Mamba输出无缝结合，结合空间和频率信息以优化状态空间模型的顺序意识，这对于图像生成的细节和整体质量至关重要。此外，我们引入了全局共享变换器以增强Mamba的性能，利用其极强的能力捕捉全局关系。通过在标准基准上的广泛实验，我们的方法在DiT和DIFFUSSM上表现出优越的结果，实现了更快的训练收敛速度并提供了高质量的输出。代码和预训练模型发布在https://github.com/VinAIResearch/DiMSUM.git。

发布时间: 2/10/2025

查看原文

数据合成技巧掌握——为CodeLLMs服务

作者: Meng Chen, Philip Arthur, Qianyu Feng, Cong Duy Vu Hoang, Yu-Heng Hong, Mahdi Kazemi Moghaddam, Omid Nezami, Thien Nguyen, Gioacchino Tangari, Duy Vu, Thanh Vu, Mark Johnson, Krishnaram Kenthapadi, Don Dharmasiri, Long Duong, Yuan-Fang Li

arXiv:2411.00005v3 更改类型: replace-cross 摘要：大型语言模型（LLMs）在代码理解与生成方面展示了令人印象深刻的性能，使编程任务成为研究人员的重点关注领域，尤其是由于它们在LLM评估的试验场方面的重要应用和价值。数据合成和过滤技术已经被广泛采用并显示出在这一领域的高度有效性。在本文中，我们对这些技术进行了集中调查和分类，并强调了最近的进展。我们突出显示了关键挑战，探讨了未来的研究方向，并为新进入该领域的研究人员提供实用指导。

发布时间: 2/10/2025

查看原文

R-LLaVA：通过视觉区域兴趣提高医学生物问答理解

作者: Xupeng Chen, Zhixin Lai, Kangrui Ruan, Shichu Chen, Jiaxiang Liu, Zuozhu Liu

arXiv:2410.20327v4 宣告类型: replace-cross 摘要：人工智能在医学视觉问答（Med-VQA）方面取得了显著进展，但目前许多研究往往整体性地解释图像，忽略了可能包含关键信息的视觉兴趣区域，这些信息可能与医生的先验知识相吻合，可以通过最少的标注（例如，边界框）融入其中。为了解决这一问题，本文介绍了 R-LLaVA，它通过 CLIP 将简单的医学标注直接集成到图像空间中，以增强医学图像理解。在训练过程中，这些标注的兴趣视觉区域被提供给 LLaVA 模型，旨在丰富其对医学健康查询的理解。在四个标准 Med-VQA 数据集上的实验评估表明，R-LLaVA 在现有最佳方法（SoTA）上具有优势。此外，为了验证模型在视觉理解方面的能力，引入了一个新的多选医学视觉理解数据集，证实了关注视觉兴趣区域在促进医学健康查询理解方面具有积极影响。

发布时间: 2/10/2025

查看原文

上下文是关键：一个基于核心文本信息的预测基准

作者: Andrew Robert Williams, Arjun Ashok, \'Etienne Marcotte, Valentina Zantedeschi, Jithendaraa Subramanian, Roland Riachi, James Requeima, Alexandre Lacoste, Irina Rish, Nicolas Chapados, Alexandre Drouin

arXiv:2410.18959v3 通告类型: replace-cross 摘要：预测是众多领域决策制定中的关键任务。虽然历史数值数据提供了一个起点，但它们无法传达可靠的准确预测所需的完整上下文。人类预测者经常依赖额外的信息，如背景知识和约束，这些信息可以通过自然语言有效地传达。然而，尽管近年来基于LLM的预测者取得了进展，它们能否有效整合这种文本信息仍然是一个开放的问题。为此，我们引入了“上下文很重要”（CiK）基准，该基准将数值数据与精心设计的多种类型文本上下文配对，要求模型整合这两种模态；关键的是，CiK中的每个任务都要求在理解文本上下文的基础上成功解决。我们评估了包括统计模型、时间序列基础模型以及基于LLM的预测者在内的多种方法，并提出了一种简单而有效的方法，即LLM提示方法，在我们的基准测试中，这种方法的表现优于所有其他测试方法。我们的实验突显了整合上下文信息的重要性，展示了使用基于LLM的预测模型时令人惊讶的表现，并揭示了一部分其关键不足之处。该基准旨在通过促进既准确又易于技术背景各异的决策者访问的多模态预测模型来推进多模态预测。该基准可以在https://servicenow.github.io/context-is-key-forecasting/v0/进行可视化展示。

发布时间: 2/10/2025

查看原文

包含不可预测随机化的模拟状态下博弈论

作者: Vojtech Kovarik, Nathaniel Sauerberg, Lewis Hammond, Vincent Conitzer

arXiv:2410.14311v2 宣告类型: 替换-交叉摘要: 人工智能代理将以某些传统代理无法预测的方式表现出可预测性。我们如何利用这种可预测性来提高社会福利？我们在这个背景下研究了这个问题，其中一个代理支付固定成本以模拟另一个代理，从而学习其混合策略。作为负面结果，我们证明，在所谓的“广义信任游戏”中，与此前关于纯策略模拟的工作不同，启用混合策略模拟可能不再能对两玩家的全部情况下带来更好的结果。实际上，在模拟对象的动作可以依赖于模拟者的任何游戏中，混合策略模拟都没有帮助。我们还展示了，在一般情况下，判断模拟是否在一个给定的游戏中引入帕累托改进纳什均衡是NP难问题。作为积极的结果，我们证明，在模拟者有调整其信任水平选项、玩家面临信任和协调双重挑战或保持一定水平的隐私对于促进合作是必不可少的情况下，混合策略模拟可以提高社会福利。

发布时间: 2/10/2025

查看原文