arXiv 论文列表

neutrons for neutrons：一种用于域分解中子能谱计算负载估算的变压器模型

作者: Alexander Mote, Todd Palmer, Lizhong Chen

arXiv:2411.03389v3 通告类型: 替换-交叉摘要: 域分解是一种用于减少大型中子传输问题中内存开销的技术。目前，这些域的最优负载均衡处理器分配通常是通过小规模问题仿真来确定的，这可能会占用研究人员大量时间，并且每次更改问题输入时都需要重新进行。我们提出了一种具有独特3D输入嵌入的Transformer模型，以及专为域分解中子传输问题设计的输入表示，该模型可以预测由小规模仿真生成的子域计算负载。我们展示了在域分解的小模块反应堆(SMR)仿真上训练的模型，可以实现98.2%的准确率，并完全省去了小规模仿真步骤。还讨论了该模型在不同燃料组件、其他问题几何形状以及仿真参数变化时的稳健性测试。

发布时间: 4/2/2025

查看原文

基于文化背景定位对话的LLM-人类工作流

作者: Rajkumar Pujari, Dan Goldwasser

arXiv:2410.13727v2 宣告类型: replace-cross 摘要：对话通常遵循跨文化之间不同的社交规范。例如，在西方，“称呼父母名字”是常见的做法，而在大多数亚洲文化中却很少见。这些规范的遵守或违反往往会决定对话的基调。人类能够在需要文化意识的情境中相当熟练地应对社交情况。然而，对于NLP模型来说，这是一个艰巨的任务。在本文中，我们通过引入一种“文化上下文模式”来解决这个问题。该模式包括：(1) 会话信息，如情感、对话行为等，以及(2) 文化信息，如社交规范、违反规范等。我们使用大语言模型（LLM）生成了约23,000场对话的约11万个社交规范和违反规范的描述。我们使用自动验证策略对这些描述进行优化，并用文化敏感的人类判断进行评估。我们将这些描述组织成有意义的结构，称为“规范概念”，使用一种互动式的人机闭环框架。我们通过符号注释将规范概念和描述与会话联系起来。最后，我们使用获得的数据集进行后续任务，如情感、情绪和对话行为检测。我们证明这种方法大大提高了实证性能。

发布时间: 4/2/2025

查看原文

Sabi\'a-3 技术报告

作者: Hugo Abonizio, Thales Sales Almeida, Thiago Laitz, Roseval Malaquias Junior, Giovana Kerche Bon\'as, Rodrigo Nogueira, Ramon Pires

arXiv:2410.12049v4 宣告类型: replace-cross 摘要：本报告介绍我们新的旗舰语言模型 Sabi\'a-3 及其更具成本效益的兄弟模型 Sabiazinho-3。这些模型在大型以巴西为中心的语料库上进行了训练。跨多个专业和学术基准的评估显示，该模型在葡萄牙语和与巴西相关任务上的表现非常出色。与我们之前的最佳模型 Sabia-2 Medium 相比，Sabi\'a-3 在涉及推理的任务中表现出显著的提升。值得注意的是，Sabi\'a-3 的平均性能与前沿语言模型相当，同时其每token的成本仅为后者三到四倍，这进一步证明了领域专业化的好处。

发布时间: 4/2/2025

查看原文

多任务学习中的低秩适应：MTL-LoRA

作者: Yaming Yang, Dilxat Muhtar, Yelong Shen, Yuefeng Zhan, Jianfeng Liu, Yujing Wang, Hao Sun, Denvy Deng, Feng Sun, Qi Zhang, Weizhu Chen, Yunhai Tong

arXiv:2410.09437v3 适应类型: 替换交叉摘要: 参数高效微调 (PEFT) 广泛应用于领域适应中，洛拉 (LoRA) 由于其简洁性和有效性而成为最突出的方法之一。然而，在多任务学习 (MTL) 场景中，LoRA 会通过将不同任务的稀疏高维特征投影到同一个密集低维内在空间中，模糊不同任务之间的区别，导致任务干扰和 LoRA 及其变体的次优性能。为了解决这一挑战，我们提出了 MTL-LoRA，它保留了低秩适应的优点，同时显著增强了 MTL 能力。MTL-LoRA 通过增加额外的任务适应参数来增强 LoRA，这些参数能够区分特定任务的信息，并在低维空间中跨多种任务捕捉共享知识。这种方法使得预训练模型能够在有限的可训练参数数量下联合适应不同的目标域。全面的实验结果，包括自然语言理解、常识推理和图像文本理解的公共学术基准评估，以及实际工业文本广告相关性数据集的评估，表明在 MTL 情景下，MTL-LoRA 在具有可比甚至更少可学习参数的情况下，比 LoRA 及其各种变体具有更好的性能。

发布时间: 4/2/2025

查看原文

扩散状态引导的投影梯度用于逆问题

作者: Rayhan Zirvi, Bahareh Tolooshams, Anima Anandkumar

arXiv:2410.03463v5 公告类型: replace-cross 摘要：最近在扩散模型方面的进展在学习数据先验以解决逆问题方面非常有效。它们利用扩散采样步骤来诱导数据先验，在每个步骤中使用测量指导梯度来施加数据的一致性。对于一般的逆问题，在使用未有条件训练的扩散模型时，由于难以计算测量似然性，因此需要进行近似，这会导致后验采样的不准确性。换句话说，由于这些方法的近似，它们无法在由扩散先验定义的数据流形上保留生成过程，从而在诸如图像恢复等应用中产生伪影。为了增强扩散模型在解决逆问题时的表现和鲁棒性，我们提出了扩散状态引导投影梯度（DiffStateGrad），该方法将测量梯度投影到一个低秩近似的中间扩散过程状态子空间中。作为模块，DiffStateGrad 可以添加到广泛的基于扩散的逆求解器中，以提高先验流形上扩散过程的保留并滤除导致伪影的成分。我们强调，DiffStateGrad 在测量指导步骤大小和噪声方面增强了扩散模型的选择鲁棒性，同时改进了最坏情况下的性能。最后，我们展示了 DiffStateGrad 在线性和非线性图像恢复逆问题中优于最新方法。我们的代码可在 https://github.com/Anima-Lab/DiffStateGrad 获取。

发布时间: 4/2/2025

查看原文

一層神經網絡的分解通过无限和的卷积核Banach空间

作者: Seungcheol Shin, Myungjoo Kang

arXiv:2409.18132v2 宣告类型: replace-cross 摘要: 在本文中，我们利用RKBS的特性定理定义了RKBS的和，并证明了RKBS的和与特征空间的直和兼容。此外，我们将积分RKBS分解为$p$范数RKBS的和。最后，我们提供了关于积分RKBS类的结构理解的应用。

发布时间: 4/2/2025

查看原文

通用和对策马尔可夫博弈中去中心化actor-critic算法的收敛性

作者: Chinmay Maheshwari, Manxi Wu, Shankar Sastry

arXiv:2409.04613v5 宣告类型: replace-cross 摘要：马尔可夫游戏提供了一种强大的框架，用于建模动态环境中的战略性多智能体交互。传统上，在这些设置中，去中心化学习算法的收敛性质仅限于特殊情况，例如马尔可夫零和博弈和潜在博弈，这些情况不能完全捕捉现实世界的交互。在本文中，我们通过探讨一般和博弈马尔可夫游戏中的学习算法的渐近性质来弥补这一缺口。具体而言，我们关注一种去中心化算法，其中每个智能体采用异步步长的演员-评论家学习动态。这种去中心化的方法使智能体可以独立操作，无需了解其他智能体的策略或收益。我们引入了马尔可夫近势函数（MNPF）的概念，并证明其可以作为去中心化学习动态中策略更新的近似李亚普un夫函数，从而使我们可以对收敛策略集进行表征。在特定正则条件下，我们可以进一步强化这一结果，并在有限纳什均衡的情况下进行说明。

发布时间: 4/2/2025

查看原文

"确定性"LLM设置的不确定性

作者: Berk Atil, Sarp Aykent, Alexa Chittams, Lisheng Fu, Rebecca J. Passonneau, Evan Radcliffe, Guru Rajan Rajagopal, Adam Sloan, Tomasz Tudrej, Ferhan Ture, Zhe Wu, Lixinyu Xu, Breck Baldwin

arXiv:2408.04667v4 宣布类型: replace-cross 摘要：大型语言模型（LLM）从业者通常注意到，在预期为确定性的设置下，相同输入的输出可能会有所不同。然而，这种现象的普遍程度及其对结果的影响尚未系统地进行研究。我们在10次运行中，对五种LLM进行配置，使其在执行八个常见任务时达到确定性状态，分别在零样本和少样本设置下进行调查。我们发现在自然运行中，准确率的变化幅度最高可达15%，最佳性能和最差性能之间的差距可达70%。事实上，在所有任务上稳定地提供可重复的准确率的LLM几乎没有，更不必说相同的输出字符串了。与内部人士分享初步结果后发现，非确定性可能是通过混存输入缓冲中的数据来高效利用计算资源的关键，因此这个问题不会很快消失。为了更好地量化我们的观察结果，我们引入了旨在量化确定性的指标：TARr@N，表示在N次运行中原始输出的总一致率；TARa@N，表示解析出的答案的总一致率。我们的代码和数据可在 http://github.com/REDACTED 公开获取。

发布时间: 4/2/2025

查看原文

NNsight 和 NDIF: 民主化访问开放权重基础模型内部结构的方式

作者: Jaden Fiotto-Kaufman, Alexander R. Loftus, Eric Todd, Jannik Brinkmann, Koyena Pal, Dmitrii Troitskii, Michael Ripa, Adam Belfki, Can Rager, Caden Juang, Aaron Mueller, Samuel Marks, Arnab Sen Sharma, Francesca Lucchetti, Nikhil Prakash, Carla Brodley, Arjun Guha, Jonathan Bell, Byron C. Wallace, David Bau

arXiv:2407.14561v4 公告类型: 替换-交叉混排摘要: 我们介绍了 NNsight 和 NDIF 技术,这些技术共同工作以使科学界能够研究非常大的神经网络学到的表示和计算。NNsight 是一个开源系统,扩展了 PyTorch 以引入延迟远程执行。National Deep Inference Fabric (NDIF) 是一个可扩展的推理服务,执行 NNsight 请求,允许用户共享 GPU 资源和预训练模型。这些技术是基于 Intervention Graph 架构实现的,该架构开发用于解耦实验设计与模型运行时。结合在一起,这个框架提供了一种透明而高效的访问深度神经网络内部的方法,如大型语言模型 (LLMs),而无需单独托管定制模型的高昂成本和复杂性。我们定量调查了机器学习文献,揭示了对大规模 AI 内部研究的差距正在不断扩大。我们通过展示我们的框架的设计和使用来弥合这一差距,该框架能够对大规模模型采用一系列研究方法。最后,我们进行了基准测试,以与之前的方案进行性能比较。代码、文档和教程可在 https://nnsight.net/ 获取。

发布时间: 4/2/2025

查看原文

GameVibe：一个多模态情感游戏语料库

作者: Matthew Barthet, Maria Kaselimi, Kosmas Pinitas, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis

arXiv:2407.12787v2 宣布类型: replace-cross 摘要：随着在线视频和流媒体平台的不断发展，情感计算研究已经转向了涉及多种模态的更复杂的研究。然而，高质量的音频视觉刺激的现成数据集仍然不足。在本文中，我们提出了GameVibe，一个新颖的情感语料库，其中包括多模态的音频视觉刺激，包括游戏中的行为观察和第三方观众参与的情绪痕迹。该语料库包含了来自30款不同公开可获取的游戏会话的视频，特别注意确保高质量的刺激数据，具有良好的音频视觉和游戏多样性。此外，我们还对注释者之间的可靠性和注释者一致性进行了分析。

发布时间: 4/2/2025

查看原文