arXiv 论文列表

作者: Daoyang Li, Haiyan Zhao, Qingcheng Zeng, Mengnan Du

arXiv:2409.14459v2 举报类型: replace-cross 摘要：针对大型语言模型（LLMs）的探针技术主要集中在英语上，忽视了世界上大多数语言。在本文中，我们将这些探针方法扩展到多语言情境中，研究LLMs在多种语言中的行为。我们对几个开源LLM模型进行了实验，分析了探针准确性、各层的趋势以及多种语言之间的探针向量相似性。我们的主要发现包括：（1）高资源语言和低资源语言之间存在一致的性能差距，高资源语言的探针准确性显著更高；（2）各层准确性的差异趋势，高资源语言在更深的层面上显示出与英语类似的显著改进；以及（3）高资源语言之间的表示相似性更高，而低资源语言自身之间的相似性较低，与高资源语言的相似性也较低。这些结果突显了LLMs在多语言能力上的显著差异，并强调了改进低资源语言建模的必要性。

发布时间: 2/3/2025

查看原文

FPBoost：全参量梯度提升生存分析方法

作者: Alberto Archetti, Eugenio Lomurno, Diego Piccinotti, Matteo Matteucci

arXiv:2409.13363v2 生存分析类型: 替换-交叉摘要：生存分析是一种用于建模时间-事件数据的统计框架。它在医学、可靠性工程和社会科学研究中扮演着重要角色，特别是在理解事件动力学方面，即使只有少量的数据样本也是如此。机器学习的最新进展，尤其是使用神经网络和决策树的方法，为生存建模引入了复杂的算法。然而，这些方法中的许多都对潜在的事件时间分布做了限制性的假设，例如比例风险、时间离散化或加速失效时间。在本研究中，我们提出了FPBoost，这是一种结合加权的完全参数化风险函数总和与梯度提升的生存模型。分布参数通过最大化全生存似然性训练的决策树进行估计。我们展示了FPBoost作为一种幅值函数的通用逼近器，同时通过使用已确立的参数分布保持了可解释性。我们使用多个基准数据集评估了FPBoost的一致性和校准性，展示了其作为一种新的生存估计工具的稳健性和多功能性。

发布时间: 2/3/2025

查看原文

Mamba 融合：通过提问学习动作

作者: Zhikang Dong, Apoorva Beedu, Jason Sheinkopf, Irfan Essa

arXiv:2409.11513v2 通知类型: 替换-交叉摘要：视频语言模型（VLMs）对于跨多种任务的一般化以及利用语言线索来增强学习至关重要。尽管以 transformer 为基础的架构一直是视觉-语言训练中的标准，但它们面临着如计算复杂性呈二次增长、高 GPU 内存使用率以及长时依赖关系处理困难等问题。为了应对这些限制，我们引入了 MambaVL，这是一种利用最近在选择性状态空间模态融合方面取得的进展来高效捕捉长范围依赖关系，并学习视觉和语言数据联合表示的新模型。MambaVL 在两个模态之间共享一个状态转换矩阵，使得模型能够捕捉场景中多重视角的动作信息。此外，我们提出了一项问答任务，帮助模型导向相关线索。这些问题提供了关于动作、物体和环境上下文的关键信息，从而提高了表现。因此，MambaVL 在 Epic-Kitchens-100 数据集上的动作识别方面达到了最先进的性能，并且在动作预判方面也优于基线方法。

发布时间: 2/3/2025

查看原文

SOAP: 改进并稳定化 Shampoo 的 Adam 方法

作者: Nikhil Vyas, Depen Morwani, Rosie Zhao, Mujin Kwun, Itai Shapira, David Brandfonbrener, Lucas Janson, Sham Kakade

arXiv:2409.11321v2 宣告类型: replace-cross 摘要：文献中有越来越多的证据表明，在深度学习优化任务中，Shampoo，一种高阶预条件方法，比Adam更有效。然而，与仅仅更新一阶和二阶矩的运行平均值的Adam相比，Shampoo 的缺点在于其额外的超参数和计算开销。本文建立了Shampoo（实现时使用1/2次方）与Adafactor之间的正式联系——Adafactor是Adam的一个内存高效的近似方法，表明Shampoo等价于在Shampoo预条件器的特征基中运行Adafactor。这一洞见导致设计了一个更简单且计算效率更高的算法：ShampoO with Adam in the Preconditioner's eigenbasis（SOAP）。关于提高Shampoo的计算效率，最直接的方法似乎是更少地计算Shampoo的特征分解。不幸的是，如我们的实验证实所示，这会导致性能下降，并且这种下降随着计算频率的增加而恶化。SOAP通过持续更新二阶矩的运行平均值（就像Adam所做的那样），但由于是在当前（缓慢变化）的坐标基中进行的，从而减轻了这种下降。此外，由于SOAP等价于在旋转空间中运行Adam，它比Adam多引入了一个额外的超参数（预条件频率）。我们对360M和660M的规模的语言模型预训练进行了实证评估。在大批次处理的情况下，SOAP与AdamW相比，迭代次数减少了超过40%，墙钟时间减少了超过35%，且这两项指标均比Shampoo分别提高了约20%。SOAP的实现可以在这里找到：https://github.com/nikhilvyas/SOAP。

发布时间: 2/3/2025

查看原文

脑电图-语言建模在病理检测中的应用

作者: Sam Gijsen, Kerstin Ritter

arXiv:2409.07480v3 宣告类型: replace-cross 摘要：多模态语言模型已经在表示学习方面取得了突破，但在功能脑数据领域用于病理检测方面仍处于未探索状态。本文首次提出了基于临床报告和15000份脑电图（EEG）训练的语言-脑电图模型（ELM）。我们提出结合这一新颖领域中的多模态对齐，采用时间序列裁剪和文本分割，使基于多重实例学习的扩展能够缓解无关EEG或文本片段之间的对齐问题。与仅基于EEG的模型相比，我们的多模态模型在四项评估中显著提高了病理检测的性能，并首次实现了零样本分类以及神经信号和报告的检索。总之，这些结果突显了ELMs的潜力，标志着临床应用中的显著进展。

发布时间: 2/3/2025

查看原文

SAN：在可扩展模型的参数高效微调中假设长期突触发育和神经痕迹机制

作者: Gaole Dai, Chun-Kai Fan, Yiming Tang, Zhi Zhang, Yuan Zhang, Yulu Gan, Qizhe Zhang, Cheng-Ching Tseng, Shanghang Zhang, Tiejun Huang

arXiv:2409.06706v2 宣告类型: 替换-交叉摘要：参数高效微调（PEFT）的进步通过精细分析预训练参数空间，缩小了与全参数微调（FFT）的性能差距。从生物神经网络（BNNs）中的神经印迹（NE）中汲取灵感，我们将PEFT参数空间转移中观察到的低秩性质与神经生物学机制联系起来。这一观察促成了我们提出的Synapse and Neuron（SAN）方法，该方法将缩放成分从前端特征调整向量分解并传播到后端权重矩阵。我们的方法在长期强化/削弱（LTP/D）现象中受到了理论支持，这些现象通过神经传递素释放调控来管理突触的发展。大量的实验表明了其有效性：在VTAB、FGVC和GIC（25个数据集）中使用ViT、SwinT和ConvNeXt的视觉任务上，SAN优于FFT高达8.7%，并优于LoRA 3.2%；在使用LLaMA模型（所有生成）的常识推理任务（8个数据集）上，超出ChatGPT高达8.5%，并优于LoRA 4.7%；在使用LLaVA模型的混合视觉语言任务（7个数据集）上，它超过了FFT高达2.4%，并优于LoRA 1.9%。我们的代码和W&B日志将在https://github.com/daviddaiiiii/SAN-PEFT发布。

发布时间: 2/3/2025

查看原文

LUK：借助大型语言模型的专家知识增强日志理解

作者: Lipeng Ma, Weidong Yang, Sihang Jiang, Ben Fei, Mingjie Zhou, Shuhao Li, Mingyu Zhao, Bo Xu, Yanghua Xiao

arXiv:2409.01909v2 宣布类型: 替换-交叉摘要：日志在提供系统监控和故障排除所需的关键信息方面发挥着重要作用。最近，随着预训练语言模型（PLMs）和大规模语言模型（LLMs）在自然语言处理（NLP）领域的成功，即使是在资源有限的情况下，较小的PLMs（如BERT）和LLMs（如GPT-4）已成为当前主流的日志分析方法。尽管LLMs具备显著的能力，但它们的高昂成本和低效推理限制了充分发挥LLMs潜力进行日志分析。相比之下，即使在计算资源有限的情况下，较小的PLMs也可以通过微调适应特定任务，使其更具实用性。然而，较小的PLMs由于其有限的专家知识，在全面理解日志方面面临挑战。为了解决缺乏专家知识的问题并增强较小PLMs的日志理解能力，本文提出了一种新颖且实用的知识增强框架，称为LUK，该框架能够自动从LLMs中获取专家知识，然后利用这些专家知识增强较小PLMs以进行日志分析。LUK可以充分利用两种类型模型的优势。具体而言，我们基于具有不同角色的LLMs设计了一种多专家合作框架，以获取专家知识。此外，我们提出了两种新型预训练任务，以利用专家知识增强日志预训练。LUK在不同日志分析任务上取得了当前最佳结果，并且广泛的实验表明，可以从LLMs中更有效地利用专家知识来理解日志。我们的源代码和详细的实验数据可在 https://github.com/LeaperOvO/LUK获取。

发布时间: 2/3/2025

查看原文

使用低秩方言适配器预测游戏对话的目标词}")

作者: Dipankar Srirag, Aditya Joshi, Jacob Eisenstein

arXiv:2409.00358v2 公告类型: 替换-交叉摘要：针对某些社会方言/方言/国家变体（为了简洁起见称为“方言”）的NLU任务改进LLM性能的方言适配器已经在编码器模型中有所报道。在本文中，我们将方言适配器的想法扩展到了我们的架构LoRDD中的解码器模型。使用MD-3，这是一个公开的数据集，包含不同方言说话者之间的词汇游戏对话，我们的任务是从蒙特 Carlo 会话中预测目标词（TWP）。LoRDD结合了任务适配器和方言适配器，后者在MD-3的伪平行会话中使用对比学习。我们使用两种模型（Mistral 和 Gemma）对印度英语和尼日利亚英语对话的实验表明，LoRDD在TWP方面优于四个基线。此外，它显著缩小了与美国英语之间的性能差距，分别将词相似度和准确度之间的差距缩小到12%和5.8%，以及25%和4.5%。LoRDD 的主要贡献在于其使用TWP（一个常用下一个词预测任务的简化版本）实现解码器模型方言适应的潜力。

发布时间: 2/3/2025

查看原文

偏好一致性很重要：通过自动训练数据自我修正增强语言模型的偏好学习

作者: JoonHo Lee, JuYoun Son, Juree Seok, Wooseok Jang, Yeong-Dae Kwon

arXiv:2408.12799v2 宣告类型: replace-cross 摘要：训练数据集中的不一致注释，特别是在偏好学习数据集中，给高级语言模型的开发带来了挑战。这些不一致性通常是由于注释者之间的变化性和偏好本身的多维性质所致。为解决这些问题，我们提出了一种自我校准方法，通过利用直接在这些数据集上训练的代理模型进行预处理。该方法通过自动检测和选择一致的注释来增强偏好学习。我们通过广泛的指令遵循任务进行了验证，展示了各学习算法和代理能力在各种任务上的性能改进幅度高达33%。本工作提供了一种简单可靠的解决方案，以解决偏好不一致性问题，无需依赖启发式方法，为开发更先进的偏好学习方法奠定了初步基础。代码可在 https://github.com/Self-Curation/ 获取。

发布时间: 2/3/2025

查看原文

机器人网格网络中通信和计算高效的分布式子模优化

作者: Zirui Xu, Sandilya Sai Garimella, Vasileios Tzoumas

arXiv:2407.10382v2 通信类型: replace-cross 摘要: 我们提供了一种在机器人网格网络中进行分布式次模优化的通信和计算高效方法。次可加性是一种在主动信息收集中出现的属性，如制图、监控和目标跟踪中的递减回报。我们的方法，资源感知分布式贪婪优化（RAG），引入了一种新的分布式优化范例，使其能够实现可扩展且接近最优的动作协调。为此，RAG 要求每个机器人仅基于其邻居接收到的信息以及其邻居的信息来做决定。相比之下，当前的范例允许在整个网络中转发所有机器人的信息。因此，RAG 的决策时间随着网络规模线性增长，而最先进的接近最优次模优化算法的增长速度为三次方。我们还分析了所设计的网格网络拓扑如何影响 RAG 的近似性能。我们的分析表明，稀疏网络有利于可扩展性，而不需同比例牺牲近似性能：尽管 RAG 的决策时间随着网络规模线性增长，但近似性能的增长速度却低于线性。我们通过最多 45 台机器人的区域检测模拟场景展示了 RAG 的性能，模拟了实际的机器人到机器人（r2r）通信速度，例如 Digi XBee 3 Zigbee 3.0 的 0.25 Mbps 速度。在模拟中，RAG 使实时规划成为可能，比竞争的接近最优算法快三个数量级，同时还能实现更优的平均覆盖率性能。为了进行模拟，我们通过集成一个可扩展的协作自主管道，将高保真且照片级真实的模拟器 AirSim 扩展到几十台机器人，并模拟了 r2r 通信延迟。我们的代码可在 https://github.com/UM-iRaL/Resource-Aware-Coordination-AirSim 获取。

发布时间: 2/3/2025

查看原文