arXiv 论文列表

作者: Federico Errica, Henrik Christiansen, Viktor Zaverkin, Mathias Niepert, Francesco Alesiani

arXiv:2501.15889v3 宣告类型：替换交叉摘要：将近70年来，研究人员主要依赖超参数调整来选择神经网络层的宽度。本文通过介绍一种在训练过程中学习神经网络层的无界宽度的简便技术来挑战这一传统做法。该技术不依赖于交替优化或手工设计的梯度启发式；相反，它通过简单的反向传播同时优化每个层的宽度和参数。我们将该技术应用于广泛的数据库领域，如表格、图像、文本、序列和图，展示了宽度如何适应任务的难度。该方法通过一种软排序方式赋予神经元重要的优先级，从而可以在几乎不增加成本的情况下裁剪训练网络，实现性能和计算资源之间平滑的结构化权衡。或者，可以动态压缩网络而不降低性能。鉴于近期在大量数据集上训练的大型基础模型，据信需要数十亿个参数，且由于巨大的训练成本使超参数调整不再可行，我们的方法为宽度学习提供了一个可行的替代方案。

发布时间: 5/13/2025

查看原文

带有学习参数的马尔可夫过程的形式化验证

作者: Muhammad Maaz, Timothy C. Y. Chan

arXiv:2501.15767v2 宣告类型: replace-cross 摘要: 我们介绍了正式验证具有机器学习模型输出参数的马尔可夫过程性质的问题。对于包括线性模型、树基模型和神经网络在内的广泛类别的机器学习模型，验证马尔可夫链的性质，如可达性、击中时间和总奖励，可以被表述为双线性规划问题。我们开发了一种分解和界传播方案来求解双线性规划问题，并通过计算实验表明，我们的方法在求解问题到全局最优解方面比最先进的求解器快100倍以上。为了展示我们方法的实际用途，我们将其应用于一个实际的医疗健康案例研究。除了论文，我们还发布了 markovml，这是一个开源工具，用于构建马尔可夫过程、集成预训练的机器学习模型以及验证其性质，可在 https://github.com/mmaaz-git/markovml 获取。

发布时间: 5/13/2025

查看原文

软plus注意力与重加权增强在大规模语言模型中的长度外推性能

作者: Bo Gao, Michael W. Spratling

arXiv:2501.13428v3 公告类型: replace-cross 摘要: 大型语言模型在近年来取得了显著的成功，主要归功于自注意力机制的应用。然而，传统的Softmax注意力在推理令牌长度增加时会遭受数值不稳定性和性能下降的问题。本文通过将Softmax操作分解为非线性变换和$l_1$范数来解决这些问题，并确定后者对于保持模型性能至关重要。通过用Softplus激活函数替换非线性变换，并根据不变熵引入不同令牌长度的动态标度因子，我们创造了一种新型的注意力机制，在各种推理长度下其性能优于传统的Softmax注意力。为了进一步提高所提出的注意力机制在长度外推上的能力，我们引入了一种新的权重重新加权机制，它可以放大重要的注意力权重同时减弱较弱的权重，从而使模型能够更有效地集中关注相关令牌。当与我们提出的注意力机制结合使用时，该方法可以在16倍于训练令牌长度的情况下几乎保持验证损失的恒定，确保数值稳定性，并在下游基准测试上取得优异的结果。

发布时间: 5/13/2025

查看原文

多模态人工智能系统在多主题物理概念 Inventory 上的多语言表现

作者: Gerd Kortemeyer, Marina Babayeva, Giulia Polverini, Ralf Widenhorn, Bor Gregorcic

arXiv:2501.06143v3 Announce Type: replace-cross 摘要：我们使用来自多个语言和科目类别的多样化的物理概念量表，考察了基于大型语言模型的人工智能系统GPT-4o的多语言和多模态性能。这些量表来源于PhysPort网站，涵盖了经典物理学主题，如力学、电磁学、光学和热力学，以及相对论、量子力学、天文学、数学和实验技能。与之前的仅基于文本的研究不同，我们上传了这些量表作为图像，以反映学生在纸上所见的内容，从而评估系统的多模态功能。我们的结果显示，不同科目之间的表现存在差异，而实验技能表现最弱。我们还观察到不同语言之间的差异，英语和欧洲语言显示出最强的表现。值得注意的是，量表项目的相对难度在很大程度上与调查语言无关。当我们比较人工智能系统的成果与现有文献中学生的表现时，我们发现除了实验技能之外，该人工智能系统比平均接受过指导的本科生在所有科目类别中表现更好。此外，人工智能在需要视觉解释图像的项目上表现较差，而在纯文本基础上的项目上表现更好。我们的初步发现表明GPT-4o在物理教育中具有潜在的应用价值，但也凸显了教师培养学生的批判性评价人工智能输出的能力、在人工智能技术进步时谨慎调整教学计划以及解决人工智能整合带来的公平性问题的重要性。

发布时间: 5/13/2025

查看原文

超越党派倾向：大规模语言模型中政治偏见的比较分析

作者: Tai-Quan Peng, Kaiqi Yang, Sanguk Lee, Hang Li, Yucheng Chu, Yuping Lin, Hui Liu

arXiv:2412.16746v4 公告类型: replace-cross 摘要：随着大型语言模型（LLMs）越来越多地嵌入到公民、教育和政治信息环境中，对其潜在政治偏见的担忧也在增加。以往的研究常常通过模拟人格或预设意识形态类型来评估这种偏见，这可能会引入人为的框架效应或忽略模型在通用使用场景中的表现。本研究采用一种无角色设定、主题特定的方法来评估LLMs的政治行为，反映用户通常如何与这些系统交互——无需意识形态角色扮演或条件设置。我们引入了一个二维框架：一个轴捕捉在高度极化的话题（如堕胎、移民）上的政党倾向，另一个轴评估在相对不那么极化的问题（如气候变化、外交政策）上的社会政治参与。我们使用来自ANES和皮尤研究中心的调查式提示，分析了来自美国、欧洲、中国和中东地区43个LLM的响应。我们提出了一个基于熵的偏见评分，以量化政党倾向的方向和一致性，并通过参与模式识别出四个行为集群。研究发现，大多数模型在意识形态上偏向中左或左，并且在非党派参与模式上有差异。模型规模和开放性不是行为的强预测因子，表明对齐策略和制度背景在塑造政治表达方面起着更重要的作用。

发布时间: 5/13/2025

查看原文

基于Mamba和Transformer的动态图嵌入方法比较研究

作者: Ashish Parmanand Pandey, Alan John Varghese, Sarang Patil, Mengjia Xu

arXiv:2412.11293v2 动态图嵌入类型：替换跨学科摘要：动态图嵌入作为一种重要技术，已被广泛应用于不同领域的复杂时变网络建模。虽然基于变换器的模型在捕捉时间图数据中的远距离依赖方面显示出潜力，但由于计算复杂度为二次，它们面临可扩展性挑战。这项研究提出了使用变换器和最近提出的Mamba架构（一种具有线性复杂度的状态空间模型）进行动态图嵌入方法的比较分析。我们引入了三个新的模型：TransformerG2G增强的图卷积网络、$\mathcal{DG}$-Mamba和结合图同构网络边缘卷积的$\mathcal{GDG}$-Mamba。在多个基准数据集上的实验表明，Mamba基模型在链接预测任务中达到了与基于变换器的方法相当或更好的性能，同时在较长序列上提供了显著的计算效率提升。值得注意的是，在具有高时间变异性数据集（如UCI、比特币和真实世界挖掘）上，$\mathcal{DG}$-Mamba变体始终优于基于变换器的模型，同时在更稳定的图形（如SBM）上保持竞争力。我们通过分析注意力权重和状态矩阵，提供了对学习到的时间依赖性的见解，揭示了模型捕捉复杂时间模式的能力。通过有效地将状态空间模型与图神经网络相结合，我们的研究解决了之前方法的关键限制，并为高效的时变图表示学习研究做出了贡献。这些发现为动态图嵌入的扩展到更大、更复杂的实际网络提供了有希望的方向，可能在社会网络分析、金融建模和生物系统动力学等领域开辟新的应用。

发布时间: 5/13/2025

查看原文

在临床病理分析中高效且全面的特征提取在大型视觉-语言模型中的应用

作者: Shengxuming Zhang, Weihan Li, Tianhong Gao, Jiacong Hu, Haoming Luo, Xiuming Zhang, Jing Zhang, Mingli Song, Zunlei Feng

arXiv:2412.09521v2 通知类型: 替换交叉摘要：病理诊断对于确定疾病特征、指导治疗和评估预后至关重要，依赖于对高分辨率全玻片图像（WSI）进行详细、多尺度的分析。然而，传统的纯视觉模型面临着冗余特征提取的挑战，而现有的大规模视觉-语言模型（LVLMs）则受限于输入分辨率的限制，影响了它们的效率和准确性。为了克服这些问题，我们提出两项创新策略：混合任务引导的特征增强，它将特征提取引导至不同尺度下与病变相关的细节，并且通过特定提示引导的细节特征完成策略，它基于特定提示将WSI的粗略和精细特征集成起来，而不会牺牲推理速度。利用包含490,000个样本的综合数据集，其中包括癌症检测、分级、血管和神经入侵识别等各种病理任务，我们训练了专门用于病理的LVLM，OmniPath。广泛的实验表明，该模型在诊断准确性和效率方面显著优于现有方法，提供了一种与临床一致、交互式的辅助诊断方法，适用于各种病理应用中。

发布时间: 5/13/2025

查看原文

通过大型语言模型微调推动单任务和多任务文本分类的发展

作者: Hang Zhao, Qile P. Chen, Yijing Barry Zhang, Gang Yang

arXiv:2412.08587v2 文本分类类型: 替换交叉摘要：编码器-only模型（如BERT、RoBERTa）和大型语言模型（LLMs，如Llama3）在文本分类任务中得到了广泛的应用。然而，在文本分类任务中，特别是在微调涉及的情况下，对基于编码器的模型和LLMs的性能进行系统比较的研究仍然不足。本研究采用了多种不同规模和架构的模型和方法，包括微调和预训练方法。我们首先在20 Newsgroups（20NG）和MASSIVE数据集上评估了这些LLMs的性能，将它们与仅编码器的RoBERTa模型进行了比较。此外，我们通过将多个分类任务（包括意图检测和槽填充任务）同时纳入一个模型中，探索了这两种模型类型的多任务能力，利用了两个数据集的数据。结果显示，全微调的Llama3-70B模型在各种分类任务和数据集上的性能都优于RoBERTa-large和其他解码器LLMs。此外，合并的多任务全微调LLMs在两个数据集的两个任务上的性能与双模型设置相当。总体而言，我们的研究为仅编码器和LLM模型提供了全面的文本分类基准，并展示了如何结合两个或更多全微调的解码器LLMs以减少延迟并保持相同的性能。

发布时间: 5/13/2025

查看原文

多轮参与监督微调语言模型以生成多轮对话

作者: Xiaoyu Wang, Ningyuan Xi, Teng Chen, Qingqing Gu, Yue Zhao, Xiaokai Chen, Zhonglin Jiang, Yong Chen, Luo Ji

arXiv:2412.05342v3 公告类型: 替换交叉摘要：大规模语言模型（LLM）通常被微调以参与二元或两方对话，这使其难以适应多方对话（MPD），从而阻碍了它们在多人会议、讨论和日常交流等场景中的应用。之前的基于LLM的研究主要集中在多智能体框架上，而它们的基本LLM仍然是一对一微调的。在这项工作中，我们设计了一个针对多方对话数据集的大规模语言模型（LLM）多方微调框架（MuPaS），并证明这种简单的框架能够有效地使LLM与多方对话方式对齐。我们还设计了两种训练策略，可以将MuPaS转换为MPD模拟器。大量实验表明，MuPaS可以实现最先进的多方响应，更高的人和自动评估的话语质量，甚至在不常见的场景、话题和角色描述下也能生成合理的话语。MuPaS框架将LLM的训练与更复杂的多方应用场景，如对话生成、虚拟排练或元宇宙连接起来。

发布时间: 5/13/2025

查看原文

超越文本-视觉注意力：利用视觉线索在多模态模型中进行有效令牌剪枝

作者: Qizhe Zhang, Aosong Cheng, Ming Lu, Renrui Zhang, Zhiyong Zhuo, Jiajun Cao, Shaobo Guo, Qi She, Shanghang Zhang

arXiv:2412.01818v2 宣告类型: replace-cross 摘要: 大型视觉-语言模型（LVLMs）通常包含比其文本对应物更多的视觉标记，从而导致了相当大的计算负担。最近的研究工作通过在语言模型早期修剪视觉标记来应对这一问题。大多数现有工作使用文本和视觉标记之间的注意力分数来评估视觉标记的重要性。然而，在这项研究中，我们首先分析了语言模型中的文本-视觉注意力，并发现这种分数并不是标记修剪的理想指标。基于这一分析，我们提出了 VisPruner，这是一种插件式方法，利用视觉线索在 LVLMs 中更有效地进行标记修剪。具体来说，我们首先使用视觉注意力来选择一些重要的标记。然后，基于它们的相似性，我们从剩余标记中移除重复标记。通过保留与最初选择的重要标记一起的多样化标记，我们最大限度地保留了输入图像的视觉信息。实验结果表明，我们的 VisPruner 在各种 VLM 架构和减少比中都保持了强劲的性能，显著优于现有的基于文本-视觉注意力的方法。值得注意的是，在没有任何训练的情况下，VisPruner 可以将 LLaVA-1.5-7B 的 FLOPs 降低 91%，推理延迟降低 75%，同时保持相似的性能。我们的代码可在 https://github.com/Theia-4869/VisPruner 获取。

发布时间: 5/13/2025

查看原文