arXiv 论文列表

作者: Dimitrios Stamatios Bouras, Yihan Dai, Tairan Wang, Yingfei Xiong, Sergey Mechtaev

arXiv:2503.19599v1 宣传类型：交叉摘要：虽然软件需求通常用自然语言表达，但验证程序是否符合自然语言需求是一个困难且尚未充分探索的问题。大型语言模型（LLMs）是解决这一挑战的有前景的方法，然而我们的经验表明，它们在这个任务中效果不佳，经常无法检测到甚至简单的错误。为了解决这一问题，我们引入了HoarePrompt，这是一种新颖的方法，将程序分析和验证的基本思想应用到自然语言的工件中。受到后件最强计算的启发，HoarePrompt采用了一种系统且逐步的过程，在此过程中，LLM生成代码各部分可达程序状态的自然语言描述。为了处理循环，我们提出了基于少样本学习的k-归纳法，这是广泛用于模型校验的k-归纳法的一种适应。一旦程序状态被描述，HoarePrompt利用LLM评估标注有这些状态描述的程序是否符合自然语言需求。为了评估对自然语言需求的程序正确性分类器的质量，我们构建了CoCoClaNeL，这是一个具有挑战性的数据集，包含编程比赛问题的解决方案。我们的实验表明，与直接使用零样本-CoT提示进行正确性分类相比，HoarePrompt将MCC提高了62%。此外，HoarePrompt通过将MCC提高93%，优于使用LLM基于测试生成进行正确性评估的分类器。归纳推理机制使得MCC提高了28%，突显了其在处理循环方面的有效性。

发布时间: 3/26/2025

查看原文

基于矛盾的模型：群体智能的涌现

作者: Wenpin Jiao

arXiv:2503.19585v1 声称类型: cross 摘要：群智能涌现现象在自然和社会中普遍存在。人们一直在探索群智能涌现的根本原因，并试图建立通用的理论和模型来解释群智能的涌现。然而，现有的理论或模型并未抓住群智能的本质，因此缺乏普适性，难以解释各种群智能涌现的现象。在本文中，我们提出了一个以矛盾为中心的群智能涌现模型，其中个体的内部矛盾决定了其行为和属性，因竞争和占据环境资源而使个体在群中相互关联和互动，交互和群的潜力影响个体的内部矛盾及其在群中的分布，群智能表现为个体矛盾的特定分布。该模型完全解释了群智能涌现的条件、动力学、路径、形成和过程。为了验证该模型的有效性，本文在多个群智能系统中实现了并分析了该模型。实验结果表明，该模型具有良好的普适性，可以用来描述各种群智能的涌现。

发布时间: 3/26/2025

查看原文

FedMM-X：面向动态环境的联邦多模态学习可信且可解释的框架

作者: Sree Bhargavi Balija

arXiv:2503.19564v1 通告类型: cross 摘要: 随着人工智能系统越来越多地在现实环境中运行，视觉、语言和音频等多种模态数据源的整合为实现可信智能提供了前所未有的机遇，同时也带来了关键挑战。在本文中，我们提出了一种新的框架，将联邦学习与可解释的多模态推理相结合，以确保在分散和动态设置中的可信性。我们的方法称为FedMM-X（联邦多模态解释性智能），利用跨模态一致性检查、客户端级解释性机制和动态信任校准，以应对数据异质性、模态失衡和分布外泛化的挑战。通过对涉及视觉语言任务的联邦多模态基准进行严格的评估，我们展示了在准确性和解释性方面的改进性能，同时减少了对抗性扰动和虚假相关性带来的脆弱性。此外，我们引入了一种新的信任分聚合方法，以量化动态客户端参与下的全局模型可靠性。我们的研究结果为在现实环境中开发稳健、可解释且社会负责的人工智能系统铺平了道路。

发布时间: 3/26/2025

查看原文

合成数据规模的语言模型缩放律

作者: Zeyu Qin, Qingxiu Dong, Xingxing Zhang, Li Dong, Xiaolong Huang, Ziyi Yang, Mahmoud Khademi, Dongdong Zhang, Hany Hassan Awadalla, Yi R. Fung, Weizhu Chen, Minhao Cheng, Furu Wei

arXiv:2503.19551v1 跨域公告类型：交叉摘要：大规模语言模型（LLMs）在多样化的任务中取得了出色的性能，这主要归因于预训练过程中使用的高质量网络数据。然而，近期的研究表明，这种数据源正在迅速枯竭。合成数据作为一种有前景的替代方案浮现出来，但目前尚不清楚合成数据集是否能展现出与原始预训练数据相当的可预测的扩展性。在本文中，我们通过引入SynthLLM，一种可扩展的框架来系统地研究合成数据的扩展性规律，该框架将预训练语料库转换为多样且高质量的合成数据集。我们的方法通过使用图算法自动提取和重组多个文档中的高层概念来实现这一点。对SynthLLM进行广泛数学实验的关键发现包括：（1）SynthLLM生成的合成数据在各种模型尺寸下可靠地遵循修正的扩展定律；（2）性能改进在300B词令牌处接近平台期；（3）更大的模型在更少的训练词令牌下接近最佳性能。例如，一个8B模型在1T词令牌时达到峰值，而一个3B模型则需要4T词令牌。此外，与现有的合成数据生成和增强方法的比较表明，SynthLLM在性能和扩展性上表现出色。我们的研究结果强调，合成数据作为一种可扩展且可靠的替代方案，为有机预训练语料库提供了继续提高模型性能的可行性路径。

发布时间: 3/26/2025

查看原文

FLEX：评估大型语言模型公平性鲁棒性的基准

作者: Dahyun Jung, Seungyoon Lee, Hyeonseok Moon, Chanjun Park, Heuiseok Lim

arXiv:2503.19540v1 安全评估类型: 横向摘要: 近期大型语言模型（LLMs）的进步显著增强了用户与模型之间的交互。这些进步同时强调了需要进行严格的安全评估，因为社会偏见的出现可能导致负面影响。尽管存在这些担忧，现有的基准测试可能忽视了LLMs的核心弱点，即即使是面对简单的对抗性指令，它们也可能生成偏见性回应。为了弥补这一关键缺口，我们引入了一个新的基准测试——极限场景下的LLM公平性基准（FLEX），旨在测试LLMs在面临设计用于诱导偏见的提示时是否能够保持公平性。为了全面评估LLMs的鲁棒性，我们在公平性评估中整合了放大潜在偏见的提示。FLEX与其他现有基准测试的对比实验表明，传统的评估可能低估了模型中的固有风险。这突显了需要更严格的LLM评估基准来确保安全和公平性的必要性。

发布时间: 3/26/2025

查看原文

VectorFit：自适应奇异向量与偏差向量微调预训练基础模型

作者: Suhas G Hegde, Shilpy Kaur, Aruna Tiwari

arXiv:2503.19530v1 类型: cross 摘要: 普通的PEFT方法通过假设增量权重更新本质上是低秩的，从而实现了参数效率，但这往往导致与全面微调相比性能差距。尽管最近的方法试图解决这一局限性，但它们通常缺乏足够的参数和内存效率。我们提出了VectorFit，这是一种有效且易于部署的方法，能够自适应地训练预训练权重矩阵的奇异向量和偏置。我们展示了利用预训练权重的结构和转换特性可以实现与全面微调相当的高秩更新。作为结果，VectorFit在与最新PEFT方法相比的训练参数数量减少了9倍的情况下，实现了更优的性能。通过在自然语言理解和生成、问答、图像分类和图像生成等多种领域的17个数据集上进行广泛的实验，我们展示了VectorFit即使在预算极低的场景中也能超越基线方法。

发布时间: 3/26/2025

查看原文

RoboFlamingo-Plus：融合深度和RGB感知的视觉语言模型在增强机器人 manipulation 中的应用

作者: Sheng Wang

arXiv:2503.19510v1 宣布类型: cross 摘要: 随着机器人技术向更复杂的多模态交互和操作任务迈进，先进的视觉-语言模型（VLMs）的集成已成为该领域的关键驱动力。尽管现有方法取得了进展，但在3D环境中融合深度和RGB信息以及执行由语言指令引导的任务方面仍存在挑战。为应对这些挑战，我们增强了现有的RoboFlamingo框架，引入了RoboFlamingo-Plus，该框架将深度数据整合到VLMs中，显著提高了机器人的操作性能。我们的研究通过将预训练的视觉变换器（ViT）与采样技术结合起来，实现了一种细致的RGB和深度信息融合，使综合数据与语言提示紧密契合，从而提高了多模态理解的水平。RoboFlamingo-Plus的创新之处在于其适应深度数据处理的输入调整，利用预训练采样器进行深度特征提取，并采用交叉注意力机制进行最佳特征整合。这些改进使RoboFlamingo-Plus不仅能够深入理解3D环境，还能够在具有挑战性的环境中轻松执行复杂的语言引导任务。实验结果显示，RoboFlamingo-Plus在现有方法的基础上将机器人操作性能提高了10-20%，标志着一个显著的进步。RoboFlamingo-Plus的代码和模型权重已公开。

发布时间: 3/26/2025

查看原文

面向可解释深度学习模型的长期厄尔尼诺-南方涛动预测

作者: Qi Chen, Yinghao Cui, Guobin Hong, Karumuri Ashok, Yuchun Pu, Xiaogu Zheng, Xuanze Zhang, Wei Zhong, Peng Zhan, Zhonglei Wang

arXiv:2503.19502v1 Announce Type: cross 摘要：厄尔尼诺-南方涛动（ENSO）是影响深远的年度间气候变化模式，其演变受到复杂的海洋-大气相互作用的调控，给长期预测带来了巨大挑战。在这项研究中，我们引入了CTEFNet，这是一种多变量深度学习模型，结合了卷积神经网络和变压器以增强ENSO预测。通过整合多种海洋和大气预测因子，CTEFNet将有效的预测提前期延长至20个月，同时减轻了春季预测障碍的影响，比动力模型和最先进的深度学习方法表现更佳。此外，CTEFNet通过基于梯度的敏感性分析提供了物理上意义明确且统计学上显著的见解，揭示了调控ENSO动力学的关键前期信号，这些信号与已建立的理论一致，并揭示了太平洋、大西洋和印度洋之间的盆地间相互作用的新型见解。CTEFNet的优越预测能力和可解释的敏感性评估突显了其在推进气候预测方面的潜力。我们的研究结果强调了ENSO演变中多变量耦合的重要性，并展示了深度学习在捕捉复杂气候动力学方面的前景，同时提高了可解释性。

发布时间: 3/26/2025

查看原文

基于姿态的跌倒检测系统：高效的标准CPU监测

作者: Vinayak Mali, Saurabh Jaiswal

arXiv:2503.19501v1 交叉公告类型: cross 摘要：居住在辅助生活设施中的老年人跌倒存在重大的健康风险，通常会导致受伤并降低生活质量。当前的跌倒检测解决方案通常依赖于需要专用硬件的传感器系统，或者依赖于基于视频的模型，这些模型需要高性能的计算资源和GPU来进行实时处理。相比之下，本文提出了一种无需任何额外传感器或高性能硬件的稳健跌倒检测系统。该系统结合使用姿态估计技术、阈值分析和投票机制，有效地区分跌倒和非跌倒活动。在姿态检测方面，我们利用MediaPipe这一轻量级且高效的框架，使其能够在标准CPU上实现最小的计算开销和实时处理。通过分析运动、身体姿势和关键姿态点，系统使用20帧缓冲区处理姿态特征，从而在减少假阳性的同时，即使在实际场景中也能保持高精度。这种不显眼且资源高效的方案为提高养老设施中居民的安全性提供了实际解决方案，无需昂贵的传感器或高级计算资源。

发布时间: 3/26/2025

查看原文

SMT-EX：一个用于混合变量设计探索的可解释代理建模工具箱

作者: Mohammad Daffa Robani, Paul Saves, Pramudita Satria Palar, Lavi Rizki Zuhal, oseph Morlier

arXiv:2503.19496v1 交叉类型：公告摘要：代理模型在许多工程应用中备受关注，作为评估黑盒函数的廉价且快速的近似模型，帮助工程师和实践者做出决策并理解复杂系统。因此，需要解释性方法的需求不断提高，并进行了许多研究以促进从代理模型中发现知识。为应对这些需求，本文介绍了SMT-EX，这是开源Python代理建模工具箱(SMT)的一个增强版，将解释性技术整合到了最先进的代理建模框架中。具体而言，SMT-EX 包括三种关键的解释性方法：Shapley增益解释、部分依赖图和个体条件期望。特别为此目的开发了一个独特的解释性依赖项，可以在构建代理模型后轻松激活，提供了一个用户友好且高效的工具，可以快速提取洞察。通过两个测试案例展示了SMT-EX的有效性。第一个案例是具有纯连续变量的10变量机翼重量问题，第二个案例是具有混合分类变量的3变量悬臂梁弯曲问题。依靠SMT-EX 对这些问题的分析，我们展示了它在解决各种问题特征方面的灵活性。SMT-Explainability 在 Github 上免费提供：https://github.com/SMTorg/smt-explainability 。

发布时间: 3/26/2025

查看原文