arXiv 论文列表

作者: Vincent Gbouna Zakka, Luis J. Manso, Zhuangzhuang Dai

arXiv:2504.02778v1 交叉公告类型：cross 摘要：人类活动识别对于支持独立生活越来越重要，特别是在老年人和需要帮助的人群中。具有监控能力的家庭服务机器人可以提高安全性和提供必要的支持。尽管在过去十年中基于图像的方法有了显著的进步，但它们的采用仍受到隐私担忧和对低光或黑暗条件下敏感性的限制。作为替代方案，毫米波（mmWave）雷达可以生成隐私保护的点云数据。然而，处理稀疏且噪声的点云仍然是一个长期挑战。虽然图方法和注意力机制显示出潜力，但它们主要依赖于“固定”的核；这些核在所有邻域中均匀应用，突显了需要适应性方法的需求，这些方法可以根据点云数据中每个局部邻域的特定几何形状动态调整其核。为了克服这一限制，我们引入了一种在图卷积框架内的适应性方法。我们的Multi-Head Adaptive Kernel (MAK) 模块不像单一共享的权重函数那样工作，而是生成多个动态核，每个核捕捉局部特征空间的不同方面。通过渐进地细化局部特征同时保持全局空间上下文，我们的方法使卷积核能够适应不同的局部特征。基准数据集上的实验结果证实了我们方法的有效性，实现了在人类活动识别中的最新性能。我们的源代码可在以下地址公开获得：https://github.com/Gbouna/MAK-GCN

发布时间: 4/4/2025

查看原文

大型语言模型在多大程度上内化了科学文献和引用实践？

作者: Andres Algaba, Vincent Holst, Floriano Tori, Melika Mobini, Brecht Verbeken, Sylvia Wenmackers, Vincent Ginis

arXiv:2504.02767v1 宣告类型: cross 摘要：科学知识的传播取决于研究人员如何发现和引用先前的工作。大型语言模型（LLMs）在科学研究过程中的采用为这些引用惯例引入了一层新的元素。然而，仍然不清楚LLMs在多大程度上与人类的引用惯例一致，在不同领域中表现如何，以及它们如何影响引用动态。在这里，我们展示了LLMs系统地强化了引文过程中的马太效应，即在生成参考文献时始终倾向于引用高引用次数的文章。这一模式在各个科学领域中保持一致，尽管各个领域在存在率上存在显著差异，而存在率是指生成的参考文献中与外部引文计量数据库中现有记录匹配的比例。分析GPT-4o为10,000篇论文生成的274,951个参考文献，我们发现LLM的推荐与传统的引用模式有所不同，更偏好较新的标题较短和作者较少的参考文献。通过强调内容相关的程度，生成的参考文献在语义上与每篇论文的内容相似，显示相似的网络效应，同时减少了作者自我引用。这些发现说明了LLMs如何可能重新塑造引用惯例，通过反映和放大现有的趋势来影响科学发现的轨迹。随着LLMs在科学研究过程中更加集成，理解它们在塑造科学社区发现和利用先前工作方面的作用变得尤为重要。

发布时间: 4/4/2025

查看原文

场景泼溅：基于视频扩散模型的单张图像三维场景生成

作者: Shengjun Zhang, Jinzhao Li, Xin Fei, Hao Liu, Yueqi Duan

arXiv:2504.02764v1 类型:交叉摘要: 在本文中，我们提出了场景溅射( Scene Splatter)，这是一种基于动量的视频扩散范式，用于从单张图像生成通用场景。现有方法采用视频生成模型来合成新颖视图，但受限于视频长度有限和场景不一致性，导致在进一步重构过程中出现伪影和失真。为了解决这一问题，我们从原始特征中构建了噪声样本作为动量，以增强视频细节并保持场景一致性。然而，对于感知域覆盖已知和未知区域的潜在特征，这种潜在级别的动量限制了视频扩散模型在未知区域的生成能力。因此，我们进一步引入上述一致性的视频作为像素级别的动量，应用于直接生成的视频中，以更好地恢复未见过的区域。我们级联的动量使视频扩散模型能够生成高保真度和一致的新视图。我们进一步通过增强帧来微调全局高斯表示，并在下一步渲染新帧用于动量更新。这样一来，我们可以通过迭代恢复3D场景，避免了视频长度的限制。大量实验表明，我们的方法在高保真度和一致的场景生成方面具有泛化能力和优越性能。

发布时间: 4/4/2025

查看原文

基于需求的神经网络测试

作者: Nusrat Jahan Mozumder, Felipe Toledo, Swaroopa Dola, Matthew B. Dwyer

arXiv:2504.02737v1 类型: cross 摘要：深度神经网络（DNN）测试对于关键系统的可靠性和安全性至关重要，系统故障可能导致严重后果。尽管已经开发了各种技术来创建稳健的测试套件，但对于DNN的要求驱动测试仍然 largely 未被探索——尽管如此，这些测试已被认为是关键系统软件验证的必不可少的组成部分。在本研究中，我们提出了一种基于要求的测试套件生成方法，该方法使用结构化的自然语言要求在语义特征空间中提出，并通过要求前提条件提示文本条件潜扩散模型，然后使用相关的后置条件定义一个测试预言来判断测试中的DNN输出。我们使用预训练生成模型的微调版本来研究这种方法。我们在MNIST、CelebA-HQ、ImageNet和自动驾驶汽车驾驶数据集上的实验表明，生成的测试套件是现实的、多样的、符合前提条件的，并且能够揭示故障。

发布时间: 4/4/2025

查看原文

基于操作员模仿的自主人机交互

作者: Sammy Christen, David M\"uller, Agon Serifi, Ruben Grandia, Georg Wiedebach, Michael A. Hopkins, Espen Knoop, Moritz B\"acher

arXiv:2504.02724v1 交叉公告类型: cross 摘要：由操作员的经验和社会直觉驱动的遥控机器人可以与人类进行表达性互动。在这项工作中，我们提出通过训练模型来模仿操作员数据，创建自主互动机器人。我们的模型在一组人类-机器人互动的数据集上进行训练，其中专家操作员被要求改变机器人的互动和情绪，同时记录操作员的指令以及人类和机器人的姿态。我们的方法通过扩散过程学习预测连续的操作指令，并通过分类器学习预测离散的操作指令，所有这些都在一个单一的转换器架构中统一。我们在模拟环境中评估了生成的模型，并在实际系统中进行了用户研究。我们展示了我们的方法可以使简单的自主人类-机器人互动与专家操作员基准相当，且用户能够识别由我们的模型生成的不同机器人情绪。最后，我们展示了将我们的模型无需特定训练即可转移到相同操作界面的另一款机器人平台。

发布时间: 4/4/2025

查看原文

SCMPPI：监督对比多模态框架用于预测蛋白质-蛋白质相互作用

作者: Shengrui XU, Tianchi Lu, Zikun Wang, Jixiu Zhai, Jingwan Wang

arXiv:2504.02698v1 Announce Type: cross 摘要：蛋白质-蛋白质相互作用（PPI）预测是揭示细胞功能网络和疾病机制的关键任务。然而，传统的实验方法耗时且成本高，现有的计算模型在跨模态特征融合、鲁棒性和抑制假阴性方面也面临挑战。本文中，我们提出了一种新颖的监督对比多模态框架SCMPPI，用于PPI预测。通过将蛋白质序列特征（AAC，DPC，CKSAAP-ESMC）与PPI网络拓扑信息（Node2Vec图嵌入）相结合，并结合改进的监督对比学习策略，SCMPPI显著增强了PPI预测性能。对于PPI任务，SCMPPI引入了一种负样本过滤机制并修改了对比损失函数，有效优化了多模态特征。在包括酵母、人类和H. pylori在内的八个基准数据集上进行的实验表明，SCMPPI在准确率（98.01%）和AUC（99.62%）等关键指标上优于现有最先进的方法（如DF-PPI和TAGPPI），并且在跨物种预测中展现出强大的泛化能力（多物种数据集上的AUC > 99%）。此外，SCMPPI已成功应用于CD9网络、Wnt信号通路以及癌症特异性网络，提供了一种可靠的疾病靶点发现工具。该框架还为在多种联合预测中进行协作优化时的多模态生物信息融合和对比学习提供了新的范式。

发布时间: 4/4/2025

查看原文

STOOD-X 方法论：使用统计非参数测试进行 OOD 检测，大规模数据集增强以提高可解释性

作者: Iv\'an Sevillano-Garc\'ia, Juli\'an Luengo, Francisco Herrera

arXiv:2504.02685v1 Announce Type: cross 摘要：分布外（OOD）检测是机器学习中的一个关键任务，特别是在模型失败可能导致严重后果的安全敏感应用中。然而，现有的OOD检测方法常常受制于严格的分布假设、有限的可扩展性和缺乏可解释性。为了解决这些挑战，我们提出了一种STOOD-X两阶段方法，该方法结合了统计非参数测试进行OOD检测，并增强了可解释性。在第一阶段，STOOD-X使用特征空间距离和威尔科克森-曼—惠特尼检验来识别OOD样本，而无需假设特定的特征分布。在第二阶段，它生成用户友好的概念基础视觉解释，揭示了每个决策所依赖的特征，并与BLUE XAI范式保持一致。通过在基准数据集和多种架构上的广泛实验，STOOD-X在与最先进的事后OOD检测器相比时，在高维和复杂设置中实现了竞争性的性能。此外，其可解释性框架使人类监督、偏差检测和模型调试成为可能，促进了人类与AI系统的信任和协作。因此，STOOD-X方法为现实世界的OOD检测任务提供了一个稳健、可解释且可扩展的解决方案。

发布时间: 4/4/2025

查看原文

基于日志多臂 bandit 数据的提示优化

作者: Haruka Kiyohara, Daniel Yiming Cao, Yuta Saito, Thorsten Joachims

arXiv:2504.02646v1 类型: cross 摘要: 我们研究如何利用自然可用的用户反馈，如点击，来优化大型语言模型（LLM）管道，以使用提示生成个性化句子。基于提示空间的大动作空间估计策略梯度的方法要么受到由此产生的高方差的影响，要么受到不准确奖励预测带来的偏差影响。为了克服这些挑战，我们提出了一种新颖的核基离策略梯度方法，通过利用生成句子之间的相似性来估计策略梯度，从而显著降低方差并抑制偏差。我们新建立的一系列基准上的实证结果表明，在候选提示数量较大的情况下，所提出的方法在为电影推荐生成个性化描述方面特别有效。

发布时间: 4/4/2025

查看原文

带有任务局部稀疏微调的高效模型编辑

作者: Leonardo Iurada, Marco Ciccone, Tatiana Tommasi

arXiv:2504.02620v1 宣告类型: cross 摘要：任务算术已成为通过将任务特定知识表示为可组合的任务向量来编辑模型的一种有前途的方法。然而，现有的方法依赖于网络线性化来推导任务向量，这在训练和推理过程中导致了计算瓶颈。此外，仅线性化并不能保证权重的分离，这是使任务向量冲突自由组合的关键性质。为了解决这一问题，我们提出了一种TaLoS方法，该方法可以在无需显式线性化且不频繁跨任务共享信息的情况下构建稀疏任务向量，从而实现最小干扰。我们发现预训练模型中包含了一组在所有任务中梯度敏感性始终较低的参数，并且仅更新这些参数可以促进在微调过程中权重的分离。我们的实验表明，TaLoS在提高训练和推理效率的同时，在任务添加和否定方面优于现有方法。通过允许模块化参数编辑，我们的方法促进了可适应基础模型在实际应用中的实际部署。

发布时间: 4/4/2025

查看原文

学习基于几何的Lyapunov函数——使用深度同胚RBF网络

作者: Samuel Tesfazgi, Leonhard Sprandl, Sandra Hirche

arXiv:2504.02607v1 安全保证类型：交叉摘要：基于学习的自主系统实用部署将极大地受益于可以从数据中灵活获取安全保证（以证书函数的形式）的工具。虽然这类证书函数的几何性质已被很好地理解，但使用机器学习技术合成它们仍然是一项挑战。为解决这一问题，我们提出了一种差分同胚函数学习框架，在其中将所需输出的先验结构知识编码在简单代理函数的几何结构中，并随后通过保留拓扑结构的状态空间变换进行增强。从而，我们实现了一个间接函数近似框架，可以保证保留在目标假设空间内。为此，我们介绍了一种基于RBF网络构建差分同胚映射的新方法，这种方法便于对数据进行精确的局部变换。最后，我们通过从实际数据中学习差分同胚李雅普诺夫函数来展示我们的方法，并将我们的方法应用于不同的吸引子系统。

发布时间: 4/4/2025

查看原文