arXiv 论文列表

作者: Yatai Ji, Zhengqiu Zhu, Yong Zhao, Beidan Liu, Chen Gao, Yihao Zhao, Sihang Qiu, Yue Hu, Quanjun Yin, Yong Li

arXiv:2505.08765v1 任务类型: cross 摘要: 城市环境下的空中视觉物体搜索（AVOS）任务要求无人机自主使用视觉和文本线索搜索和识别目标物体，而无需外部指导。现有方法在复杂的城市环境中因冗余的语义处理、相似物体区分以及探索-利用困境而挣扎。为解决这一问题并支持AVOS任务，我们介绍了CityAVOS，这是首个用于自主搜索常见城市物体的基准数据集。该数据集包含六个类别、不同难度级别的2,420个任务，使无人机代理的搜索能力能够进行全面评估。为了解决AVOS任务，我们还提出了PRPSearcher（感知-推理-规划搜索者），这是一种由多模态大语言模型（MLLMs）驱动的新颖代理方法，模仿了人类的三层认知。具体来说，PRPSearcher 构建了三个专门的地图：以物体为中心的动力学语义地图，增强空间感知；基于目标吸引力值的三维认知地图，用于目标推理；以及三维不确定性地图，用于平衡探索-利用搜索。此外，我们的方法还包含了一个去噪机制，以减轻类似物体的干扰，并利用了Inspiration Promote Thought (IPT) 激励机制进行适应性行动规划。CityAVOS 上的实验结果表明，PRPSearcher 在成功率和搜索效率方面均超越现有基线（平均：成功率 +37.69%，搜索路径效率 +28.96%，最小搜索步数 -30.69%，最小不精确度 -46.40%）。尽管如此，与人类相比的成绩差距突显了AVOS任务中更好的语义推理和空间探索能力的需求。本工作为未来在体化目标搜索方面的进步奠定了基础。数据集和源代码可在 https://anonymous.4open.science/r/CityAVOS-3DF8 获取。

发布时间: 5/14/2025

查看原文

通过视觉-配料特征融合促进食物营养估计

作者: Huiyan Qi, Bin Zhu, Chong-Wah Ngo, Jingjing Chen, Ee-Peng Lim

arXiv:2505.08747v1 交叉类型：公布摘要：营养估算在促进健康饮食和减轻饮食相关健康风险方面是一个重要的组成部分。尽管在食物分类和成分识别等任务上取得了进展，但由于缺乏营养注释的数据集，营养估算的进步受到限制。为了解决这个问题，我们引入了FastFood数据集，该数据集包含84,446张图片，覆盖908个快餐类别，并附有成分和营养注释。此外，我们提出了一种新的模型无关的Visual-Ingredient Feature Fusion (VIF²) 方法，通过结合视觉和成分特征来增强营养估算。通过在训练过程中使用同义词替换和重采样策略来提高成分的鲁棒性。成分感知的视觉特征融合模块结合了成分特征和视觉表示，以实现精确的营养预测。在测试过程中，通过数据增强和多数投票方法使用大型多模态模型进一步细化成分预测。我们在FastFood和Nutrition5k数据集上的实验验证了我们提出的方法在不同骨干网络（如Resnet、InceptionV3和ViT）中的有效性，这证明了成分信息在营养估算中的重要性。https://huiyanqi.github.io/fastfood-nutrition-estimation/

发布时间: 5/14/2025

查看原文

保障RAG：一种风险评估与减轻框架

作者: Lukas Ammann, Sara Ott, Christoph R. Landolt, Marco P. Lehmann

arXiv:2505.08728v1 宣告类型: cross 摘要:检索增强生成 (RAG) 已成为面向用户的 NLP 应用的行业标准，提供在无需重新训练或微调大语言模型 (LLMs) 的情况下集成数据的能力。这种能力提高了响应的质量和准确性，但也引入了新的安全和隐私挑战，尤其是当敏感数据被集成时。随着 RAG 的快速采用，保障数据和服务的安全已经成为当务之急。本文首先回顾了 RAG 管道的漏洞，并从数据预处理、数据存储管理和与大语言模型的集成方面概述了攻击面。然后，将识别的风险与其相应的缓解措施进行配对，在结构化的概述中进行说明。第二步，本文开发了一个框架，该框架将 RAG 特定的安全考虑与现有的通用安全指南、行业标准和最佳实践相结合。所提出的框架旨在指导稳健、合规、安全和值得信赖的 RAG 系统的实现。

发布时间: 5/14/2025

查看原文

记忆压缩循环提高泛化能力

作者: Fangyuan Yu

arXiv:2505.08727v1 宣告类型: cross 摘要: 我们通过理论证明，泛化不仅可以通过数据缩放来提高，还可以通过压缩内部表示来提高。为了将这一见解付诸实践，我们引入了信息瓶颈语言建模（IBLM）目标，将其重新定义为一个受限优化问题：在最优预测性能的约束下最小化表示的熵。从经验上讲，在 LLM 预训练期间，我们观察到一种记忆-压缩循环的出现，这体现在交叉熵和矩阵基熵（MBE）之间的梯度正负对齐中，MBE 是表示熵的一个度量。这种模式接近于 IBLM 所规定的预测-压缩权衡，并且也类似于清醒学习和睡眠巩固之间的生物交替。受此观察的启发，我们提出了门控相变（GAPT）训练算法，该算法能够适应性地在记忆和压缩阶段之间切换。当将 GAPT 应用于使用 FineWeb 数据集对 GPT-2 的预训练时，MBE 减少了 50%，而交叉熵提高了 4.8%。在针对算术乘法的预训练任务中，GAPT 将 OOD 泛化提高了 35%。在设计用于模拟灾难性遗忘的环境中，GAPT 通过压缩和分离表示来减少干扰，实现了 97% 的分离改进，这类似于睡眠巩固的功能作用。

发布时间: 5/14/2025

查看原文

PWC-MoE：隐私意识无线协作专家混合模型

作者: Yang Su, Na Yan, Yansha Deng, Robert Schober

arXiv:2505.08719v1 声明类型: cross 摘要: 云计算服务器托管的大语言模型（LLMs）缓解了本地设备的计算和存储负担，但由于敏感数据的传输引发了隐私担忧，并且需要大量的通信带宽，这在受限环境中是一项挑战。相比之下，本地运行的小语言模型（SLMs）增强了隐私保护，但在复杂任务上表现受限。为了在带宽限制下平衡计算成本、性能和隐私保护，我们提出了一种隐私感知无线协作混合专家（PWC-MoE）框架。具体而言，PWC-MoE 使用稀疏的隐私感知门控网络动态地将敏感令牌路由到本地客户端上的隐私专家，而非敏感令牌则路由到远程基站的非隐私专家。为了实现计算效率，门控网络确保每个令牌只被动态路由到和处理由一个专家。为了增强可扩展性并防止特定专家过载，我们引入了一种分组负载均衡机制，该机制在隐私专家和非隐私专家之间均匀分布敏感令牌和非敏感令牌。为了在带宽约束下适应并保持模型性能，我们提出了带宽自适应和重要性感知的令牌卸载方案。该方案结合了重要性预测器来评估非敏感令牌的重要性评分，并根据其预测的重要性和可用带宽优先传输最重要的令牌到基站。实验表明，PWC-MoE框架即使在带宽受限的环境中也能有效保护隐私并保持高性能，为在隐私敏感和带宽受限场景下部署LLMs提供了实用解决方案。

发布时间: 5/14/2025

查看原文

大数据与创业和创新的计算社会科学研究

作者: Ningzi Li, Shiyang Lai, James Evans

arXiv:2505.08706v1 类型: cross 摘要：随着大量社会数据的爆炸式增长和机器学习方法的进步，创业和创新领域的学者面临着新的研究机会但也带来了独特的挑战。本章讨论了利用大规模数据识别技术性和商业性新颖性、记录新创业公司的起源以及预测新技术和商业形式之间竞争的困难。文章提出了学者们如何以两种推进创新和创业研究的方式利用新的文本、网络、图像、音频和视频数据。首先，结合大规模数据的机器学习模型使跨人类社会构建创新和创业的精密测量成为可能，从而作为系统层面的观测站。其次，由大数据驱动的新人工智能模型生成技术与业务的“数字双胞胎”，形成了关于创新和创业过程及政策的虚拟实验的实验室。章节呼吁通过将大数据与大数据模型结合来推进创业和创新领域的理论发展和测试。

发布时间: 5/14/2025

查看原文

基于实例感知的文字和掩码的可控图像着色

作者: Yanru An, Ling Gui, Qiang Hu, Chunlei Cai, Tianxiao Ye, Xiaoyun Zhang, Yanfeng Wang

arXiv:2505.08705v1 宣言类型: cross 摘要：近年来，深度学习在图像着色中的应用受到了广泛的关注。随着扩散模型的成熟，图像着色模型的发展也得到了进一步的推进。然而，当前主流的图像着色模型仍然面临着色彩溢出和色彩绑定错误等问题，并且无法在实例级别进行着色。本文中，我们提出了一种基于扩散的着色方法 MT-Color，以实现使用提供的指导进行精确的实例感知着色。为了解决色彩溢出问题，我们设计了一种像素级的掩码注意力机制，通过交叉注意力将潜在特征和条件灰度图像特征结合起来。我们使用分割掩码来构建交叉注意力掩码，防止不同实例之间的像素信息交换。我们还引入了一个实例掩码和文本指导模块，该模块提取每个实例的实例掩码和文本表示，然后通过自我注意力与潜在特征进行融合，利用实例掩码来形成自我注意力掩码，防止实例文本引导其他区域的着色，从而减轻色彩绑定错误。此外，我们应用了一种多实例采样策略，该策略单独采样每个实例区域，然后融合结果。另外，我们利用现有的图像数据集上的大型视觉语言模型创建了一个专门的数据集 GPT-color，用于实例级别的着色任务。定性和定量实验表明，我们的模型和数据集相较于之前的模型和数据集表现更优。

发布时间: 5/14/2025

查看原文

复杂语音频谱图的深度学习研究综述

作者: Yuying Xie, Zheng-Hua Tan

arXiv:2505.08694v1 交叉类型：公告摘要：近期深度学习的进步对语音信号处理领域产生了显著影响，特别是在复杂谱图的分析和操作方面。本文综述了利用深度神经网络处理复杂谱图的先进技术和方法，这些技术涵盖了幅度和相位信息。我们首先介绍了复杂谱图及其在各种语音处理任务中相关的特点。接下来，我们探讨了处理复值数据的关键组件和网络架构，这些网络专门设计用于处理复值数据，并已应用于复杂谱图处理中。然后我们讨论了针对处理和建模复杂谱图设计的不同训练策略和损失函数。综述还研究了关键应用，包括相位恢复、语音增强和语音分离，深度学习在这些领域通过利用复杂谱图或其衍生特征表示取得了显著进展。此外，我们还探讨了复杂谱图与生成模型的交叉领域。本文旨在为语音信号处理和复值神经网络领域的研究者和实践者提供一个有价值的资源。

发布时间: 5/14/2025

查看原文

VizCV：辅助可视化研究人员发表记录的AI工具

作者: Vladim\'ir Laz\'arik, Marco Agus, Barbora Kozl\'ikov\'a, Pere-Pau V\'azquez

arXiv:2505.08691v1 类别: cross 摘要: 分析科学家和研究团队的出版记录随时间的变化对于评估其专业水平至关重要，因为它可以支持学术环境的管理，帮助进行职业规划和评估。我们提出了一种名为 VizCV 的新颖的基于Web的端到端可视化分析框架，该框架能够交互式地探索研究人员的科学历程。它集成了AI辅助分析，并支持自动报告职业生涯发展情况。该系统旨在通过三个关键维度建模职业生涯的进步：a) 研究主题演变，以检测并可视化随着时间的推移学术关注点的变化，b) 发表记录及其相应的影响力，c) 合作动态，以展示研究人员合著网络的增长和演变。通过AI驱动的见解，系统可以自动解释职业转变，检测研究方向的重大转变、影响力突增或合作扩展。该系统还支持研究人员之间的比较分析，允许用户比较主题轨迹和影响力增长。我们的交互式、多标签和多视图系统允许在不同视角下对职业生涯里程碑进行探索性分析，例如最具影响力的文献、新兴研究主题，或对研究人员在某一领域的贡献进行详细分析。该系统的关键贡献包括：a) 主题分析，b) 维度减少以可视化模式和趋势，c) 通过可配置提示生成和大型语言模型创建文本描述数据各个方面的交互式方法，包括关键指标，以帮助理解个体或团队的职业生涯发展。

发布时间: 5/14/2025

查看原文

AC-PKAN：Attention-增强和Chebyshev多项式基物理 informant柯尔莫哥洛夫-阿诺尔德网络

作者: Hangwei Zhang, Zhimu Huang, Yan Wang

arXiv:2505.08687v1 宣告类型: cross 摘要: 科尔莫哥洛夫-阿诺尔德网络(KANs)最近在求解偏微分方程(PDEs)方面显示出潜力。然而，它们最初的表述在计算和内存方面都非常密集，因此引入了基于切比雪夫第一型的KANs(即Chebyshev1KANs)。尽管Chebyshev1KANs在小层KANs架构的表现上占据了上风，但我们的严格理论分析揭示出它们仍然存在秩坍缩的问题，最终限制了它们的表征能力。为了克服这些限制，我们通过将小波激活的MLP与可学习参数和内部注意机制相结合，对Chebyshev1KANs进行了增强。我们证明这种设计保持了满秩雅可比，并且能够近似任意阶数的PDE解。此外，为了解决切比雪夫多项式基引入的损失不稳定性和失衡问题，我们在外部分别引入了一个残差梯度注意力(RGA)机制，该机制能够根据梯度范数和残留量来动态地重新加权各个损失项。通过结合内部和外部注意力，我们提出了AC-PKAN这一创新架构，该架构构成了弱监督物理知情神经网络(PINNs)的改进，并扩展了KANs的表征能力。来自三个领域九项基准任务的实验结果表明，AC-PKAN始终优于或匹配PINNsFormer等最先进的模型，将它确立为在零数据或数据稀疏情况下解决复杂实际工程问题的强大工具。在接受后，代码将公开发布。

发布时间: 5/14/2025

查看原文