arXiv 论文列表

作者: Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath

arXiv:2505.09738v1 宣告类型: cross 摘要：预训练语言模型（大语言模型，LLMs）常常受限于固定的分词方案，导致效率低下和性能限制，尤其是在多语言或特定应用方面。这种分词锁定提出了重大挑战。克服这一问题的标准方法通常需要大量的计算资源。尽管使用启发式初始化进行分词替换旨在减轻这一负担，但现有方法往往需要详尽的残差微调，而且可能无法完全保留语义细微差别或充分解决潜在的压缩效率低下问题。我们的框架引入了两项创新：首先，Tokenadapt，一种模型无关的分词移植方法；其次，用于多词Supertokens的新型预分词学习，以增强压缩并减少碎片化。Tokenadapt 通过结合两种方法的混合启发式方法初始化新的唯一词嵌入：基于旧分词器进行子词分解的局部估计，以及利用原始词汇表中 top-k 语义上最相似的词的全局估计。这种方法旨在保留语义的同时显著减少重新训练需求。实证研究验证了两个贡献：移植启发式成功初始化了独特的词，显著优于传统的基线方法以及包括Transtokenizer和ReTok在内的复杂方法，而我们的Supertokens实现了显著的压缩收益。我们的零样本困惑度结果表明，TokenAdapt 混合初始化在不同基础模型和新训练的目标分词器上始终比ReTok和TransTokenizer基线模型产生了更低的困惑度比率。TokenAdapt 通常显著降低了整体困惑度比率，相对于ReTok，至少提高了这些总分的两倍。

发布时间: 5/16/2025

查看原文

robust 联邦学习在嘈杂和不完整数据下的稳健过滤与基于GAN的补全

作者: Alpaslan Gokcen, Ali Boyaci

arXiv:2505.09733v1 宣告类型: cross 摘要：联邦学习（FL）提供了一种在保持各个分散客户端数据集数据隐私的同时进行协作模型训练的有效解决方案。然而，数据质量问题，如嘈杂的标签、缺失的类别和不平衡的分布，极大地挑战了其有效性。本研究提出了一种系统地解决数据质量问题的联邦学习方法，包括噪声、类别不平衡和缺失标签。所提出的方法通过自适应噪声清理、协作条件GAN生成的合成数据和稳健的联邦模型训练，系统地增强了数据完整性。在基准数据集（MNIST和Fashion-MNIST）上的实验评估显示，在不同噪声和类别不平衡条件下，联邦模型性能得到了显著提高，特别是在宏观F1分数方面。此外，所提出的框架谨慎地平衡了计算可行性与显著的性能增益，确保在资源受限的边缘设备上具有实际可行性，同时严格维护数据隐私。我们的研究结果表明，该方法有效地缓解了常见的数据质量问题，提供了一种稳健、可扩展且符合隐私要求的解决方案，适用于各种实际世界的联邦学习场景。

发布时间: 5/16/2025

查看原文

实验室中的AI驱动研究助理：通过与LLMs的迭代合作进行文本分析的实用指南

作者: Gino Carmona-D\'iaz, William Jim\'enez-Leal, Mar\'ia Alejandra Grisales, Chandra Sripada, Santiago Amaya, Michael Inzlicht, Juan Pablo Berm\'udez

arXiv:2505.09724v1 宣布类型: 横跨领域摘要：分析开放生成的回答、标题或社交媒体帖子等文本是一种耗时且劳动密集型的过程，极易受到偏见的影响。大规模语言模型（LLMs）是进行文本分析的有前景的工具，可以使用预定义的（自上而下）或数据驱动的（自下而上）分类法，而不牺牲质量。在这里，我们提供了一步步的教程，通过研究者和LLMs的迭代和协作过程，高效地开发、测试和应用分析非结构化数据的分类法。以参与者提供的个人目标为例，我们展示了如何编写提示来审查数据集，并生成生活领域的分类法，如何通过提示和直接修改来评估和完善分类法，如何测试分类法并评估编码者间的一致性，以及如何将分类法应用于整个数据集，并实现高编码者一致性分类。我们讨论了使用LLMs进行文本分析的可能性和局限性。

发布时间: 5/16/2025

查看原文

域外泛化很难：来自ARC-like任务的证据

作者: George Dimitriadis. Spyridon Samothrakis

arXiv:2505.09716v1 分类: cross 摘要：离分布外（OOD）泛化被认为是人类和动物智能的标志。为了通过组合实现OOD，系统必须发现经验输入-输出映射的环境不变特性并将这些特性转移到新的输入中。如果一个智能系统能够识别出合适的、任务不变的和可组合的输入特征，以及组合方法，从而使它能够基于这些特征的任务不变组合，而不是学习到的数据点之间的内插来进行操作，那么这一点可以实现。我们提议，为了确认一个算法确实从数据中学习到了组合结构，仅仅在OOD设置下进行测试是不够的，还需要确认所识别的特征确实是组合的。我们通过探索两个有明确OOD度量的标准任务来展示这一点，这两个任务是三个常用神经网络——多层感知机（MLP）、卷积神经网络（CNN）和Transformer——无法解决的。此外，我们开发了两个具有内置偏见的新网络架构，使它们在OOD场景中能够成功。我们展示了即使带有正确的偏见并且在OOD性能几乎完美的情况下，算法仍可能无法学习到正确的特征以实现组合泛化。

发布时间: 5/16/2025

查看原文

使用聚类方法的能效联邦学习 for AIoT

作者: Roberto Pereira, Fernanda Fam\'a, Charalampos Kalalas, Paolo Dini

arXiv:2505.09704v1 Announce Type: 横跨多个领域摘要：虽然已有大量研究致力于优化模型性能、收敛速度和通信效率，但在现有的文献中，关于 Artificial Intelligence of Things（AIoT）场景下的联邦学习（FL）中的能耗问题却常常被忽视。本研究考察了 FL 过程中的能耗，重点关注三个主要的能耗密集型过程：预处理、通信和局部学习，这些过程共同构成了整体能耗足迹。我们注意到，在分布式 AIoT 环境下，设备/客户端的选择对于加快模型训练的收敛速度至关重要，并提出了两种基于聚类的方法。这些聚类解决方案旨在将具有相似标签分布的 AIoT 设备分组，形成由接近异构设备组成的簇。因此，我们的方法缓解了现实世界分布式学习应用中经常遇到的异构性问题。通过广泛的数值实验，我们证明了与文献中其他近期方法相比，我们的聚类策略通常能够实现较快的收敛速度，同时保持较低的能耗。

发布时间: 5/16/2025

查看原文

ManipBench：评估低级机器人操作的视觉-语言模型基准测试

作者: Enyu Zhao, Vedant Raval, Hejia Zhang, Jiageng Mao, Zeyu Shangguan, Stefanos Nikolaidis, Yue Wang, Daniel Seita

arXiv:2505.09698v1 类别: cross 摘要：视觉-语言模型（VLMs）由于其常识推理能力，已经革新了人工智能和机器人技术。在机器人的操作中，VLMs 主要用作高级规划者，但最近的工作也开始研究它们在低级推理能力方面的能力，即关于精确机器人运动的决策。然而，目前社区缺乏一个清晰且通用的基准来评估 VLMs 在机器人操作中的低级推理能力。因此，我们提出了一种新型基准，ManipBench，以评估 VLMs 在各种维度上的低级机器人操作推理能力，包括它们对物体-物体交互和可变形物体操作的理解程度。我们在包含 10 种模型家族的基准上测试了 33 种代表性 VLMs，包括不同模型大小的变体进行测试。我们的评估显示，VLMs 在任务上的性能显著不同，并且这种性能与我们在现实世界操作任务中的趋势之间存在很强的相关性。它还显示这些模型与人类的理解水平之间仍然存在显著差距。请访问我们的网站：https://manipbench.github.io。

发布时间: 5/16/2025

查看原文

基于元学习的系统提示优化

作者: Yumin Choi, Jinheon Baek, Sung Ju Hwang

arXiv:2505.09666v1 交叉类型: cross 摘要: 大型语言模型 (LLMs) 展现出了显著的能力，优化它们的输入提示在最大化其性能中起到了关键作用。然而，尽管LLM的提示包括任务无关的系统提示和任务相关的用户提示，现有的提示优化工作主要集中在针对单个查询或任务的特定用户提示上，而很大程度上忽略了在优化后适用于不同任务和领域系统的提示。鉴于此，我们引入了新的双层系统提示优化问题，其目标是设计出对多种用户提示具有鲁棒性且能在未见过的任务中转移的系统提示。为了解决这一问题，我们提出了一种元学习框架，通过在多个数据集上优化系统提示来实现其元学习，同时迭代更新用户提示以确保它们之间的协同作用。我们在涉及5个不同领域共14个未见过的数据集上进行了实验，结果显示我们的方法能够很好地将系统提示泛化到不同的用户提示。此外，我们的研究发现优化后的系统提示能够快速适应未见过的任务，减少了测试时用户提示的优化步骤，同时提高了性能。

发布时间: 5/16/2025

查看原文

介绍声音音色属性检测

作者: Jinghao He, Zhengyan Sheng, Liping Chen, Kong Aik Lee, Zhen-Hua Ling

arXiv:2505.09661v1 交叉公告类型摘要：本文关注解释语音信号中传递的音色，并介绍了音色属性检测（vTAD）任务。在该任务中，音色通过描述其人类感知的一组感官属性来解释。一对语音片段会被处理，并在指定的音色描述符中比较它们的强度。此外，提出了一种框架，该框架基于从语音片段中提取的说话人嵌入构建。研究在VCTK-RVA数据集上进行。对基于ECAPA-TDNN和FACodec说话人编码器的实验研究表明：1）在测试说话人包含在训练集中的已见场景中，ECAPA-TDNN说话人编码器更具优势；2）在测试说话人不包含在训练集中的未见场景中，FACodec说话人编码器表现更佳，表明其泛化能力更强。VCTK-RVA数据集和开源代码可在网站https://github.com/vTAD2025-Challenge/vTAD上获取。

发布时间: 5/16/2025

查看原文

量子增强神经网络参数生成中可微量子架构搜索

作者: Samuel Yen-Chi Chen, Chen-Yu Liu, Kuan-Cheng Chen, Wei-Jia Huang, Yen-Jui Chang, Wei-Hao Huang

arXiv:2505.09653v1 跨领域公告类型: cross 摘要: 量子计算（QC）和机器学习（ML）的迅速进步催生了量子机器学习（QML），这种技术将两个领域的优势相结合。在QML方法中，变量子量子电路（VQCs），也被称为量子神经网络（QNNs），在实验和理论中都展示了潜力。然而，它们的广泛应用受到推理过程中依赖量子硬件的限制。量子硬件的缺陷以及对量子设备的有限访问带来了实际挑战。为了解决这个问题，Quantum-Train（QT）框架利用量子振幅的指数级缩放来生成经典神经网络参数，从而在不使用量子硬件的情况下进行推理，并实现显著的参数压缩。但设计有效的量子电路架构，以供这些量子增强的神经程序员使用，仍然是具有挑战性的，通常需要量子信息科学的专业知识。在本文中，我们提出了一种基于可微优化的自动化解决方案。我们的方法通过自动微分在整个端到端过程中同时优化传统电路参数和架构参数。我们通过分类、时间序列预测和强化学习任务评估提出的框架。模拟结果表明，我们的方法与手动设计的QNN架构相比，能够达到或超过其性能。这项工作提供了一条有扩展性和自动化的途径，用于设计能够在各种应用中生成经典神经网络参数的QNNs。

发布时间: 5/16/2025

查看原文

解锁位置智能：从深度学习到大语言模型时代的研究综述

作者: Xixuan Hao, Yutian Jiang, Xingchen Zou, Jiabo Liu, Yifang Yin, Yuxuan Liang

arXiv:2505.09651v1 宣布类型: cross 摘要：位置智能（LI），通过将地理位置中心化的地理空间数据转换为可操作的知识而形成的科学，已成为现代空间决策的基石。地理空间表示学习的迅速演变通过两个相继的技术革命——深度学习突破和新兴的大语言模型（LLM）范式，从根本上重塑了 LI 的发展。虽然深度神经网络（DNNs）在自动从结构化地理空间数据（例如，卫星图像、GPS 轨迹）中提取特征方面取得了显著的成功，但最近将大语言模型集成进来则引入了跨模态地理空间推理和非结构化地理文本数据处理的变革性能力。这篇综述文章提供了一个全面的地理空间表示学习的回顾，根据完整的流程将其组织为结构化的分类，包括：(1) 数据视角，(2) 方法论视角和 (3) 应用视角。我们还强调了当前的进展，讨论了现有的限制，并提出了LLM时代潜在的研究方向。本作品对这一领域的研究进行了详尽的探索，并提供了一条通往进一步创新的路线图。最新的论文列表的概述可以在 https://github.com/CityMind-Lab/Awesome-Location-Intelligence 查看，并且将进行持续更新。

发布时间: 5/16/2025

查看原文