arXiv 论文列表

作者: Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, Slim Essid

arXiv:2502.12031v1 交叉公告类型：自监督学习摘要：近年来，基于掩蔽潜在变量预测的方法已被证明能够将输入数据编码为强大的表示。然而，在训练过程中，学习到的潜在空间可以通过进一步转换来提取更高层次的信息，这些信息可能更适合下游分类任务。因此，我们提出了一种新方法：掩蔽潜在预测与分类（MATPAC），该方法通过联合解决两个预训练任务进行训练。如同以往的工作，第一个预训练任务是一个掩蔽潜在预测任务，确保潜在空间中的稳健输入表示。第二个任务是非监督分类，利用第一个预训练任务的潜在表示来匹配教师和学生的概率分布。我们通过与其他最先进的提案进行比较和进行消融研究来验证MATPAC方法。MATPAC在参考音频分类数据集（如OpenMIC、GTZAN、ESC-50和US8K）上达到了最先进的自监督学习结果，并且在Magna-tag-a-tune上实现了音乐自动标签任务中可比监督方法的更好表现。

发布时间: 2/18/2025

查看原文

根据能力教学：适应性推理在数学问题解决中的应用

作者: Xin Xu, Yan Xu, Tianhao Chen, Yuchen Yan, Chengwu Liu, Zaoyu Chen, Yufei Wang, Yichun Yin, Yasheng Wang, Lifeng Shang, Qun Liu

arXiv:2502.12022v1 Announce Type: cross 摘要：现有的大型语言模型（LLMs）在数学推理中的方法依赖于思维链（CoT）以提高泛化能力，或工具整合推理（TIR）以实现精确计算。尽管已经尝试将这些方法结合起来，但它们主要依赖于事后选择或预定义策略，留下了一个开放的问题：LLMs 是否可以根据其内在能力自主适应其推理策略。在本文中，我们提出了 TATA（根据能力教授 LLMs），这是一种适应性框架，使 LLMs 能够自发地个性化其推理策略，使其与内在能力相一致。TATA 在有监督微调（SFT）期间结合了基于基础 LLM 的数据选择，以根据模型的独特能力定制训练数据。这种方法使 LLMs 能够在测试时自主确定并应用适当的推理策略。我们通过在六个数学推理基准上的广泛实验评估了 TATA，使用了通用和数学专门化的 LLMs。实验结果表明，TATA 有效地结合了 CoT 和 TIR 的互补优势，在推理效率提升的情况下，实现了单独使用 TIR 的更优或可比性能。进一步的分析强调了根据能力选择数据在使 LLMs 作出有效且适应性强的推理决策以及使推理策略与模型能力相一致方面的作用。

发布时间: 2/18/2025

查看原文

Markov LLM 测试时扩展的原子思维

作者: Fengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo

arXiv:2502.12018v1 宣布类型: cross 摘要：大规模语言模型（LLMs）通过训练时的扩展实现了卓越的性能，而在推理时的扩展进一步通过在推理过程中进行有效的推理来增强其能力。然而，随着推理规模的增加，现有的推理时扩展方法会遭受累积历史信息的影响，这不仅浪费了计算资源，还干扰了有效的推理。为了解决这一问题，我们观察到复杂的推理过程通常是通过解决一系列独立的子问题一步步完成的，每个子问题是自包含且可验证的。这些子问题本质上是原子问题，主要依赖于当前状态而非累积历史，类似于马尔可夫过程中的无记忆状态转移。基于这一观察，我们提出了Thought的原子（Atom of Thoughts，AoT），其中推理过程中的每一个状态转移包括将当前问题分解为基于依赖关系的有向无环图，并收缩其子问题，形成一个新的原子问题状态。这个逐步分解-收缩过程继续进行，直到达到可以直接解决的原子问题，从而自然实现了问题状态间的马尔可夫转换。此外，这些原子问题可以无缝集成到现有的推理时扩展方法中，使AoT能够作为一个插件增强器，提升推理能力。在六个基准上的实验表明，AoT无论是作为一个独立框架还是作为一个插件增强器都是有效的。值得注意的是，在HotpotQA上，当应用于gpt-4o-mini时，AoT取得了80.6%的F1分数，分别比o3-mini高出3.4%，比DeepSeek-R1高出10.6%。代码将在 https://github.com/qixucen/atom 可用。

发布时间: 2/18/2025

查看原文

演化出适用于量子近似优化算法的难最大割实例

作者: Shuaiqun Pan, Yash J. Patel, Aneta Neumann, Frank Neumann, Thomas B\"ack, Hao Wang

arXiv:2502.12012v1 类型: cross 摘要: 变分量子算法，如递归量子近似优化算法（RQAOA），已经变得越来越受欢迎，它们为使用有噪声的中等规模量子设备解决如最大割问题等具有挑战性的组合优化任务提供了有希望的途径。在本研究中，我们利用一种配备有独特适应度函数的进化算法。这种方法针对图自动编码器的潜在空间中的硬最大割实例进行工作，识别那些对RQAOA构成重大挑战或特别易于处理的实例，与经典的Goemans和Williamson算法不同。我们的研究不仅阐明了每种算法的独特能力和局限性，还扩展了对RQAOA操作极限的理解。此外，我们生成的多样化图集合作为关键的基准测试工具，突显了需要更先进的算法来应对组合优化挑战。另外，我们的结果为图生成研究开辟了新的途径，为未来的探索提供了令人兴奋的机会。

发布时间: 2/18/2025

查看原文

使用WavLM嵌入从语音预测人口统计属性

作者: Yuchen Yang, Thomas Thebaud, Najim Dehak

arXiv:2502.12007v1 类型: cross 摘要: 本文介绍了一种基于 WavLM 特征的一般分类器，用于从语音中推断人口统计学特征，如年龄、性别、母语、教育程度和国家。人口统计学特征预测在语言学习、无障碍技术和数字取证等应用程序中发挥着关键作用，使得技术更加个性化和包容。利用预训练模型进行嵌入提取，提出的方法识别与人口统计学属性相关的关键声学和语言特征，在多个数据集上实现了年龄预测的平均绝对误差 (MAE) 为 4.94 和性别分类超过 99.81% 的准确率。我们的系统在 MAE 上相比现有模型提高了多达 30%，在准确率和 F1 分数上提高了多达 10%，通过利用多种数据集和大规模预训练模型来确保稳健性和泛化能力。本研究为基于语音的人口统计学建模提供了新的见解，并为未来的相关研究奠定了坚实的基础。

发布时间: 2/18/2025

查看原文

预设文化身份：名称如何影响LLM响应

作者: Siddhesh Pawar, Arnav Arora, Lucie-Aim\'ee Kaffee, Isabelle Augenstein

arXiv:2502.11995v1 类别: cross 摘要: 姓名深深植根于人类身份之中。它们可以作为个体性、文化遗产和个人历史的标志。然而，将姓名作为身份的核心指标会导致对复杂身份的过度简化。在与大规模语言模型(LLM)互动时，用户姓名是个性化的重要信息点。姓名可以通过聊天机器人直接请求的用户输入、任务上下文(如简历审查)的一部分，或作为内置的存储用户信息的记忆功能进入聊天机器人对话中。我们通过测量LLM在面对常见的建议查询时生成的回答中包含的文化假设来研究与姓名相关的偏见。这些查询可能涉及对用户的假设。我们的分析表明，在跨文化背景下，LLM生成中与姓名相关的文化身份假设存在强烈的表现。我们的工作对设计更加细腻的个性化系统具有重要意义，这些系统可以避免强化刻板印象同时保持有意义的定制。

发布时间: 2/18/2025

查看原文

characterizing 光学真实感和生成图像中的缺陷在_diffusion模型生成图像中的

作者: Negar Kamali, Karyn Nakamura, Aakriti Kumar, Angelos Chatzimparmpas, Jessica Hullman, Matthew Groh

arXiv:2502.11989v1 Announce Type: cross 摘要：由扩散模型生成的图像可以看上去与真实的摄影作品难以分辨，但这些图像往往包含揭示其人工智能生成起源的艺术瑕疵和不合逻辑之处。鉴于 photorealistic 人工智能生成图像对媒体公信力造成的挑战，我们进行了一项大规模实验，测量了参与者在450张扩散模型生成的图像和149张真实图像之间准确检测的能力。基于收集的749,828个观察结果和34,675条评论，我们发现，图像的场景复杂性、图像内的艺术瑕疵类型、图像的显示时间以及人工对人工智能生成图像的编辑，在人们如何准确区分真实和人工智能生成图像方面都扮演着重要角色。此外，我们提出了一种分类法，描述在扩散模型生成的图像中常出现的艺术瑕疵。我们的经验观察和分类法提供了有关扩散模型在2024年生成逼真图像的能力和限制的深入见解。

发布时间: 2/18/2025

查看原文

机器学习应该最大化福利，而不仅仅准确率

作者: Nir Rosenfeld, Haifeng Xu

arXiv:2502.11981v1 类型:交叉摘要：几十年来，在机器学习领域的研究已经为我们提供了强有力的工具来进行准确的预测。但当这些工具应用于社会环境中并作用于人类输入时，更高的准确性并不必然转化为更好的社会成果。这可能并不令人意外，因为传统的学习框架并不是为了表达社会偏好——更不用说促进它们了。这篇声明论文认为，当前机器学习缺少适当的关于社会福利的概念，并且可以从纳入这一概念中受益良多。福利经济学研究的问题是：我们应该如何通过最大化社会效益的方式来分配有限资源给自私自利的代理？我们认为，这一视角适用于许多现代机器学习在社会情境中的应用，并倡导采用这一视角。我们不是抛弃预测，而是希望通过利用机器学习在预测方面的强项来促进社会福利。我们通过提出一个概念框架来证明这一想法，该框架从注重福利的准确性最大化逐渐过渡到通过准确预测实现的最大化福利。我们详细介绍了我们的框架可以有效应用的应用和用例场景，指出了技术挑战和实际机遇，并强调了值得追求的未来研究方向。

发布时间: 2/18/2025

查看原文

基于贝尔曼方程的强化学习的理论障碍

作者: Brieuc Pinon, Rapha\"el Jungers, Jean-Charles Delvenne

arXiv:2502.11968v1 宣告类型: cross 摘要: 为高维空间设计的强化学习算法通常在采样的状态子集上强制执行贝尔曼方程，依靠泛化在状态空间中传播知识。在本文中，我们识别并形式化了这种方法的基本局限性。具体地，我们构造了一类具有简单结构的反例问题，这种方法无法利用这些结构。我们的发现表明，这些算法可能会忽略问题中的一些关键信息，导致效率低下。此外，我们将这一负面结果扩展到文献中的另一种方法：事后经验回放学习状态到状态的可达性。

发布时间: 2/18/2025

查看原文

一种通过CIR-CSI一致性建立的MIMO无线信道基础模型

作者: Jun Jiang, Wenjun Yu, Yunfan Li, Yuan Gao, Shugong Xu

arXiv:2502.11965v1 交叉公告类型摘要：在人工智能领域，自监督学习通过利用大规模非标记数据集进行预训练，展示了卓越的泛化能力，这对于无线通信模型适应各种场景尤为重要。本文创新地将信道状态信息（CSI）和信道冲击响应（CIR）视为自然对齐的多模态数据，并提出了第一个MIMO无线信道基础模型，名为CSI-CLIP。通过有效地捕捉CIR和CSI的联合表示，CSI-CLIP在各种场景中表现出显著的适应性和稳健的特征提取能力。实验结果表明，在定位任务中，CSI-CLIP将平均误差距离降低了22%；在波束管理任务中，与传统的监督方法相比，CSI-CLIP的准确性提高了1%，在信道识别任务中也有类似的表现。这些改进不仅突显了CSI-CLIP在集成感知与通信方面的潜力和价值，还展示了它相对于现有技术的显著优势。此外，将CSI和CIR视为多模态配对并应用于无线信道基础模型的对比学习，为MIMO无线通信领域的研究打开了新的方向。

发布时间: 2/18/2025

查看原文