arXiv 论文列表

作者: Haohan Zou, Jie Feng, Hao Zhao, Yuanyuan Shi

arXiv:2502.02014v2 通告类型: replace-cross 摘要: 尽管在学习方法方面取得了进展，但为非线性动态系统找到有效的李亚普诺夫函数仍然具有挑战性。当前的神经网络方法面临两个主要问题：可扩展性验证的挑战和解释性有限。为了解决这些问题，我们提出了一种端到端框架，使用变压器构建分析性李亚普诺夫函数（局部），简化形式验证，增强解释性，并为控制工程师提供有价值的见解。我们的框架包括一个基于变压器的训练器生成候选的李亚普诺夫函数，以及一个验证器验证候选表达式并通过风险寻求的策略梯度改进模型。与Alfarano等人（2024）利用预训练并寻找低维系统全局李亚普诺夫函数不同，我们的模型从零开始通过强化学习（RL）训练，并成功找到了高维和非多项式系统的局部李亚普诺夫函数。由于候选函数的分析性质，在训练过程中我们使用高效的优化方法进行反证，并在最终验证中使用形式验证工具。我们在多达十维的非线性动态系统上展示了我们方法的效率，并展示了它能够发现控制文献中未曾发现的李亚普诺夫函数。

发布时间: 2/12/2025

查看原文

VolleyBots：结合运动控制与策略玩法的多无人机排球测试平台

作者: Zelai Xu, Chao Yu, Ruize Zhang, Huining Yuan, Xiangmin Yi, Shilong Ji, Chuqi Wang, Wenhao Tang, Yu Wang

arXiv:2502.01932v2 宣布类型: 替换交叉摘要：多智能体强化学习（MARL）取得了显著进步，主要得益于专门测试床的发展，这些测试床能够在受控而又具有挑战性的情景中系统地评估算法。然而，现有的测试床往往侧重于纯粹的虚拟模拟或受限的机器人形态，如机械臂、四足机器人和类人机器人，而忽视了像无人机这类具有高机动性和现实物理限制的平台。为了解决这一问题，我们提出了VolleyBots，一个新的MARL测试床，多个无人机在物理动态下协作和竞争在排球运动中。VolleyBots 包含根据排球规则的轮换交互模型、结合运动控制和战术玩法的分层决策过程以及高度真实的模拟，以实现无缝的仿真到现实世界的转换。该测试床提供了从单无人机训练任务到多无人机协作和竞争任务的全面任务集，并附带代表性的MARL和博弈论算法的基本评估。仿真结果显示，现有算法在处理简单任务时表现出色，但在需要低级控制和高级策略的复杂任务中遇到困难。我们进一步展示了从仿真中学习的策略在真实世界无人机上的零样本部署，突显了VolleyBots 在涉及敏捷机器人平台的MARL研究方面的潜力。项目页面位于 https://sites.google.com/view/thu-volleybots/home。

发布时间: 2/12/2025

查看原文

评估小型语言模型在新闻摘要中的性能：影响性能的含义及因素

作者: Borui Xu, Yao Chen, Zeyi Wen, Weiguo Liu, Bingsheng He

arXiv:2502.00641v2 公告类型: 替换交叉摘要：在资源受限环境中对高效摘要工具日益增长的需求突显了有效解决方案的必要性。虽然大型语言模型（LLMs）提供卓越的摘要质量，但它们对计算资源的高需求限制了其实用应用。相比之下，小型语言模型（SLMs）提供了一种更具可访问性的替代方案，能够在边缘设备上实现实时摘要。然而，SLMs的摘要能力及其与LLMs的相对性能仍然未被充分探索。本文通过在2000篇新闻样本上对19种SLMs进行全面评估，关注相关性、连贯性、事实一致性以及摘要长度，填补了这一空白。我们的研究表明，SLM的性能存在显著差异，表现最佳的模型，如Phi3-Mini和Llama3.2-3B-Ins，能够在生成更简洁的摘要的同时，达到与70B LLM相当的结果。值得注意的是，对于简单的提示，SLMs更为适用，而过于复杂的提示可能会导致摘要质量下降。此外，我们的分析表明，指令微调并不总是能够增强SLMs的新闻摘要能力。本研究不仅加深了对SLMs的理解，还为寻求兼顾性能和资源使用的高效摘要解决方案的研究人员提供了实用见解。

发布时间: 2/12/2025

查看原文

使用语言模型的语义变异性统计一致度量

作者: Yi Liu

arXiv:2502.00507v2 宣布类型: replace-cross 摘要: 为了解决语言模型生成输出的变异问题，我们提出了一种统计上一致的语义变异度量方式。该度量方式称为语义频谱熵，是一种易于实现的算法，仅需使用现成的语言模型即可。我们对语言模型的限制非常少，并且通过清晰的仿真研究显示，即使受到语言模型随机性的影响，该方法也能生成准确的度量指标。

发布时间: 2/12/2025

查看原文

多模态内容兴趣建模范式for用户行为建模

作者: Bencheng Yan, Si Chen, Shichang Jia, Jianyu Liu, Yueran Liu, Chenghan Fu, Wanxian Guan, Hui Zhao, Xiang Zhang, Kai Zhang, Wenbo Su, Pengjie Wang, Jian Xu, Bo Zheng, Baolin Liu

arXiv:2502.00321v3 宣布类型: replace-cross 摘要：点击率（CTR）预测是推荐系统、在线搜索和广告平台中的关键任务，准确捕捉用户对内容的真实兴趣对于性能至关重要。然而，现有方法严重依赖ID嵌入，无法反映用户对内容如图片和标题的真实偏好。这一限制在冷启动和长尾场景中尤为明显，传统方法在这种情况下很难提供有效的结果。为了解决这些挑战，我们提出了一种新的多模态内容兴趣建模范式（MIM），它包括三个关键阶段：预训练、内容兴趣感知监督微调（C-SFT）和内容兴趣感知UBM（CiUBM）。预训练阶段将基础模型适应领域特定数据，使提取高质量的多模态嵌入成为可能。C-SFT阶段通过利用用户行为信号来弥合内容与用户兴趣之间的语义差距，引导嵌入与用户偏好的对齐。最后，CiUBM阶段将多模态嵌入和基于ID的协同过滤信号整合到一个统一框架中。在淘宝上进行的全面离线实验和在线A/B测试证明了MIM方法的有效性和效率。该方法已成功部署在线，实现了CTR提高14.14%和RPM提高4.12%的增长，展示了其在工业应用中的适用性和对平台性能的重大影响。为了促进进一步研究，我们已公开发布了代码和数据集，网址为https://pan.quark.cn/s/8fc8ec3e74f3。

发布时间: 2/12/2025

查看原文

用 logits 估计 LL M 的不确定性

作者: Huan Ma, Jingdong Chen, Guangyu Wang, Changqing Zhang

arXiv:2502.00290v2 宣告类型：replace-cross 摘要：近年来，大型语言模型（LLMs）取得了显著的进步，并被广泛应用于各个领域。尽管取得了进展，但LLMs仍然容易产生幻觉，即生成不可靠的响应，尤其是在模型缺乏充分的背景知识时。为了解决这一问题，已经采用了评估不确定性的方法，重点关注作为可靠性的指示符的关键词。然而，基于概率的方法在评估词级可靠性时显示出局限性，因为它们无法保留训练过程中获取的证据强度信息。在本文中，我们介绍了Logits诱导的令牌不确定性（LogU），这是一种新的框架，可以实现实时估计LLMs中的令牌特定不确定性，而无需进行多次采样轮次。通过利用证据建模来实施LogU，我们利用衍生的不确定性度量来引导下游任务。我们的实验结果突显了LogU的巨大效果和潜力，标志着在应对模型幻觉挑战方面取得了重要进展。

发布时间: 2/12/2025

查看原文

STP: 自我博弈LLM定理证明器与迭代猜想与证明

作者: Kefan Dong, Tengyu Ma

arXiv:2502.00212v3 公告类型：替换-交叉摘要：形式定理证明中使用大规模语言模型（LLM）所面临的根本挑战之一是高质量训练数据的缺乏。尽管强化学习或专家迭代部分缓解了这一问题，通过交替进行LLM生成证明和在正确生成的证明上精细调整模型，但性能很快 plateau，原因在于正确证明样品的稀少性（稀疏奖励）。为了在有限的数据下持续改进模型，我们从数学家那里汲取了灵感，数学家们通过不断提出新的猜想或练习题（这些往往是已知结果的变体）并尝试解决它们，不断开发新的结果。我们设计了自我对弈定理证明器（STP），它同时承担猜想者和证明者的角色，每个角色为另一个提供训练信号。猜想者通过迭代训练于当前证明者几乎无法证明的先前生成的猜想，这激励它随着时间的推移生成越来越具有挑战性的猜想。证明者试图使用标准的专家迭代来证明这些猜想。我们使用Lean和Isabelle形式验证器评估了STP。在Lean的训练过程中生成了198亿个令牌后，STP成功证明了LeanWorkbook数据集中26.3%的陈述，这是通过专家迭代方法实现的前最好结果13.2%的两倍。最终模型在miniF2F-test（61.7%，pass@3200）、Proofnet-test（23.1%，pass@3200）和PutnamBench（8/644，pass@3200）上达到最先进的性能。

发布时间: 2/12/2025

查看原文

SAFR：神经元重组以提高可解释性

作者: Ruidi Chang, Chunyuan Deng, Hanjie Chen

arXiv:2501.16374v2 宣告类型: replace-cross 摘要: 超position指的是在单个神经元中编码多个特征的表示，这是深度神经网络中常见的现象。这一特性使得神经元能够结合和表示多个特征，从而使模型能够捕捉复杂信息并处理复杂任务。尽管模型表现有潜力，但其可解释性却有所减弱。本文提出了一种通过正则化特征超position来增强模型可解释性的新方法。我们引入了SAFR，该方法通过在损失函数中应用正则化来促进重要令牌的一义性表示，同时鼓励相关令牌对的多元性表示，其中重要令牌和相关令牌对分别通过VMASK和注意力权重来识别。我们在两个分类任务上使用变压器模型评估了SAFR。实验结果表明，SAFR在不牺牲预测性能的前提下，有效提高了模型的可解释性。此外，SAFR通过可视化中间层内的神经元分配提供了解释。

发布时间: 2/12/2025

查看原文

Amphion工具包概览（v0.2）

作者: Jiaqi Li, Xueyao Zhang, Yuancheng Wang, Haorui He, Chaoren Wang, Li Wang, Huan Liao, Junyi Ao, Zeyu Xie, Yiqiao Huang, Junan Zhang, Zhizheng Wu

arXiv:2501.15442v2 通知类型: 交叉替换摘要: Amphion 是一个开源工具包，用于音频、音乐和语音生成，旨在降低这些领域初级研究人员和工程师的入门门槛。它提供了一个多功能框架，支持多种生成任务和模型。在本报告中，我们介绍了 Amphion v0.2，这是 2024 年开发的第二个主要发布版本。此版本包括一个 100 万小时的多语言开源数据集、稳健的数据准备流水线以及用于文本转语音、音频编码和语音转换等任务的新模型。此外，报告还包含了多个教程，引导用户了解新发布的模型的功能及其使用方法。

发布时间: 2/12/2025

查看原文

视觉推理任务中评估大语言模型的认知范式

作者: Mohit Vaishnav, Tanel Tammet

arXiv:2501.13620v2 公告类型: replace-cross 摘要：推动机器视觉推理需要更深入地了解视觉语言模型（VLMs）如何处理和解释复杂的视觉模式。本文提出了一种基于认知的新型评估框架，旨在系统分析VLM在基于自然图像的邦加尔兹问题上的推理能力。我们提出了三种结构化范式——直接视觉规则学习、演绎规则学习和成分分析，旨在逐步强化逐步推理并解开感知与推理之间的相互作用。我们的评估结果显示，先进的闭源VLM（GPT-4o和Gemini 2.0）在提供高质量图像描述时达到近乎超人的表现，而开源模型由于感知方面的缺陷表现出了明显的性能瓶颈。进一步的消融研究还证实，感知而非推理是主要的限制因素，因为当给开源模型提供准确的描述时，它们可以有效地应用提取的规则。这些发现强调了强大的多模态感知在增强可泛化的视觉推理中的关键作用，并突出了为了推动机器智能向前发展，有必要采用结构化的逐步推理范式。

发布时间: 2/12/2025

查看原文