arXiv 论文列表

RadioDiff-Inverse：增强扩散的贝叶斯逆估计方法用于ISAC雷达图构建

arXiv:2504.14298v2 通告类型: 修改摘要: 无线地图（RMs）对于环境感知通信和传感至关重要，它们提供了位置特定的无线信道信息。现有的RM构建方法通常依赖于精确的环境数据和基站（BS）位置，但在动态或隐私敏感的环境中这些数据往往不可用。虽然稀疏测量技术可以减少数据收集，但稀疏数据中的噪声对RM准确性的影响尚未得到充分理解。本文通过在粗糙的环境知识和噪声稀疏测量下将RM构建形式化为贝叶斯逆问题来应对这些挑战。尽管最大后验概率（MAP）滤波提供了一个最优解，但它需要一个精确的RM先验分布，而这种情况通常不存在。为解决这一问题，我们提出了一种增强扩散的贝叶斯逆估计框架RadioDiff-Inverse，该框架利用无条件生成扩散模型来学习RM的先验。该方法不仅重建了无线信道特征的空间分布，还能通过综合感知与通信（ISAC）感知环境结构（如建筑物轮廓）和BS位置仅通过路径损耗。值得注意的是，RadioDiff-Inverse 不需要训练，利用来自Imagenet的预训练模型而无需特定任务的微调，这显著降低了在无线网络中使用生成大型模型的训练成本。实验结果表明，RadioDiff-Inverse 在RM构建和环境重建方面的准确性及对噪声稀疏采样的鲁棒性方面均达到了最先进的性能。

发布时间: 5/12/2025

查看原文

AGITB：评估人工通用智能的信号级基准

作者: Matej \v{S}progar

arXiv:2504.04430v3 通告类型: 修改摘要：尽管在机器学习方面取得了显著进步，当前的AI系统依然未能达到真正的类人智能。虽然大型语言模型（LLMs）在模式识别和响应生成方面表现出色，但在真正的理解能力方面却有所欠缺——这是人工通用智能（AGI）的关键标志之一。现有的AGI评估方法未能提供一个实用、渐进且信息丰富的度量标准。本文引入了人工通用智能测试床（AGITB），包含十二项严格的测试，构成了评估认知能力的信号处理基础。AGITB通过模型在时间上预测二进制信号的能力进行评估，而不依赖于符号表示或预训练。与扎根于语言或感知的高级测试不同，AGITB侧重于反映生物智能的核心计算不变量，如确定性、敏感性和泛化能力。测试床假定没有先验偏见，独立于语义意义，并通过暴力破解或记忆确保无法解决。虽然人类通过设计可以达到AGITB，但当前的任何AI系统都未能满足其标准，使AGITB成为指导和识别通向AGI进展的重要基准。

发布时间: 5/12/2025

查看原文

AVA: 注意力驱动的VLM智能体，用于掌握星际争霸II

作者: Weiyu Ma, Yuqian Fu, Zecheng Zhang, Bernard Ghanem, Guohao Li

arXiv:2503.05383v4 宣告类型: 修订摘要: 我们介绍了注意力视觉语言模型代理(AVA)，这是一种多模态的StarCraft II代理，它使人工代理的感知与人类游戏体验相一致。传统的框架，如SMAC，依赖于与人类感知差异很大的抽象状态表示，从而限制了代理行为的生态有效性。我们的代理通过引入RGB视觉输入和自然语言观察来解决这一限制，这些观察更贴近人类在游戏过程中认知过程的模拟。AVA架构由三个集成组件构成：(1) 一个增强有专门自注意力机制以进行战略单位目标设定和战场评估的视觉语言模型；(2) 一个检索增强生成系统，利用特定领域的StarCraft II知识来指导战术决策；以及(3) 一个动态角色任务分配系统，使代理能够协同工作。在我们提出的AVACraft环境中，该环境包含21个多元模态的StarCraft II场景，实验评估表明，在以基础模型（具体为Qwen-VL和GPT-4o）为动力的情形下，AVA可以执行复杂的战术机动，而无需显式的训练，其性能与传统的多代理强化学习方法相当，后者需要大量的训练迭代。本工作为开发与人类相匹配的StarCraft II代理奠定了基础，并推进了多元模态游戏AI的更广泛研究议程。我们的实现可在 https://github.com/camel-ai/VLM-Play-StarCraft2 获得。

发布时间: 5/12/2025

查看原文

因果抽象：机制可解释性的理论基础

作者: Atticus Geiger, Duligur Ibeling, Amir Zur, Maheep Chaudhary, Sonakshi Chauhan, Jing Huang, Aryaman Arora, Zhengxuan Wu, Noah Goodman, Christopher Potts, Thomas Icard

arXiv:2301.04709v4 声明类型: 替换摘要: 因果抽象为机械解释性提供了理论基础，机械解释性是关注提供透明且忠实于已知（但不透明的）黑盒AI模型低级细节的可解释算法的研究领域。我们的贡献包括：(1) 将因果抽象的理论从机制替换（即，硬干涉和软干涉）推广到任意机制转换（即将旧机制映射到新机制的功能），(2) 提供了一种灵活且精确的核心概念形式化，包括多义神经元、线性表示假设、模块化特征以及分层忠实性，以及(3) 在因果抽象的共同语言中统一了许多机械解释性方法，包括激活和路径修补、因果中介分析、因果擦除、因果追踪、电路分析、概念删除、稀疏自编码器、差分二元遮蔽、分布式对齐搜索和引导。

发布时间: 5/12/2025

查看原文

让类人机器人徒步行走！在复杂路径上的综合技能开发

作者: Kwan-Yee Lin, Stella X. Yu

arXiv:2505.06218v1 交叉公告类型摘要：在复杂的山径上徒步要求具备平衡、敏捷性和适应性决策能力。当前的人形机器人研究在这方面仍然碎片化且不足：行走主要关注于运动技能，缺乏长期目标或环境意识，而语义导航则忽略了实际世界中的身体存在和局部地形的变异性。我们提出训练人形机器人在复杂的山径上行走，以促进视觉感知、决策和运动执行的综合技能发展。我们开发了一种学习框架LEGO-H，使配备视觉的机器人能够在复杂山径上自主徒步。我们介绍两项技术创新：1）一种时间视变体转换器变种—集成到层次强化学习框架中—预测未来局部目标以引导运动，无缝地将移动与目标导向导航结合。2）关节运动模式的潜在表示结合分层度量学习—增强特权学习方案—使从特权训练到实时执行的策略传递变得平滑。这些组件使LEGO-H能够在不依赖预定义运动模式的情况下应对各种物理和环境挑战。不同模拟山径和机器人形态的实验突显了LEGO-H的多功能性和鲁棒性，将其定位为体现自主性测试的良好平台，并将LEGO-H作为未来人形机器人发展的基准。

发布时间: 5/12/2025

查看原文

基于查询的生物医学研究中文档级科学证据提取

作者: Massimiliano Pronesti, Joao Bettencourt-Silva, Paul Flanagan, Alessandra Pascale, Oisin Redmond, Anya Belz, Yufang Hou

arXiv:2505.06186v1 交叉类型: cross 摘要：从生物医学研究中提取科学证据以回答临床研究问题（例如，干细胞移植是否能改善患有难治性克罗恩病的患者的生活质量，与安慰剂相比？）是综合生物医学证据的关键步骤。在本文中，我们重点研究具有冲突证据的临床问题的文档级科学证据提取任务。为了支持这一任务，我们利用科克伦系统综述中的森林图创建了一个名为CochraneForest的数据集。该数据集包含202个标注的森林图、相关临床研究问题、研究的全文以及研究特定的结论。基于CochraneForest，我们提出了URCA（Uniform Retrieval Clustered Augmentation），一个检索增强生成框架，旨在解决证据提取的独特挑战。我们的实验表明，URCA在该任务上的F1分数上比现有最佳方法高达到10.3%。然而，结果也突显了CochraneForest的复杂性，将其确立为推进自动化证据合成系统的具有挑战性的测试平台。

发布时间: 5/12/2025

查看原文

Turbo-ICL：基于上下文学习的 Turbo 等化

作者: Zihang Song, Matteo Zecchin, Bipin Rajendran, Osvaldo Simeone

arXiv:2505.06175v1 公布类型: cross 摘要：本文介绍了受大规模语言模型（LLMs）启发的一种新颖的上下文学习（ICL）框架，用于编码的多输入多输出（MIMO）系统中软输入软输出信道均衡。所提出的方法能够直接从试点信号和解码器反馈的提示中推断后验符号分布。一个关键创新是使用提示增强，将解码器输出中的外部信息作为附加上下文纳入其中，使ICL模型能够在turbo解码迭代过程中迭代地细化其符号估计。基于Transformer和状态空间架构开发并评估了两种模型变体。广泛的仿真结果显示，当传统的线性假设失效时，例如在低分辨率量化存在的情况下，ICL均衡器始终优于基于模型的传统基线方法，即使后者可以提供完美的信道状态信息也是如此。结果还强调了在训练多样性受限的情况下，基于Transformer模型的优势，以及在资源受限情况下状态空间模型的效率。

发布时间: 5/12/2025

查看原文

MM-Skin：通过源自教材的图文字数据集增强皮肤病视觉语言模型

作者: Wenqi Zeng, Yuqi Sun, Chenxi Ma, Weimin Tan, Bo Yan

arXiv:2505.06152v1 类别: cross 摘要：医疗视觉语言模型（VLMs）已经在各个医学领域显示出作为临床助手的潜力。然而，能够提供专业和详细诊断分析的专门临床皮肤病VLM仍然发展不足，主要原因是当前皮肤病多模态数据集中缺乏特定的文本描述。为了解决这一问题，我们提出了MM-Skin，这是第一个大型皮肤病多模态数据集，涵盖了三种成像模态，包括临床、皮肤镜和病理成像，并收集了近10000对高质量的图像-文本对，这些对来源于专业的教科书。此外，我们还生成了超过27000个多样化的、遵循指令的视觉问答（VQA）样本，数量几乎是当前最大的皮肤病VQA数据集的9倍。利用公共数据集和MM-Skin，我们开发了SkinVL，这是一种针对皮肤疾病精准和细致解释的皮肤病特定VLM。在VQA、监督微调（SFT）和零样本分类任务的跨8个数据集的全面基准评估中，SkinVL在皮肤疾病的性能显著优于通用和医疗VLM模型。MM-Skin和SkinVL的引入为推动临床皮肤病VLM助手的发展做出了有意义的贡献。MM-Skin可在 https://github.com/ZwQ803/MM-Skin 获取。

发布时间: 5/12/2025

查看原文

在固定计算预算下，LLM微调中 token 效率的标度律

作者: Ryan Lagasse, Aidan Kiernans, Avijit Ghosh, Shiri Dori-Hacohen

arXiv:2505.06150v1 宣告类型: cross 摘要: 我们介绍了一种在固定计算预算下微调大规模语言模型 (LLMs) 的缩放定律，该定律明确考虑了数据构成。传统的做法仅通过总令牌数来衡量训练数据，然而，数据集中的样本数量及其平均令牌长度——我们称之为“数据集体积”——在模型性能方面起着决定性的作用。我们的公式是按照现有程序调整的。在对 BRICC 数据集 [salavati2024reducing] 和 MMLU 数据集 [hendrycks2021measuringmassivemultitasklanguage] 的子集进行多策略子采样评估的实验中，显示数据构成显著影响了令牌效率。这些结果促使我们为资源受限环境下的实际 LLM 微调开发更为精细的缩放定律。

发布时间: 5/12/2025

查看原文

开放世界机器人操作的高效觉知运动学习

作者: Yifeng Zhu

arXiv:2505.06136v1 Announce Type: cross 摘要：本论文考虑了开放世界机器人操作问题，这是一个机器人必须将新的对象、场景或任务进行泛化或快速适应的问题，其中机器人并未对其进行预先编程或预训练。本论文通过高效的感觉运动学习方法来解决这一问题。有效的感觉运动学习的关键在于利用存在少量示范数据中的规律模式。这些模式被称为“规律性”，它们使得机器人能够从少量的示范数据中高效地学习可泛化的操作技能。本论文通过规律性的视角提出了操作问题的新框架，并在此基础上引入了三大贡献。首先，本论文提出了一种方法，赋予机器人物中心的先验知识，使其能够从少量的远程操作示范中学习可泛化的闭环感觉运动策略。其次，本论文提出了一种方法，使机器人能够理解空间关系，解锁它们从野生视频观察中模仿操作技能的能力。最后，但同样重要的是，本论文提出了一种方法，使机器人能够识别其以往经验中的可重用技能，从而构建能够按顺序连续模仿多个任务的系统。总体而言，本论文的贡献为构建能够以低成本数据收集快速适应新情况或任务的通用个人机器人奠定了基础，并使其能够与人类轻松交互。通过使机器人能够从少量数据中学习和泛化，本论文朝着实现无缝集成到日常生活场景中的智能机器人助理愿景迈进了一步。

发布时间: 5/12/2025

查看原文