arXiv 论文列表

作者: Chaozheng Wen, Jingwen Tong, Yingdong Hu, Zehong Lin, Jun Zhang

arXiv:2412.04832v4 通告类型: replace-cross 摘要：无线信道建模在设计、分析和优化无线通信系统中扮演着关键角色。然而，开发有效的信道建模方法一直是一个长期挑战。随着下一代网络中网络部署更加密集、天线阵列更大及带宽更宽，这一问题变得更为严重。为应对这一挑战，我们提出了 WRF-GS，一种基于无线辐射场（WRF）重建的新型框架，使用三维高斯点积（3D-GS）进行 WRF 重建。WRF-GS 利用三维高斯原素和神经网络来捕捉环境与无线电波之间的相互作用，从而实现高效的 WRF 重建和传播特性可视化。重建的 WRF 可用于综合无线信道表征的频谱合成。尽管 WRF-GS 显示出显著的效果，但它在捕捉复杂多径效应引起的高度信号变化方面仍存在局限。为克服这些限制，我们提出了一种增强框架 WRF-GS+，将电磁波物理纳入神经网络设计中。WRF-GS+ 利用可变形的三维高斯原素模型无线辐射场的静态和动态成分，显著提高了其表征信号变化的能力。此外，WRF-GS+ 通过简化 3D-GS 模型过程并提高计算效率来增强点积过程。实验结果表明，无论是 WRF-GS 还是 WRF-GS+ 都在空间频谱合成方面优于基准方法，包括射线跟踪及其他深度学习方法。值得注意的是，WRF-GS+ 在接收信号强度指示 (RSSI) 和信道状态信息 (CSI) 的预测任务中达到了最先进的性能，分别超过现有方法 0.7 dB 和 3.36 dB。

发布时间: 3/25/2025

查看原文

实现一个人工量子感知器

作者: Ashutosh Hathidara, Lalit Pandey

arXiv:2412.02083v2 宣告类型: replace-cross 摘要：感知器是神经网络的基本构建块。感知器的灵活性和可扩展性使其在构建智能系统中无处不在。研究表明单一神经元在做出智能决策中具有有效性。在这里，我们研究并比较了两种具有不同机制的感知器，并开发了一种量子版本的其中一个感知器。作为此建模的一部分，我们为人工感知实现了量子电路，生成了一组数据，并模拟了训练过程。通过这些实验，我们展示了指数增长的优势，并测试了不同的量子比特版本。我们的研究结果表明，这种量子感知器可以作为模式分类器使用。对于第二种模型，我们提供了设计和模拟依赖脉冲的量子感知器的理解。我们的代码可在 https://github.com/ashutosh1919/quantum-perceptron 获取。

发布时间: 3/25/2025

查看原文

Beautimeter: 利用 GPT 评估基于生活结构 15 个属性的建筑与城市之美

作者: Bin Jiang

arXiv:2411.19094v3 通知类型: 替换-交叉引用摘要: Beautimeter 是一种由生成预训练变换器 (GPT) 技术驱动的新工具，旨在评估建筑和城市美学。根植于克里斯托弗·亚历山大的中心理论，这项工作基于所有环境在不同程度上都具有内在的生命感这一观点。亚历山大识别出15种基本特性，如尺度层次和厚边界，这些特性表征了生命结构，Beautimeter 以此为基础进行分析。通过整合 GPT 高级自然语言处理能力，Beautimeter 评估建筑结构在多大程度上体现了这15种特性，从而实现对建筑和城市美学的细腻评估。利用 ChatGPT，该工具帮助用户生成对空间感知美和连贯性的洞察。我们进行了一系列案例研究，评估了建筑和城市环境的图像，以及其他艺术品，如地毯和绘画。结果表明，Beautimeter 在各种背景下分析美学品质方面具有有效性。我们的研究结果表明，通过利用 GPT 技术，Beautimeter 为建筑师、城市规划师和设计师提供了一种强大的工具来创造与人们深度共鸣的空间。本文还探讨了此类技术在建筑和城市设计中的影响，突显了其在设计过程和评估建成环境方面的潜在优势。关键词：生命结构，结构美学，克里斯托弗·亚历山大，人工智能在设计中的应用，以人类为中心的设计

发布时间: 3/25/2025

查看原文

GEMeX: 一个大规模、可地面化和可解释的胸部X光诊断医疗VQA基准测试

作者: Bo Liu, Ke Zou, Liming Zhan, Zexin Lu, Xiaoyu Dong, Yidi Chen, Chengqiang Xie, Jiannong Cao, Xiao-Ming Wu, Huazhu Fu

arXiv:2411.16778v2 通告类型: replace-cross 摘要: 医学视觉问答（Med-VQA）将计算机视觉和自然语言处理结合起来，自动回答关于医学影像的临床问题。然而，现有的Med-VQA数据集存在两个显著的局限性：(1) 常常缺乏视觉和文本解释，这妨碍了患者和初级医生的理解；(2) 通常提供的问题格式范围狭窄，不足以反映实际场景中的多样化需求。这些局限性对可靠和用户友好的Med-VQA系统的发展构成了重大挑战。为应对这些挑战，我们介绍了一个针对胸部X射线诊断的大规模、可解释的Med-VQA基准数据集(GEMeX)，并包含几个创新组件：(1) 多模态可解释机制，为每个问题-答案对提供详细的视觉和文本解释，从而增强答案的可理解性；(2) 四种问题类型，开放式、封闭式、单选和多选，以更好地反映实际需求。GEMeX包括151,025张图像和1,605,575个问题，是目前最大的胸部X射线VQA数据集。在GEMeX上对12个代表性大型视觉语言模型（LVLMs）进行评估，显示出了不理想的性能，突显了数据集的复杂性。同时，我们通过在GEMeX训练集上微调现有的LVLM提出了一种强大的模型。显著的性能提升展示了数据集的有效性。基准数据集可在https://www.med-vqa.com/GEMeX获得。

发布时间: 3/25/2025

查看原文

光学流引导的提示优化以实现连贯的视频生成

作者: Hyelin Nam, Jaemin Kim, Dohun Lee, Jong Chul Ye

arXiv:2411.15540v2 宣告类型: 替换-交叉摘要：尽管文本到视频扩散模型取得了显著进展，但在生成具有时间一致性的视频方面仍然面临诸多挑战。在扩散框架中，指导技术在提高推理输出质量方面已显示出有效性；然而，将这些方法应用于视频扩散模型会带来处理整个序列计算的额外复杂性。为了解决这个问题，我们提出了一种名为 MotionPrompt 的新型框架，该框架通过光流引导视频生成过程。具体而言，我们训练一个判别器，使其能够区分真实视频和生成视频中随机帧对之间的光流。由于提示可以影响整个视频，我们通过使用判别器训练过程中应用于随机帧对的梯度，在反向采样步骤中优化可学习的标记嵌入。这种方法使得我们的方法能够生成视觉上连贯且接近自然运动特性的视频序列，而不牺牲生成内容的保真度。我们通过多种模型展示了我们方法的有效性。

发布时间: 3/25/2025

查看原文

自适应智能：借鉴动物适应性行为的见解构建灵活的AI系统

作者: Mackenzie Weygandt Mathis

arXiv:2411.15234v3 更新类型: 替换-交叉摘要：生物学智能是固有的适应性的——动物会根据环境反馈不断调整其行为。然而，创建适应性的人工智能（AI）仍然是一个主要挑战。下一个前沿是超越传统的AI，开发“适应性智能”，这里定义为从生物学智能中汲取灵感，构建能够在线学习、泛化并迅速适应环境变化的代理。近期的神经科学研究提供了灵感，这些研究越来越多地关注动物如何自然学习和适应其世界模型。在本文中，我将回顾适应性生物学智能的行为和神经基础，人工智能的并行进展，并探讨基于大脑的启发式方法来构建更具适应性的算法。

发布时间: 3/25/2025

查看原文

通过投影目标对角中心线性变换的参数高效豹子调谐

作者: Seokil Ham, Hee-Seon Kim, Sangmin Woo, Changick Kim

arXiv:2411.15224v3 宣布类型: replace-cross 摘要：尽管Mamba架构作为Transformer架构潜在替代方案引起了越来越多的兴趣，但针对Mamba架构的参数高效微调（PEFT）方法仍鲜有探索。在我们的研究中，我们介绍了两种基于关键洞察的战略以改进Mamba架构中的PEFT：(1) 尽管状态空间模型（SSMs）一直是Mamba架构的核心基石，并预期在迁移学习中扮演主要角色，但我们的研究发现，投影器（Projectors）而非SSMs是迁移学习中主要的贡献者。(2) 基于我们的观察，我们提出了一种专门针对Mamba架构的新颖PEFT方法：投影器为中心的对角线导向线性变换（ProDiaL）。ProDiaL 方法专注于仅通过对角线导向的线性变换矩阵优化预训练的投影器，以便为新任务进行微调，而不直接微调投影器权重。这种专门化方法能够高效地适应任务，仅使用不到1%的总参数量，并在视觉和语言Mamba模型中均表现出色，突显了其多样性和有效性。

发布时间: 3/25/2025

查看原文

VideoAutoArena：一种通过用户仿真评价大型多模态视频分析模型的自动化擂台

作者: Ziyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li

arXiv:2411.13281v2 宣布类型: replace-cross 摘要：具有高级视频分析能力的大规模多模态模型（LMMs）最近引起了广泛关注。然而，大多数评估依赖于基准指标如 VideoMME 和 LongVideoBench 中的传统方法，如多项选择题，这些方法容易缺乏足够的深度来捕捉实际用户复杂的需求。为了解决这一限制——鉴于视频任务的人工标注成本高昂且进展缓慢——我们引入了 VideoAutoArena，这是一种受 LMSYS Chatbot Arena 框架启发的大规模多模态模型竞技场基准，旨在自动评估 LMMs 的视频分析能力。VideoAutoArena 利用用户模拟生成开放且自适应的问题，严格评估模型在视频理解方面的表现。该基准包含了一个自动化的可扩展评估框架，结合了修改后的 ELO 排名系统，实现了多个 LMMs 的公平且持续的比较。为了验证我们的自动评分系统，我们构建了一个“黄金标准”，使用精心挑选的人工标注子集，证明了我们的竞技场与人类判断高度一致，同时保持了可扩展性。此外，我们引入了一种基于故障的进化策略，逐步增加问题的复杂性，以推动模型处理更复杂的视频分析场景。实验结果表明，VideoAutoArena 有效地区分开目前最先进的 LMMs，提供了关于模型优势和改进领域的见解。为了进一步简化我们的评估，我们引入了 VideoAutoBench 作为辅助基准，在 VideoAutoArena 比赛的子集中，人类注释员标注获胜者。我们使用 GPT-4o 作为法官，将模型的响应与这些经过人类验证的答案进行对比。一起，VideoAutoArena 和 VideoAutoBench 为用户中心的视频分析评估提供了一个成本效益高且可扩展的框架。

发布时间: 3/25/2025

查看原文

ULTra: 揭示基于变换器的理解与分割中潜藏的_token可解释性_

作者: Hesam Hosseini, Ghazal Hosseini Mighan, Amirabbas Afzali, Sajjad Amini, Amir Houmansadr

arXiv:2411.12589v2 Announce Type: replace-cross 摘要：变换器通过自注意力机制革命性地改变了计算机视觉(CV)领域。然而，它们的复杂性使得潜在令牌表示难以解释。我们提出了ULTra框架，旨在解释变换器嵌入并揭示其中有意义的语义模式。ULTra使预训练模型能够在无需微调的情况下实现无监督语义分割。此外，我们提出了一种自我监督的训练方法，通过学习外部转换矩阵来改进分割性能，而不修改底层模型。我们的方法在无监督语义分割上实现了最先进的性能，超越了现有分割方法。此外，我们在合成和真实世界场景上验证了ULTra的模型解释能力，包括对象选择和通过LLMs进行可解释的文本摘要，展示了其在解释潜在令牌表示的语义结构方面的广泛适用性。

发布时间: 3/25/2025

查看原文

ModeSeq: 通过顺序模式建模控制稀疏多模态运动预测

作者: Zikang Zhou, Hengjian Zhou, Haibo Hu, Zihao Wen, Jianping Wang, Yung-Hui Li, Yu-Kai Huang

arXiv:2411.11911v2 宣告类型: replace-cross 摘要：预见未来事件的多模态性为安全自主驾驶奠定了基础。然而，由于缺乏多模态的 ground truth，交通代理的多模态运动预测受到了阻碍。现有工作主要采用胜者全取的训练策略来应对这一挑战，但仍然受到轨迹多样性受限和模式置信度未校准的限制。虽然一些方法通过生成大量的轨迹候选来解决这些限制，但它们需要一个后处理阶段来识别最具代表性的模式，这一过程缺乏普遍原则，从而损害了轨迹准确性。因此，我们引入了 ModeSeq，一种新的多模态预测范式，将模式建模为序列。与一次性解码多个可能轨迹的常见做法不同，ModeSeq 要求运动解码器逐步推断下一个模式，从而更明确地捕捉模式之间的相关性，显著增强了对多模态性的推理能力。借助序列模式预测的归纳偏置，我们还提出了 Early-Match-Take-All (EMTA) 训练策略，以进一步多样化轨迹。无需依赖密集模式预测或启发式后处理，ModeSeq 显著提高了多模态输出的多样性，同时保持了满意的轨迹准确性，结果在运动预测基准上取得了均衡的表现。此外，ModeSeq 自然具备模式外推能力，当未来高度不确定时，它支持预测更多的行为模式。

发布时间: 3/25/2025

查看原文