arXiv 论文列表

作者: Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin

arXiv:2503.18968v1 通知类型: 新摘要: 开发出可靠的AI系统以协助人类临床医生进行多模态医疗诊断一直是研究人员的重要目标。最近，多模态大型语言模型（MLLMs）获得了广泛关注并在多个领域取得了成功。凭借强大的推理能力以及根据用户指令执行多种任务的能力，它们在增强医疗诊断方面具有巨大的潜力。然而，直接将MLLMs应用于医疗领域仍然存在挑战。它们缺乏对视觉输入的详细感知能力，限制了它们执行定量图像分析的能力，而定量图像分析对医疗诊断至关重要。此外，MLLMs在推理方面经常表现出幻觉和不一致，而临床诊断必须严格遵守已确立的标准。为了解决这些挑战，我们提出了一种基于证据的推理代理系统MedAgent-Pro，旨在实现可靠的、可解释的和精确的医疗诊断。这通过分层工作流程实现：在任务层面，基于知识的推理生成遵循检索到的临床标准的可靠诊断计划。而在病例层面，多个代理工具处理多模态输入，根据计划分析不同的指标，并根据定量和定性证据提供最终诊断。在2D和3D医疗诊断任务上的全面实验表明了MedAgent-Pro的优越性和有效性，而案例研究进一步突显了其可靠性和可解释性。代码可在https://github.com/jinlab-imvr/MedAgent-Pro获得。

发布时间: 3/26/2025

查看原文

通过概率工程推动深度学习：一种现代AI的实用范式

作者: Jianyi Zhang

arXiv:2503.18958v1 声明类型: 新摘要: 近年来，深度学习取得了迅速进展，使我们更接近通用人工智能(AGI)的实现。概率建模是这些进展的关键，为捕捉数据分布提供了基础框架。然而，随着AI应用规模和复杂性的增长，传统概率建模面临着越来越大的挑战，如高维参数空间、异构数据源以及不断演变的实际需求，常常使得经典方法缺乏足够的灵活性。本文提出了一种新的概念——概率工程，将深度学习中已经学习到的概率分布视为工程产物。我们不仅适配或推断分布，还积极修改和强化这些分布，以更好地满足现代AI多样性且不断变化的需求。具体而言，概率工程引入了新型技术和约束条件，以改进现有概率分布，提高其鲁棒性、效率、适应性或可靠性。我们通过一系列应用展示了这一范式，涵盖了贝叶斯深度学习、边缘AI（包括联邦学习和知识蒸馏）以及生成AI（如扩散模型中的图文生成以及大规模语言模型中的高质量文本生成）。这些案例研究展示了如何将原本被视为静态对象的概率分布工程化，以满足大规模、数据密集且可信的AI系统的需求。通过系统地扩展和加强概率建模的作用，概率工程为当今快速发展的AI时代提供了更稳健、适应性强、高效且可信的深度学习解决方案。

发布时间: 3/26/2025

查看原文

没有表示的未来AI在何处？

作者: Vincent C. M\"uller

arXiv:2503.18955v1 通告类型: 新摘要：本文探讨了通用人工智能中无需表示的可能性，特别是探讨了 Rodney Brooks 提出的主张。Rodney Brooks 提出的主张的特点是对智能代理中的中心控制的拒绝；他的系统具有与传统人工智能相同量的表示或不具备表示。传统认为，表示对于智能是必要的这一观点假设了智能需要中心控制。然而，近年来的认知科学表明，我们应该摒弃将智能代理视为中心表示处理器的形象。如果这种范式转变能够实现，那么 Brooks 对无中心控制且无需表示的智能代理所提出的主张很可能会为全面智能代理提供前景——尽管这些主张不适用于有意识的代理，也不适用于类似人类的人工智能。

发布时间: 3/26/2025

查看原文

DiTEC-WDN：多水分布网络中的大规模 Hydraulic 情景数据集

作者: Huy Truong, Andr\'es Tello, Alexander Lazovik, Victoria Degeler

arXiv:2503.17167v2 宣告类型: replace-cross 摘要：隐私限制阻碍了真实世界水管网络（WDN）模型的共享，限制了新兴数据驱动机器学习的应用，这些机器学习方法通常需要大量的观察数据。为了应对这一挑战，我们提出了包含36,000个独特场景的数据集DiTEC-WDN，这些场景在短期（24小时）或长期（一年）期间进行了模拟。我们使用了一个自动化的工作流来优化关键参数（例如压力、流量和需求模式），促进大规模模拟，并通过规则验证和事后分析记录了在标准条件下的离散、合成但符合水力现实状态的图状状态。DiTEC-WDN总共生成了2.28亿个图基状态，可以支持各种机器学习任务，包括图级别、节点级别和连接级别回归，以及时间序列预测。该贡献在公共许可证下发布，鼓励了水关键领域中的开放科学研究，消除了暴露敏感数据的风险，并满足了研究比较和场景分析所需的大规模水管网络基准数据集的需求。

发布时间: 3/25/2025

查看原文

LaMOuR: 利用语言模型进行强化学习的分布外恢复

作者: Chan Kim, Seung-Woo Seo, Seong-Woo Kim

arXiv:2503.17125v2 宣告类型: 替换交叉摘要：深度强化学习（DRL）在机器人控制方面展示了强大的性能，但在面对离分布（OOD）状态时仍表现出脆弱性，通常会导致不可靠的动作和任务失败。虽然先前的方法主要集中在最小化或防止OOD状态的发生，但它们在代理遇到此类状态时的恢复能力上却很少有所考虑。尽管最新的研究试图通过引导代理返回到分布内状态来解决这一问题，但它们对不确定性估计的依赖限制了其在复杂环境中的可扩展性。为克服这一局限性，我们提出了离分布恢复的语言模型（LaMOuR），它能够在不依赖不确定性估计的情况下实现恢复学习。LaMOuR 生成密集的奖励代码，以引导代理返回到一个可以成功完成其原始任务的状态，利用 LVLM 在图像描述、逻辑推理和代码生成方面的功能。实验结果显示，LaMOuR 显著提高了在各种运动任务中的恢复效率，并且在其能够有效泛化到复杂环境，包括类人运动和移动操作方面，也表现出了优势，而现有的方法在这些环境中表现不佳。代码和补充材料可在 https://lamour-rl.github.io/ 获取。

发布时间: 3/25/2025

查看原文

VeriMind: 具有新型评价指标的自动Verilog生成代理大语言模型

作者: Bardia Nadimi, Ghali Omar Boutaib, Hao Zheng

arXiv:2503.16514v2 宣告类型: replace-cross 摘要: 设计 Verilog 模块需要对正确性、效率和设计规范的严格关注。然而，手动编写 Verilog 代码仍然是一项复杂且耗时的任务，需要专家知识和反复的完善。利用最近在大型语言模型 (LLMs) 及其结构化文本生成能力方面的进展，我们提出了一种名为 VeriMind 的代理 LLM 框架，用于显著自动化和优化 Verilog 代码的生成过程。与传统的基于 LLM 的代码生成器不同，VeriMind 采用了一种结构化推理方法：在生成最终的 Verilog 代码之前，系统首先形成详细的思想过程。这种多步方法增强了硬件设计的可解释性、准确性和适应性。此外，我们引入了一个新颖的评估指标 pass@ARC，该指标结合了传统的 pass@k 测量方法与平均改进循环次数 (ARC) 以捕捉成功率和迭代改进的效率。在多样化的硬件设计任务上的实验结果表明，我们的方法在 pass@k 指标上实现了高达 8.3% 的改进，在 pass@ARC 指标上实现了 8.1% 的改进。这些发现凸显了代理 LLM 在自动硬件设计、RTL 开发和数字系统综合中的变革潜力。

发布时间: 3/25/2025

查看原文

优化生成AI在归纳主题分析中的准确性和透明度：人类与AI的比较

作者: Matthew Nyaaba, Min SungEun, Mary Abiswin Apam, Kwame Owoahene Acheampong, Emmanuel Dwamena

arXiv:2503.16485v2 宣告类型: replace-cross 摘要：本研究强调了GenAI归纳主题分析的透明度和准确性，特别是在GPT-4 Turbo API被集成到逐步提示的Python脚本中时。这种方法确保了可追溯和系统化的编码过程，生成带有支持陈述和页码引用的编码，从而增强了验证性和可重复性。结果表明，GenAI在进行归纳编码时，方式与人类编码员极为相似，能够有效地将主题分类到与一般人类编码员相当的水平。然而，在解释方面，GenAI超越了人类编码员，将主题置于更广泛的概念框架内，提供了更为普遍和抽象的视角。

发布时间: 3/25/2025

查看原文

人类-人工智能交互设计标准

作者: Chaoyi Zhao, Wei Xu

arXiv:2503.16472v2 通知类型: replace-cross 摘要：人工智能（AI）的快速发展已显著改变人机交互方式，建立稳健的设计标准以确保有效的、伦理的和以人为中心的人工智能（HCAI）解决方案变得至关重要。标准是新技术采用的基础，而人机交互（HAII）标准对于通过HCAI方法支持人工智能技术的工业化具有重要意义。这些设计标准旨在为设计、开发、部署和使用AI系统提供清晰的原则、要求和指南，从而增强AI系统的用户体验和性能。尽管它们至关重要，但在基于HCAI的交互设计标准的创建和采用过程中仍面临挑战，包括缺乏通用框架、HAII固有的复杂性以及在这些系统中出现的伦理困境。本章提供了HAII与传统人机交互（HCI）的比较分析，并概述了基于HCAI的设计指导原则。从HCAI视角探讨了相关国际、区域、国家和行业的HAII设计标准，并回顾了微软、谷歌和苹果等领先公司发布的设计指南。此外，本章还突出了实施HAII标准可用的工具，并阐述了涉及不同领域（包括医疗保健、自主车辆和客户服务）的AI系统以人为中心交互设计案例研究。进一步探讨了开发HAII标准中的关键挑战，并建议了该领域的未来发展方向。强调必须继续在AI设计师、开发人员和人因与HCI专家之间的合作，本章强调了为进一步确保各领域的人本AI解决方案而推进基于HCAI的交互设计标准的重要性。

发布时间: 3/25/2025

查看原文

无物，无：突出安全关键类别以提高恶劣天气下LiDAR语义分割的鲁棒性

作者: Junsung Park, Hwijeong Lee, Inha Kang, Hyunjung Shim

arXiv:2503.15910v2 宣告类型: 替换-交叉摘要：现有的LiDAR语义分割 adverse weather条件下的领域泛化方法，在预测"things"类别时不如预测"stuff"类别准确。在典型的驾驶场景中，"things"类别往往是动态的，并且与更高的碰撞风险相关，因此它们对于安全导航和规划至关重要。认识到"things"类别的重要性，我们将它们的性能下降视为现有方法的一个严重瓶颈。我们观察到，恶劣天气会导致语义级别的特征退化，同时破坏局部特征，导致"things"被错误地预测为"stuff"。为了减轻这些破坏，我们建议我们的方法——NTN - segment Things for No-accident。为了解决语义级别的特征破坏，我们将每个点特征与其 superclass 相关联，防止将"things"类错误预测为视觉上不相似的类别。此外，为了增强对由恶劣天气引起的局部破坏的鲁棒性，我们将每个LiDAR束定义为一个局部区域，并提出了一种正则化项，该项在特征空间中将干净数据与其被破坏的对应数据对齐。NTN在SemanticKITTI-to-SemanticSTF基准测试中实现了最先进的性能，mIoU提高了2.6分，在SemanticPOSS-to-SemanticSTF基准测试中提高了7.9分。值得注意的是，NTN在"things"类别上的mIoU分别提高了4.8分和7.9分，突显了其有效性。

发布时间: 3/25/2025

查看原文

使用深度强化学习进行群体电池更换以主动管理无线传感器网络中的电池退化

作者: Jong-Hyun Jeong, Hongki Jo, Qiang Zhou, Tahsin Afroz Hoque Nishat, Lang Wu

arXiv:2503.15865v2 通告类型: replace-cross 摘要：无线传感器网络（WSNs）已经成为结构健康监测（SHM）的一个有希望的解决方案，特别是在难以到达或偏远的位置。电池供电的WSNs相较于有线系统提供了多种优势，然而，电池寿命有限一直是WSNs在实际应用中的最大障碍之一，无论采用何种能量 Harvest 方法。尽管已经研究了各种方法来进行电池健康管理，但现有方法仅专注于延长单个电池的寿命，缺乏系统的整体视角。应用这些方法的一个后果是，WSNs中的电池倾向于在不同的时间失败，这在电池更换计划和调度方面提出了重大困难。本研究探讨了一种基于深度强化学习（DRL）的方法，通过在系统级别优化WSNs的运行周期来积极管理电池退化。这种主动管理策略有效减少了单个电池的早期失效，从而使电池组更换成为可能，而不牺牲WSNs的性能。基于真实WSN设置开发了一个模拟环境来训练DRL代理并学习最优的运行周期策略。通过长时间的设置和不同网络规模进行验证，证明了该策略的有效性和可扩展性。

发布时间: 3/25/2025

查看原文