arXiv 论文列表

作者: Kaiwen Zuo, Yirui Jiang, Fan Mo, Pietro Lio

arXiv:2412.16833v4 宣告类型: 更新摘要: 将大型语言模型（LLMs）融入医疗诊断需要系统性的框架，该框架能够处理复杂的医疗场景同时保持专业化的专门知识。我们提出了 KG4Diagnosis，一种新颖的分层多智能体框架，该框架结合了LLMs与自动知识图谱构建技术，涵盖了362种常见的跨科目的疾病。我们的框架通过两层架构模拟现实世界的医疗系统：一名一般执业医师（GP）智能体用于初步评估和分流，协调各专科智能体进行特定领域的深入诊断。核心创新在于我们端到端的知识图谱生成方法，其中包括：（1）面向医学术语的语义驱动实体和关系提取，（2）从非结构化医学文本中重建多维度决策关系，以及（3）基于人工引导的知识扩展推理。KG4Diagnosis 作为可扩展的基础平台，能够容纳新的疾病和医学知识，具备灵活性以适应特定的医疗诊断系统。该框架的模块化设计使其能够无缝集成特定领域的增强功能，从而使其成为开发针对性医疗诊断系统的重要工具。我们提供了架构指南和协议，以促进其在各种医疗场景中的应用。

发布时间: 4/1/2025

查看原文

超越局部锐度：联邦学习中面向全局锐度的通信高效最小化方法

作者: Debora Caldarola, Pietro Cagnasso, Barbara Caputo, Marco Ciccone

arXiv:2412.03752v2 宣告类型: 替换摘要: 联邦学习（FL）能够在保护隐私的同时实现协作模型训练。边缘设备（客户端）之间的数据异质性可能导致模型收敛到尖锐的极小值，这会对泛化能力和鲁棒性产生负面影响。最近的方法使用客户端尖锐感知最小化（SAM）来鼓励更平坦的极小值，但局部和全局损失景观之间的差异往往会削弱其有效性，因为优化局部尖锐性并不保证全局平坦性。本文提出了一种名为 FedGloSS（联邦全局服务器端尖锐性）的新颖联邦学习方法，该方法在服务器端优先优化全局尖锐性，使用 SAM 实现。为了减少通信开销，FedGloSS 聪明地使用之前的全局梯度近似尖锐性，从而消除额外客户端通信的需要。我们的广泛评估表明，FedGloSS 在各种联邦视觉基准测试中始终能够达到更平坦的极小值和更好的性能，优于现有最先进的联邦学习方法。

发布时间: 4/1/2025

查看原文

_less_: 使用未标注数据从大型语言模型进行知识蒸馏

作者: Juanhui Li, Sreyashi Nag, Hui Liu, Xianfeng Tang, Sheikh Sarwar, Limeng Cui, Hansu Gu, Suhang Wang, Qi He, Jiliang Tang

arXiv:2411.08028v3 宣告类型: 替换摘要: 在实际的NLP应用中，大型语言模型（LLMs）因其在大规模数据集上的广泛训练而提供了有前途的解决方案。然而，LLMs 的庞大体量和高计算需求限制了它们在许多应用中的实用性，特别是在需要进一步微调的情况下。为了解决这些问题，通常倾向于使用较小的模型进行部署。然而，较小模型的训练受到标注数据稀缺性的阻碍。与此相反，未标注数据通常容易获得，可以通过使用LLMs生成伪标签来为较小模型的训练提供支持。这使得较小模型（学生）可以从LLMs（教师）那里获取知识，同时降低了计算成本。这一过程引入了挑战，如潜在的噪音伪标签。因此，选择高质量和具有信息价值的数据对于提高模型性能并改善数据利用效率至关重要。为此，我们提出了LLKD，它是一种适应性的样本选择方法，结合了教师和学生的信息。具体而言，它优先选择教师在其标注中表现出高置信度的样本，表明可靠的标签，并且学生表现出高信息需求，识别出需要进一步学习的具有挑战性的样本。我们的综合实验表明，LLKD 在各种数据集上实现了更好的性能，同时提高了数据效率。

发布时间: 4/1/2025

查看原文

利用多层技能层次结构加速任务泛化

作者: Thomas P Cannon, \"Ozg\"ur Simsek

arXiv:2411.02998v3 公告类型: 替换摘要：在AI研究中，创建能够有效泛化到新任务的强化学习代理是一个关键挑战。本文介绍了一种名为Fracture Cluster Options (FraCOs)的多级层次强化学习方法，该方法在困难的泛化任务上取得了最先进的性能。FraCOs能够识别代理行为中的模式，并根据这些模式预期的未来 usefulness 形成选项，从而实现对新任务的快速适应。在表征设置中，随着层次结构深度的增长，FraCOs展示了有效的迁移并提高了性能。我们在几个复杂的程序生成环境中将FraCOs与最先进的深度强化学习算法进行了评估。我们的结果表明，FraCOs在分布内和分布外性能上都优于竞争对手。

发布时间: 4/1/2025

查看原文

SensorBench：基于传感器处理的LLM基准测试

作者: Pengrui Quan, Xiaomin Ouyang, Jeya Vikranth Jeyakumar, Ziqi Wang, Yang Xing, Mani Srivastava

arXiv:2410.10741v3 宣告类型: 修改摘要：有效处理、解释和管理传感器数据已成为软件-物理系统的关键组成部分。传统上，处理传感器数据需要深厚的专业知识和信号处理工具的熟练掌握。然而，最近的研究表明，大语言模型（LLMs）在处理感测数据方面具有潜力，暗示其作为感测系统开发助理的潜力。为了探索这一潜力，我们构建了一个全面的基准——SensorBench，以建立可量化的客观标准。该基准包含多种实际传感器数据集，用于各种任务。结果表明，虽然LLMs在简单的任务中表现出相当高的专业能力，但在与工程专家相比处理具有参数选择的组合任务时，它们面临固有的挑战。此外，我们研究了四种感测处理的提示策略，并展示了自验证在48%的任务中优于所有其他基线。我们的研究为未来的开发提供了全面的基准和提示分析，铺平了基于大语言模型的感测处理助理的道路。

发布时间: 4/1/2025

查看原文

DeepLTL：学习高效满足复杂LTL规范的多任务RL

作者: Mathias Jackermeier, Alessandro Abate

arXiv:2410.04631v2 公告类型: 代替摘要: 线性时序逻辑（LTL）最近被采纳为在多任务强化学习（RL）中指定复杂、时间延伸任务的强大形式主义。然而，学习能够高效地满足在训练期间未观察到的任意规范的策略仍然是一个具有挑战性的问题。现有方法存在一些不足之处：它们通常仅适用于LTL的有限时间片段，只能提供次优解决方案，并且无法充分处理安全性约束。在本文中，我们提出了一种新的学习方法来解决这些问题。我们的方法利用Büchi自机的结构，Büchi自机明确表示了LTL规范的语义，来学习基于会导致满足所需公式的一系列真值赋值的策略。在各种离散和连续域中的实验表明，我们的方法能够零样本地满足一系列有限时间和无限时间的规范，并且在满足概率和效率方面优于现有方法。代码可在以下网址获得：https://deep-ltl.github.io/

发布时间: 4/1/2025

查看原文

评估大型语言模型中的性别、种族和年龄偏差：职业和犯罪场景的比较分析

作者: Vishal Mirza, Rahul Kulkarni, Aakanksha Jadhav

arXiv:2409.14583v3 公告类型：替换摘要：大型语言模型（LLMs）的最新进展令人瞩目，但由于各种限制，广泛的商业采用仍然有限。本文探讨了LLMs中的偏差问题——这一问题对它们的易用性、可靠性和公平性产生了影响。研究人员正在开发减轻偏差的策略，包括去偏差层、专门的参考数据集（如Winogender和Winobias）以及带有人类反馈的强化学习（RLHF）。这些技术已被集成到最新的LLM中。我们的研究评估了四款2024年发布的领先LLM中性别偏差的职业场景，并评估了性别、年龄和种族偏差的犯罪场景：Gemini 1.5 Pro、Llama 3 70B、Claude 3 Opus和GPT-4o中的偏差。研究结果发现，LLMs在各种职业场景中经常描绘女性角色的频率高于男性角色，偏差达到美国劳工统计局数据的37%。在犯罪场景中，性别偏差为54%，种族偏差为28%，年龄偏差为17%。我们观察到，减少性别和种族偏差的努力往往可能导致某一小类对象的过度代表性，这可能加剧问题。这些结果凸显了现有偏差缓解技术的局限性，并强调需要更有效的方法。

发布时间: 4/1/2025

查看原文

AI 在软组织和骨肿瘤放射成像中的应用：一项根据 CLAIM 和 FUTURE-AI 标准进行的系统评价

arXiv:2408.12491v2 通知类型: 替换摘要: 软组织和骨肿瘤（STBT）是一种罕见的、诊断具有挑战性的病变，具有变异的临床行为和治疗策略。本系统评价提供了使用放射影像学的人工智能（AI）方法在这些肿瘤的诊断和预后中的概述，突出了临床转化中的挑战，并评估了研究与《医学影像中人工智能检查表》（CLAIM）和《FUTURE-AI国际共识指南》的一致性，以促进可信赖且可部署的AI在临床中的转化。该评论涵盖了几个文献数据库中的文献，包括截至2024年7月17日之前发表的论文。纳入标准为在同行评审期刊上发表、基于影像学的人工智能（AI）进行软组织和骨肿瘤诊断或预后的原始研究。排除标准为动物、遗体或实验室研究以及非英语论文。两个独立的审稿人筛查摘要以确定其是否符合纳入标准。符合条件的论文由三个独立审稿人之一进行评估。搜索识别了15,015篇摘要，其中325篇文章被纳入评估。大多数研究在CLAIM方面的表现较为一般，平均得分为28.9±7.5/53，但在FUTURE-AI方面表现较差，平均得分为5.1±2.1/30。软组织和骨肿瘤的成像-AI工具仍处于概念验证阶段，表明有显著改进的空间。未来，AI开发者应聚焦于设计（例如，定义未满足的临床需求、预期的临床应用环境以及AI如何融入临床工作流程）、开发（例如，借鉴先前的工作，提高可解释性）、评估（例如，评估并解决偏见，评估AI与最佳实践之间的差距）以及数据的可复现性和可用性（例如，公开发布详细代码和数据）。遵循这些建议可以提高人工智能方法在临床中的转化。

发布时间: 4/1/2025

查看原文

MAQA：评估LLM在数据不确定性方面的不确定性量化能力

作者: Yongjin Yang, Haneul Yoo, Hwaran Lee

arXiv:2408.06816v2 宣告类型: 替换摘要：尽管大规模语言模型（LLMs）取得了巨大的进步，它们仍然会产生合理但不正确的回复。为了提高LLMs的可靠性，最近的研究重点在于不确定性量化，以预测回复是否正确。然而，大多数不确定性量化方法都是在单一标签的问题上进行评估的，这去除了数据不确定性：用户查询中固有的不可减少的随机性，这种随机性可以源自多种可能的答案等因素。这一限制可能使得在实际应用中不确定性量化的结果不可靠。在本文中，我们在数据不确定性存在的情况下调查了先前的不确定性量化方法。我们的贡献主要有两点：1）提出一个新的多答案问题回答数据集MAQA，该数据集包含世界知识、数学推理和常识推理任务，用于评估数据不确定性方面的不确定性量化；2）评估了5种不同白盒和黑盒LLM的5种多样性不确定性量化方法。我们的研究发现，与单一答案设置相比，以前的方法在某些任务上相对较弱，但这因任务而异。此外，我们观察到基于熵和一致性的方法即使在数据不确定性存在的情况下也能有效地估计模型不确定性。我们相信这些观察将指导未来在更现实场景下进行不确定性量化的工作。

发布时间: 4/1/2025

查看原文

ShapG：基于Shapley值的新型特征重要性方法

作者: Chi Zhao, Jing Liu, Elena Parilina

arXiv:2407.00506v2 宣告类型: 替换摘要: 随着人工智能（AI）的广泛应用，使AI系统决策具有可解释性和透明性变得尤为重要。本文提出了一种新的可解释人工智能（XAI）方法，称为ShapG（基于图的Shapley值解释），用于衡量特征重要性。ShapG是一种模型无关的全局解释方法。第一阶段，根据特征之间的相关系数计算定义一个无向图，节点表示特征，边则根据特征之间相关系数的计算添加。第二阶段，通过考虑这种图结构对数据进行采样，计算近似Shapley值。ShapG的采样方法使得能够高效地计算特征的重要性，即减少计算复杂度。与其他现有XAI方法的比较显示，它为两个检查的数据集提供了更准确的解释。我们还比较了基于合作博弈理论开发的其他XAI方法与ShapG的运行时间，结果显示ShapG在运行时间方面表现出明显的优势，进一步证明了ShapG的效率。此外，广泛的实验表明，ShapG方法广泛适用于解释复杂模型。我们发现ShapG是一种改进AI系统可解释性和透明性的有力工具，并且认为它可以广泛应用于各个领域。

发布时间: 4/1/2025

查看原文