arXiv:2504.20930v1 通知类型: 新
摘要: 近年来,在推理增强的大语言模型(LLMs)和多模态大语言模型(MLLMs)方面的进展显著提高了复杂任务的性能,但医疗AI模型往往忽略了临床实践中固有的结构化推理过程。在本研究中,我们介绍了一种用于放射学诊断的MLLM,称为ChestX-Reasoner,它旨在利用直接从临床报告中挖掘的过程监督,反映放射科医生遵循的逐步推理过程。我们通过从常规放射学报告中提取和提炼推理链构建了一个大型数据集。我们的两阶段训练框架结合了监督微调和由过程奖励引导的强化学习,以更好地使模型的推理与临床标准相一致。我们引入了RadRBench-CXR,这是一个包含59,000个视觉问答样本和301,000个临床验证推理步骤的综合基准,并提出了RadRScore,这是一个评估推理事实性、完整性和有效性的度量标准。ChestX-Reasoner在诊断准确性和推理能力方面分别优于现有医疗和一般领域的大语言模型,相比最佳医疗大语言模型、最佳通用大语言模型及其基模型,其推理能力分别提高了16%、5.9%和18%,在结果准确率方面分别提高了3.3%、24%和27%。所有资源均已开源,旨在促进对医疗推理大语言模型进一步研究。
arXiv:2504.20924v1 安全类型: 新
摘要: 确保人工智能系统的安全已成为实际部署中的一项关键优先事项,特别是在物理人工智能应用中。当前的人工智能安全方法通常针对预定义的特定领域安全条件,限制了它们在不同情境下的泛化能力。
我们提出了一种新的人工智能安全框架,该框架确保人工智能系统遵守**任何用户定义的约束**,以**任何期望的概率**,并且在**各种领域**中均有效。
在该框架中,我们将一个人工智能组件(例如,神经网络)与一个优化问题结合起来,以产生同时最小化目标并满足用户定义约束的概率超过用户定义阈值的响应。为了验证人工智能组件的可信度,我们提出了一种**内部测试数据**,即一个补充的安全标记数据集,以及一种**保守的测试方法**,可为使用内部测试数据提供统计有效性。我们还介绍了一种损失函数的近似方法及其梯度的计算方法。
我们从特定的轻微条件下证明了概率约束满足是可以得到保证的,并证明了安全性和内部测试数据数量之间的标度法则。我们通过在不同领域中的实验展示了该框架的有效性:生产决策中的需求预测、SafetyGym模拟器中的安全强化学习以及保护人工智能聊天机器人输出。通过这些实验,我们证明了我们的方法可以确保满足用户指定的约束的安全性,在低安全门槛区域可显著超越现有方法(在多个数量级上),并且与内部测试数据的数量成有效比例地扩展。
arXiv:2504.20921v1 公告类型: 新
摘要: 由于隐私问题,获取高质量的医疗数据经常受到限制,这对在电子健康记录(EHR)应用中训练人工智能(AI)算法构成了重大挑战。在此研究中,使用GPT-4 API进行了提示工程技术,生成了高质量的合成数据集,旨在克服这一限制。生成的数据涵盖了患者入院的全面信息,包括医疗服务提供者详情、医院部门、病区、床位分配、患者人口统计信息、紧急联系人、生命体征、疫苗接种记录、过敏史、医疗历史、预约、医院访问、实验室测试、诊断、治疗计划、药物、临床笔记、访问日志、出院总结和转诊。为了确保数据质量与完整性,实施了先进的验证技术,使用了如BERT的下一句预测进行句子连贯性验证,GPT-2进行整体可行性验证,RoBERTa进行逻辑一致性验证,自动编码器进行异常检测,并进行了多样性和分析。符合所有验证标准的合成数据被整合到一个全面的PostgreSQL数据库中,作为EHR应用程序的数据管理系统。这种方法表明,利用严格的验证生成AI模型可以有效地生成高质量的合成医疗数据,有助于训练AI算法,同时解决与真实患者数据相关的隐私问题。
arXiv:2504.20898v1 生成类型: 新
摘要:生成人工智能(AI)的进步为自动化放射学工作流带来了巨大的潜力,但可解释性和可靠性方面的挑战阻碍了临床应用。本文提出了一种结合概念瓶颈模型(CBMs)和多智能体检索增强生成(RAG)系统的自动化放射学报告生成框架,以弥合AI性能与临床解释性之间的差距。CBMs将胸片特征映射到人类可理解的临床概念,使疾病分类变得透明。同时,RAG系统结合了多智能体协作和外部知识,生成丰富上下文、基于证据的报告。我们的演示展示了该系统交付可解释预测、减轻幻觉、生成高质量、个性化报告的能力,并通过交互式界面解决准确性、信任度和可用性挑战。该框架为提高诊断一致性并为放射科医生提供可行动见解提供了途径。
arXiv:2504.20879v1 宣告类型: 新
摘要: 量化进步是任何科学研究前进的基础。随着基准测试占据越来越核心的角色,它们也变得更加容易受到扭曲的影响。Chatbot Arena 已经成为排名最强大人工智能系统的首选排行榜。然而,在这项工作中,我们发现了导致扭曲比赛场的因素。我们发现,未披露的私人测试实践有利于少数提供者,在公开发布前可以测试多个变体,并在必要时收回成绩。我们证明了这些提供者选择最佳成绩的能力导致了由于选择性披露性能结果而产生的偏向 Arena 成绩。在极端情况下,我们发现 Meta 在 Llama-4 发布前测试了 27 种私人 LLM 变体。我们还证明了专有封闭模型在比赛中被抽样的频率(场数)高于开放权重和开源替代品,并且被从竞技场中移除的模型较少。这两种政策导致了长时间的数据访问不对称。像 Google 和 OpenAI 这样的提供者分别占据了所有竞技场数据的 19.2% 和 20.4%。相比之下,合计只有 83 个开放权重模型占据了总数据的大约 29.7%。我们展示了对 Chatbot Arena 数据的访问带来了显著的好处;即使是有限的额外数据也能基于我们保守的估计,在竞技场分布中带来高达 112% 的相对性能提升。这些动态导致了对竞技场特定动态的过度拟合,而不是一般的模型质量。Chatbot Arena 建立在组织者和维护这一有价值的评估平台的开源社区的巨大努力之上。我们提出了具体建议来改革 Chatbot Arena 的评估框架,并推动更为公平和透明的基准测试,以促进该领域的进步。
arXiv:2504.20846v1 宣告类型: 新
摘要: 我们考虑使用未被聚类算法使用的辅助信息来对来自各种数据集的聚类进行事后解释。按照之前工作的术语,我们将辅助信息称为标签。我们的重点是两种形式的解释,即析取范式(析取范式的解释由一个标签集合组成)和两元合取范式(CNF)解释(解释由两个标签集合组成,通过 AND 操作符结合)。我们使用整数线性规划(ILP)以及启发式方法来生成这些解释。我们使用各种数据集进行实验,并讨论从我们的解释中获得的见解。我们还展示了我们的解释方法在可扩展性方面的实验结果。
arXiv:2504.20828v1 宣布类型: 新
摘要:大规模语言模型(LLMs)的迅速发展推动了更高效服务策略的需求。在此背景下,效率指的是满足其服务水平目标(SLOs)的请求的比例,特别是对于首个令牌时间(Time To First Token,TTFT)和令牌时间间隔(Time Between Tokens,TBT)。然而,现有的系统通常会以牺牲一项指标为代价来优先考虑另一项指标。我们提出了Ascendra,这是一种设计用于同时满足TTFT和TBT SLOs的大规模语言模型服务系统。Ascendra背后的核心见解是,请求的紧迫性会随着接近其截止日期而演变。为利用这一点,Ascendra将GPU资源划分为两类实例:低优先级和高优先级。低优先级实例通过按到达顺序处理请求来最大化吞吐量,但存在请求饿死的风险。为了解决这一问题,Ascendra采用了一种性能模型来预测可能无法满足SLOs的请求,并主动将这些请求卸载到高优先级实例中。高优先级实例则优化了低延迟执行,并处理接近其截止日期的紧急请求。这种分区架构使Ascendra能够有效地平衡高吞吐量和低延迟。广泛的评估显示,与vLLM和Sarathi-Serve相比,Ascendra不仅提高了系统吞吐量最多1.7倍,还能同时满足TTFT和TBT的SLOs。
arXiv:2504.20797v1 通知类型: 新
摘要: 当前主流的深度学习技术过度依赖大量训练数据,并且缺乏对动态世界的变化适应能力,这与人类智能存在明显的差距。为了弥合这一差距,少样本类别增量学习(Few-Shot Class-Incremental Learning,FSCIL)应运而生,它专注于在有限样本的情况下学习新的类别,同时不忘旧的知识。现有的FSCIL研究通常使用单一模型在所有会话中学习知识,不可避免地导致稳定性-可塑性困境。与机器不同,人类在不同的大脑皮层存储不同的知识。受此启发,我们论文的目标是开发一种方法,为每个会话学习相互独立的模型,从而自然地防止灾难性遗忘。在测试阶段,我们的方法整合不确定性量化(Uncertainty Quantification,UQ)进行模型部署。我们的方法为FSCIL提供了一个新的视角,并在CIFAR-100和mini-ImageNet数据集上展示了最先进的性能。
arXiv:2504.20784v1 宣告类型: 新
摘要: 概率关系模型,如参数因子图,通过利用对象的不可区分性来实现高效的(提升)推理。在提升推理中,使用不可区分对象的代表进行计算。为了获得关系(即,提升)表示,高级颜色传递(ACP)算法是当前的最佳选择。然而,ACP算法要求潜在分布,这些潜在分布被编码为基于势的因素分解,必须精确匹配以识别和利用不可区分性。因此,ACP在实际应用中并不适用,因为在这些应用中,即使相关的对象是不可区分的,从数据中学到的潜在分布不可避免地会有所偏差。为缓解这一问题,我们引入了ε-高级颜色传递(ε-ACP)算法,该算法允许势函数在超参数ε的范围内有所偏差。ε-ACP有效地揭示并利用了不是精确的不可区分性。我们证明了由ε-ACP引起的近似误差是严格有界的,而我们的实验表明,在实践中,近似误差接近于零。
arXiv:2504.20756v1 通知类型: 新
摘要:本文提出了一种基于图的新颖框架,用于旋转机械中的鲁棒且可解释的多类故障诊断。该方法结合了熵优化的信号分段、时频特征提取和图理论建模,将振动信号转换为适合分类的结构化表示。计算了诸如平均最短路径长度、模块性和谱隙等图指标,并与局部特征相结合,以捕获全局和段级故障特征。在对CWRU轴承数据集(在0-3马力负载下)和东南大学齿轮箱和轴承数据集(在不同速度负载配置下)进行评估时,所提出的方法实现了很高的诊断准确性。使用逻辑回归分类器时,CWRU数据集的分类得分为99.8%,东南大学数据集的分类得分为100%。此外,该模型表现出强大的噪声鲁棒性,在高噪声级别(标准差=0.5)下保持超过95.4%的准确率,并在负载转移场景中展示了出色的跨域可转移性,F1得分高达99.7%。与传统技术相比,此方法不需要深度学习架构,从而实现更低的复杂性并确保可解释性。结果证实了该方法的可扩展性、可靠性,并且具有在工业诊断中实时部署的潜力。