arXiv:2502.04408v1 交叉公告类型
摘要:放射治疗是癌症治疗中至关重要的手段,需要精确规划以平衡肿瘤消除和健康组织的保护。传统的治疗规划(TP)是一个迭代、耗时的过程,并且依赖于人类的专业知识,这可能会引入变异性并导致低效性。我们提出了一种新的框架,通过少量样本强化学习(RL)方法将一个大型多模态基础模型(MLM)转变为治疗规划(TP)的动作模型。我们的方法利用MLM广泛存在的关于物理、辐射和解剖学的知识,并通过少量样本学习过程对其进行增强。这使得模型能够使用蒙特卡洛模拟器迭代地改进治疗计划。我们的结果显示,该方法在质量和效率上都优于传统的基于RL的方法,在前列腺癌数据的模拟中实现了更高的奖励得分和更理想的剂量分布。该概念验证表明,将高级AI模型整合到临床工作流中具有潜在的前景,可能提高放疗治疗规划的速度、质量和标准化程度。
arXiv:2502.04407v1 类型: cross
摘要: 空间布局设计(SLD)发生于建筑设计的早期阶段,却能够影响最终建筑的功能和美学。SLD的复杂性需要创新的方法来高效地探索庞大的解决方案空间。尽管基于图像的生成AI已作为潜在解决方案出现,但它们往往依赖于基于像素的空间组成方法,缺乏对建筑设计过程的直观表示。本文利用深度强化学习(Reinforcement Learning, RL),因为它提供了一种直观地模拟人类设计师过程的程序化方法。有效使用RL进行SLD需要一个探究性的空间组成方法来生成理想的建筑设计解决方案。我们引入了“激光墙”这一新颖的空间分区方法,将墙体概念化为发射想象中的光束的发射器以对空间进行分区。这种方法将基于矢量的和基于像素的分区方法结合起来,提供了生成多种布局的灵活性和探索性。我们提出了两种规划策略:一次性规划,可以一次性生成整个布局;动态规划,可以在不断变化激光墙的过程中实现自适应细化。此外,我们引入了光墙和暗墙的变换以实现平滑快速的布局细化,并提出了无身份和有身份墙体以实现灵活的房间分配。我们开发了SpaceLayoutGym,这是一个开源兼容OpenAI Gym的模拟器,用于生成和评估空间布局。RL代理处理输入的设计场景,并根据一个平衡几何和拓扑要求的奖励函数生成解决方案。我们的结果表明,基于RL的激光墙方法可以生成既多样化又功能性的空间布局,满足几何约束和拓扑要求,并且具有直观的建筑意义。
arXiv:2502.04406v1 Announce Type: 交叉
摘要:神经偏微分方程(Neural PDEs)为模拟复杂物理系统提供了比计算密集型数值偏微分方程求解器更有效的替代方案。然而,它们缺乏稳健的不确定性量化(UQ)方法限制了其在关键应用中的部署。我们引入了一种模型无关、基于物理的保凹预测(CP)框架,该框架能够在不需要标记数据的情况下提供有保证的不确定性估计。通过利用基于物理的方法,我们能够量化和校准模型与偏微分方程的一致性问题,而不是数据引起的不确定性。该方法使用卷积层作为有限差分模板,并利用物理残留误差作为非一致性评分,从而能够在各种复杂偏微分方程的预测域中实现数据无关的不确定性量化,并提供边缘和联合覆盖率保证。我们还通过验证神经偏微分方程模型在等离子体建模和聚变反应堆的放电设计中的有效性进一步证明了该方法的效果。
arXiv:2502.04405v1 类型: cross
摘要: 静态脉冲大语言模型在各种场景中被证明是大语言模型(LLMs)的很好替代方案。现有的创建静态脉冲大语言模型(Spiking LLMs)的方法,即直接训练和ANN-SNN转换,往往面临着性能下降和相对较高的计算成本问题。为了解决这些问题,我们提出了一种新的快速ANN-SNN转换策略(FAS),该策略通过两个阶段将LLMs转换为脉冲LLMs。第一阶段使用预训练模型的全参数微调,因此不需要从头开始的直接训练。第二阶段引入了一种粗到细的校准方法,以减少转换错误和提高准确性。我们在不同规模的LLMs上的语言和跨模态任务实验中证明,FAS可以在显著降低推理延迟和计算成本的同时实现最先进的性能。例如,FAS只需8个时间步就可以实现比OPT-7B模型高3%的准确率,同时减少能耗96.63%。
arXiv:2502.04404v1 宣告类型:交叉
摘要:将慢思考机制整合到大型语言模型(LLMs)中,为实现具备水平2的AGI推理器提供了一条有希望的途径,例如OpenAI的o1系统。然而,仍然存在几个重大挑战,包括无效的过度思考和过度依赖辅助奖励模型。我们指出,这些限制源自LLMs无法内化搜索过程,这是有效推理的一个关键组成部分。解决这一问题的关键一步是使LLMs能够自主决定何时以及在何处回退,这是传统搜索算法中一个基本的操作。为此,我们提出了一个自回退机制,使LLMs能够在训练和推理过程中回退。这一机制不仅增强了推理能力,还通过自我改进将慢思考过程转化为快思考,从而提高效率。实证评估表明,我们的提议显著增强了LLMs的推理能力,与最优路径监督微调方法相比,性能提高了40%以上。我们认为,这项研究为开发更高级和更 robust 的推理器引入了一种新颖且有前景的途径。
arXiv:2502.04402v1 宣告类型:交叉学科
摘要:尽管取得了令人难以置信的进步,许多神经架构仍无法在训练分布之外进行良好的泛化。因此,在正确且可泛化的方式下进行学习,仍是当前机器学习领域的基本挑战之一。在这方面,逻辑谜题提供了一个绝佳的测试平台,因为我们可以完全理解和控制学习环境。因此,它们允许评估在先前未见过的、更大且更难的谜题上的性能,这些谜题遵循相同的底层规则。由于传统方法通常难以表示此类可扩展的逻辑结构,我们提出使用图基方法来建模这些谜题。然后,我们探讨使所提议的模型能够在强化学习环境中学习可泛化解决方案的关键因素。我们的研究集中在架构的归纳偏差、不同的奖励系统以及递归建模在促进顺序推理中所扮演的角色的影响上。通过广泛的实验,我们展示了这些元素如何有助于在越来越复杂的谜题上的成功外推。这些见解和框架提供了一种系统的方法来设计能够进行超越内插的可泛化推理的学习系统。
arXiv:2502.04400v1 通知类型: 交叉
摘 要: 多模态联邦学习 (MFL) 允许多个客户端在确保客户端隐私的同时,协作训练多模态数据上的模型。然而,模态和任务的异构性阻碍了客户端学习统一表示,削弱了局部模型的泛化能力,尤其是在混合模态的 MFL 中,只有部分客户端拥有多模态数据时更为明显。在本文中,我们针对上述问题,提出了一种适应性的基于原型的混合模态联邦学习 (AproMFL) 框架,适用于混合模态和异构任务的情况。我们的 AproMFL 通过无先验公共数据集自适应地传递知识。客户端根据任务自适应地选择原型构建方法;服务器将客户端的原型转换为统一的多模态原型,并将它们聚合形成全局原型,避免客户端保存统一标签。我们将模型划分为多个模块,并仅聚合映射模块以减少通信和计算开销。为了应对异构性带来的聚合问题,我们开发了一种基于客户端关系图的方案,以动态调整聚合权重。广泛的实验表明了 AproMFL 的有效性。
arXiv:2502.04399v1 宣告类型: 跨学科
摘要:人工智能(AI)的进步包括基础模型(FMs),正在越来越多地改变人类社会,而智能城市正在推动城市生活的演进。同时,车辆 crowdsensing(VCS)已作为关键使能技术浮现,利用车辆的机动性和传感装备能力。特别是,网约车车辆可以在资源限制条件下有效地促进灵活的数据收集,并为城市智能做出贡献。因此,本文探讨了一个有前景的场景,即边缘辅助车辆执行联合的订单服务任务和新兴基础模型微调任务,利用各种城市数据。然而,由于这两个任务在时空特征上存在不一致性,将VCS的AI任务与传统的订单服务任务结合存在挑战:(i)乘车订单和兴趣点(PoIs)的空间分布可能在地理上不一致,两者都遵循事先未知的模式;(ii)他们具有不同的时间影响形式,即长时间等待会使订单立即失效,而数据随陈旧度增加,其对模型微调的效用逐渐降低。为了克服这些障碍,我们提出了一种基于多智能体强化学习(MARL)的在线框架,并进行了仔细的增强。一种新的服务质量(QoS)指标被设计用于描述并平衡在数据量和陈旧度变化影响下的两种联合任务的效用。我们还将图神经网络(GNNs)与MARL结合,以增强状态表示,捕捉车辆之间以及地点之间的图形结构、时间变化依赖关系。在我们的测试床模拟器上,利用各种实际的基础模型微调任务和纽约市出租车乘车订单数据集进行的广泛实验,证明了我们所提出方法的优势。
arXiv:2502.04397v1 宣布类型: cross
摘要:在患者电子健康记录(EHRs)上训练的基础模型需要将医疗数据 tokenize 成离散词汇项的序列。现有的分词器将 EHR 中的医疗代码视为孤立的文本项。然而,每个医疗代码由其文本描述、其在本体层次结构中的位置及其与其他代码的关系(如疾病共现和药物治疗关联)定义。医疗词汇表包含超过 600,000 个代码,这些代码对于临床推理至关重要。我们引入了 MedTok,这是一种利用代码的文本描述及其关系上下文的多模态医疗代码分词器。MedTok 使用语言模型编码器处理文本,并使用图编码器编码关系结构。然后,它将两种模态量化到一个统一的标记空间中,保留模态特定和跨模态的信息。我们将 MedTok 集成到五个 EHR 模型中,并在住院和门诊数据集上的操作性及临床任务中对其进行评估,包括结果预测、诊断分类、药物推荐和风险分层。用 MedTok 替换标准 EHR 分词器改善了所有 EHR 模型的 AUPRC,MIMIC-III 上提高了 4.10%,MIMIC-IV 上提高了 4.78%,EHRShot 上提高了 11.30%,在药物推荐方面的改进最大。除了 EHR 模型之外,我们还展示了将 MedTok 分词器与医疗问答系统结合使用。我们的结果显示 MedTok 作为医疗代码的统一分词器的潜力,可以提高医疗基础模型的分词质量。
arXiv:2502.04394v1 Announce Type: cross
摘要:阿尔茨海默病(AD)是一种不可逆的神经退行性疾病,全球有5000万人受到影响。低成本、准确地识别AD的关键标志物对于及时诊断和干预至关重要。语言能力受损是认知衰退的最早迹象之一,可用于区分AD患者和正常对照个体。患者-访谈者对话可能用于检测这些障碍,但由于其中常夹杂模糊、噪声和无关的信息,使得AD检测任务困难重重。此外,AD语音样本的有限可用性和其语音风格的变化导致在开发稳健的基于语音的AD检测模型上面临重大挑战。为了解决这些挑战,我们提出了一种新颖的基于语音的领域特定方法DECT,该方法利用大型语言模型(LLMs)进行精细的语言分析,并生成标签转换且保留标签的数据集。我们的研究提出了四个创新点:我们利用LLMs的总结能力,从嘈杂的语音转录中识别和提炼关键的认知语言信息,有效过滤无关信息。我们利用LLMs内在的语言知识,从非结构化和异构的音频转录中提取语言标记。我们利用LLMs的组合能力生成包含多种语言模式的AD语音转录,以克服语音数据稀缺的问题,提高AD检测模型的稳健性。我们使用增补的AD文本语音转录数据集和更精细的AD文本语音转录数据表示来微调AD检测模型。结果显示,与基准模型相比,DECT在DementiaBank数据集上的AD检测准确性提高了11%。