LLM2D

arXiv 论文列表

作者: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet \"Ust\"un, Tom Sherborne, Matthias Gall\'e
arXiv:2412.04144v3 宣布类型: replace-cross 摘要:模型合并已经在结合专家模型方面展示了极大的潜力,但在合并“通才”模型(这些模型在多个任务上进行训练)时,合并的好处尚不明确。我们通过在大型(约100B)模型的背景下探索合并方式,来研究合并问题,这些模型经常在开发前沿模型的过程中产生,而性能不佳的模型通常会被丢弃。给定一个不同训练运行(例如不同阶段、目标、超参数和数据混合)中获得的模型检查点池,这些检查点在不同的语言能力方面通常表现出权衡(例如指令遵循 vs 代码生成),我们探讨是否可以将这些性能不佳的模型合并成一个帕累托最优模型。我们的优化算法调整线性组合中每个检查点的权重,从而生成一个优于个体模型和基线合并模型的最优模型。进一步的分析显示,好的合并往往包括几乎所有具有非零权重的检查点,这表明即使看似初始性能不佳的检查点,也可以对最终的合并模型做出贡献。
发布时间: 2/5/2025
查看原文
作者: Yaron Veksler, Sharon Hornstein, Han Wang, Maria Laura Delle Monache, Daniel Urieli
arXiv:2412.02520v3 通告类型: replace-cross 摘要:联网自动驾驶车辆的普及为提高驾驶效率和缓解交通拥堵提供了前所未有的机会。然而,现有的研究未能解决现实中的多车道高速公路场景,而没有假设当前车辆通常不具备的连接性、感知能力和控制能力。本文提出了一种新型的人工智能系统,能够在依赖现有连接性、感知能力和控制能力的前提下,首次在现实和模拟的多车道场景中提高了高速公路交通效率,使其优于类似人类的交通状况。我们方法的核心是一个基于强化学习的控制器,在瓶颈处根据实时交通状况动态地向附近的自动驾驶车辆传达时间间隔。然后,这些期望的时间间隔被适配型巡航控制(ACC)系统用于调整跟车距离。通过(i)结合现有的交通估算技术和低带宽车辆到基础设施的连接性,(ii)利用安全认证的ACC系统,以及(iii)针对可以在不同位置独立解决的局部瓶颈挑战,我们提出了一种可能具备实用性、安全性和可扩展性的系统,能够对众多道路使用者产生积极影响。
发布时间: 2/5/2025
查看原文
arXiv:2411.19517v3 公告类型: replace-cross 摘要: 整数线性规划(MILP)是一种在各个领域广泛使用的优化技术。现有的端到端学习方法对MILP生成决策变量子集的值,并将剩余问题委托给传统的MILP求解器。然而,由于预测不够准确且主要关注二元决策变量,这种方法往往无法保证解的可行性(即满足所有约束)。满足所有约束是获取最优解的前提,非二元整数(简称整数)变量的问题更加严峻。因此,解决涉及整数变量的MILP的可行性至关重要。为了应对这些挑战,我们提出了一种新的基于强化学习(RL)的求解器,不仅能够找到可行解,还能逐步发现更好的可行解,而无需将剩余部分委托给现成的求解器。我们的实验结果表明,所提出的方法能够实现(接近)最优解。
发布时间: 2/5/2025
查看原文
作者: Vinay Kumar Sankarapu, Chintan Chitroda, Yashwardhan Rathore, Neeraj Kumar Singh, Pratinav Seth
arXiv:2411.12643v2 宣布类型: replace-cross 摘要:AI的快速发展导致了更复杂的深度学习模型,这些模型通常作为不透明的“黑箱”运作,其决策过程缺乏透明度。这种不可解释性在高风险应用中尤为棘手,因为理解模型输出至关重要。本文强调了在建立信任、责任和负责任的部署中提高解释性的的重要性。为了解决这些挑战,我们提出了DLBacktrace,这是一种新型且模型无关的技术,旨在为广泛的领域和架构(包括MLPs、CNNs和基于Transformer的LLM模型)提供清晰的决策见解。我们对DLBacktrace进行了全面概述,并将其性能与已建立的解释性方法,如SHAP、LIME和GradCAM进行了基准测试。结果表明,DLBacktrace有效地增强了对各种任务中模型行为的理解。DLBacktrace兼容PyTorch和TensorFlow开发的模型,支持如BERT、ResNet、U-Net以及适用于表格数据的自定义DNN架构。该库已开源,并可在https://github.com/AryaXAI/DLBacktrace 获取。
发布时间: 2/5/2025
查看原文
作者: Yang Hu, Xiao Wang, Zezhen Ding, Lirong Wu, Huatian Zhang, Stan Z. Li, Sheng Wang, Jiheng Zhang, Ziyun Li, Tianlong Chen
arXiv:2411.07506v2 宣布类型: replace-cross 摘要:基于扩散的模型在时间序列生成方面取得了显著成就,但出于计算效率的问题:通过迭代数值求解高维ODE/SDE要求每个样本进行数百至上千次漂移函数计算,导致高昂的成本。为了解决这个问题,我们提出了FlowTS,一种基于ODE的模型,利用概率空间中的整流流和直线运输。通过学习分布之间的测地线路径,FlowTS 通过精确的线性轨迹模拟实现计算效率,加速训练和生成,同时提高性能。我们进一步引入了一种受探索-利用权衡启发的自适应采样策略,平衡了噪声适应性和精度。值得注意的是,FlowTS 允许无缝地从无条件生成转换到有条件生成,无需重新训练,确保其实用现实部署中的高效性。此外,为了增强生成的真实性,FlowTS 集成了趋势和季节分解、注意力记录(用于全局上下文聚合)和旋转位置嵌入(RoPE,用于位置信息)。对于无条件设置,在广泛的实验中,FlowTS 达到了最先进的性能,在Stock和ETTh数据集上的上下文FID评分为0.019和0.011(此前最佳为0.067和0.061)。对于有条件设置,我们在太阳辐射预测(MSE 213,此前最佳为375)和MuJoCo插补任务(MSE 7e-5,此前最佳为2.7e-4)中实现了优越的性能。代码可在 https://github.com/UNITES-Lab/FlowTS 获取。
发布时间: 2/5/2025
查看原文
作者: Ting-Ju Wei, Chuin-Shan Chen
arXiv:2411.06565v2 宣布类型: 替换-跨越 摘要:机器学习的迅速发展为材料科学提供了大量机会,特别是在加速材料的设计和分析方面。然而,一个重大挑战在于高质量材料数据集的稀缺性和高成本。虽然基础模型通过迁移学习利用潜在特征在自然语言处理等领域取得了优异的成果,但在材料科学领域的应用仍然受限。在这里,我们提出了一个专门用于复合材料的基础模型。该模型在短纤维复合材料数据集上预训练,以学习稳健的潜在特征,并在迁移学习过程中准确预测均质化刚度,即使在有限的训练数据情况下也是如此。此外,我们的模型通过将学习到的特征转移到基于相互作用的材料网络(一种本构近似模型)中,有效地预测了材料的非线性行为。这些结果表明,我们的基础模型有潜力捕捉复杂的材料行为。我们的研究结果验证了基础模型在复合材料中的可行性和有效性。我们预计将进一步将这一方法扩展到更为复杂的三维复合材料、多晶材料等。此外,该框架即使在实验数据稀缺的情况下也能实现高精度预测,为更高效和成本效益更高的材料设计与分析开辟了道路。
发布时间: 2/5/2025
查看原文
作者: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu
arXiv:2411.00412v2 宣告类型: replace-cross 摘要:大型语言模型(LLMs)在解决简单科学问题方面表现出色,但在处理复杂问题时,即使经过领域特定的微调,往往也会产生幻觉。虽然将LLMs与工具集成可以减轻这一可靠性问题,但专门针对工具使用的微调模型往往过度依赖这些工具,在需要资源密集型科学工具的简单问题上产生不必要的成本。受到人类专家在选择解决方案前评估问题复杂性的启发,我们提出了一种新颖的两组件微调方法,即Adapting While Learning(AWL)。在第一部分,World Knowledge Learning(WKL)中,LLMs通过学习工具生成的解决方案来内化科学知识。在第二部分,Tool Usage Adaptation(TUA)中,我们根据WKL训练模型的准确性将问题分类为易于解决或难以解决,并对其进行训练,使其能够保持对简单问题的直接推理,而在处理有挑战性的问题时使用工具。我们使用来自气候科学、流行病学和数学的6个科学基准数据集对这种方法进行了验证。与基准8B模型相比,我们的训练模型在答案准确性方面提高了28.27%,在工具使用准确性方面提高了13.76%,甚至在4个自定义创建的数据集上超过了包括GPT-4和Claude-3.5在内的最新模型。
发布时间: 2/5/2025
查看原文
作者: Xi Zhang, Yuan Pu, Yuki Kawamura, Andrew Loza, Yoshua Bengio, Dennis L. Shung, Alexander Tong
arXiv:2410.21154v2 通知类型: 替换交叉 摘要:建模随机且不规则采样的时间序列是在广泛的应用中,尤其是医学领域遇到的一个具有挑战性的问题。神经随机微分方程(Neural SDE)是解决此问题的一种有吸引力的建模技术,它使用神经网络参数化SDE的漂移和扩散项。然而,当前用于训练Neural SDE的算法需要通过SDE动力学进行反向传播,极大地限制了它们的可扩展性和稳定性。为了解决这个问题,我们提出了轨迹流匹配(TFM),这是一种无需仿真即可训练Neural SDE的方法,绕过了通过动力学进行反向传播。TFM 利用了生成建模中的流匹配技术来建模时间序列。在此工作中,我们首先建立了TFM学习时间序列数据所需的条件。接下来,我们介绍了一种重参数化技巧,该技巧提高了训练稳定性。最后,我们将TFM适应临床时间序列设置,并在三种临床时间序列数据集上展示了在绝对性能和不确定性预测方面的改进表现。
发布时间: 2/5/2025
查看原文
作者: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
arXiv:2410.19100v2 宣告类型: replace-cross 摘要:视频常用于以不同于仅靠文字和静态图像所能提供的方式学习或提取完成任务所需的必要信息。然而,许多现有的代理基准忽略了长上下文视频理解,相反,它们专注于文本或静态图像输入。为了弥合这一差距,我们引入了VideoWebArena(VideoWA),一种评估长上下文多模态代理视频理解能力的基准。VideoWA 包括基于手工制作的视频教程的 2,021 个网络代理任务,总时长接近四小时。对于我们的基准,我们定义了一种长上下文视频基础的代理任务分类法,主要关注两个领域:技能保留和事实保留。虽然技能保留任务评估代理能否高效地使用给定的人类演示完成任务,事实保留任务评估代理能否从视频中检索出与指令相关的信息来完成任务。我们发现,最佳模型在事实保留任务上的成功率仅为 13.3%,在事实保留问答对上的成功率仅为 45.8%,分别低于人类表现的 73.9% 和 79.3%。在技能保留任务中,长上下文模型在有教程情况下表现更差,WebArena 任务中的表现下降了 5%,VisualWebArena 任务中的下降了 10.3%。我们的工作强调了改进长上下文多模态模型的代理能力的必要性,并为未来的开发提供了具有长上下文视频代理的测试平台。
发布时间: 2/5/2025
查看原文
arXiv:2410.15127v2 通知类型: 交叉替换 摘要: 确保深度强化学习(DRL)的可验证和可解释安全性对于其实现场景化应用程序至关重要。现有的方法如验证-在-循环训练等,面临着部署困难、训练效率低下、缺乏可解释性以及在属性满足和奖励性能方面表现不佳等挑战。在这项工作中,我们提出了一个名为Reintrainer的新颖验证驱动的解释-在-循环框架,以开发可信赖的DRL模型,该模型可以保证满足预期的约束属性。具体而言,在每一轮迭代中,该框架使用形式化验证测量训练中模型与预定义属性之间的差距,解释每个输入特征对模型输出的贡献,并根据即时度量结果生成相关的训练策略,直到所有预定义属性得到验证。此外,现有验证器和解释器的低可重用性促使我们为Reintrainer开发Reinfier,这是一个DRL验证和解释的通用基础工具。Reinfier具备断点搜索和验证驱动的解释功能,并与简洁的形式化约束编码语言DRLP相关联。评价结果表明,Reintrainer在六个公开基准测试中在性能和属性保证方面均优于现有最先进的方法。我们的框架可以在 https://github.com/Kurayuri/Reinfier 获取。
发布时间: 2/5/2025
查看原文