arXiv 论文列表

作者: Vinay Kumar Sankarapu, Chintan Chitroda, Yashwardhan Rathore, Neeraj Kumar Singh, Pratinav Seth

arXiv:2411.12643v2 宣告类型: replace-cross 摘要：AI 的迅速发展导致了更复杂的深度学习模型，这些模型常常以“黑盒”方式运作，对其决策过程的透明度有限。这种解释性不足在高风险应用场景中尤其构成挑战，因为理解模型输出变得至关重要。本工作突显了可解释性在培养信任、可问责性和负责任部署方面的重要性。为应对这些挑战，我们引入了 DLBacktrace，这是一种新型的、面向所有模型的技术，旨在为不同领域和架构（包括MLP、CNN 和基于Transformer的大语言模型）的深度学习模型决策提供清晰的洞察。我们全面介绍了DLBacktrace，并将其性能与已经建立的可解释性方法（如SHAP、LIME和GradCAM）进行了基准测试。我们的结果显示，DLBacktrace能有效地增强对各种任务中模型行为的理解。DLBacktrace与PyTorch和TensorFlow开发的模型兼容，支持如BERT、ResNet、U-Net和自定义的表格数据DNN等架构。该库已开源，可在 https://github.com/AryaXAI/DLBacktrace 获取。

发布时间: 2/5/2025

查看原文

FLOWTS：通过修正流生成时间序列

作者: Yang Hu, Xiao Wang, Zezhen Ding, Lirong Wu, Huatian Zhang, Stan Z. Li, Sheng Wang, Jiheng Zhang, Ziyun Li, Tianlong Chen

arXiv:2411.07506v2 宣告类型: 替换-交叉摘要：基于扩散的模型在时间序列生成方面取得了显著成果，但效率低下：通过迭代数值求解器解决高维ODEs/SDEs需要每次样本数百到数千次漂移函数评估，导致成本高昂。为了解决这一问题，我们提出了FlowTS，这是一种基于ODE的模型，利用概率空间中的整流流和直线运输。通过学习分布之间的测地线路径，FlowTS 通过精确的线性轨迹模拟实现计算效率，从而加速训练和生成并改进性能。我们还引入了一种受探索-利用权衡启发的自适应采样策略，平衡噪声适应和精度。值得注意的是，FlowTS 能够无缝地从无条件生成切换到有条件生成而无需重新训练，确保高效的现实世界部署。此外，为了增强生成的真实感，FlowTS 集成了趋势和季节性分解、注意力注册（用于全局上下文聚合）以及旋转位置嵌入（RoPE，用于位置信息）。在无条件设置中，广泛实验表明，FlowTS 达到了最先进的性能，在Stock和ETTh数据集中，上下文FID得分为0.019和0.011（之前最佳为0.067和0.061）。在有条件设置中，我们在太阳 forecasting（MSE 213，之前最佳为375）和MuJoCo插补任务（MSE 7e-5，之前最佳为2.7e-4）中实现了优越的性能。代码可在 https://github.com/UNITES-Lab/FlowTS 获取。

发布时间: 2/5/2025

查看原文

复合材料及微观结构分析的foundation模型

作者: Ting-Ju Wei, Chuin-Shan Chen

arXiv:2411.06565v2 宣告类型: 替换-交叉摘要：机器学习的快速发展为材料科学开辟了无数机会，特别是在加速材料的设计和分析方面。然而，一个重大挑战在于高质量材料数据集的稀缺性和高昂的成本。虽然预训练于大量数据集的基础模型已经在自然语言处理等领域通过迁移学习利用潜在特征取得了卓越的成绩，但在材料科学中的应用仍然有限。在这里，我们提出了一种专门针对复合材料的基础模型。该模型在短纤维复合材料数据集上进行预训练，以学习稳健的潜在特征，在迁移学习中准确预测均质刚度，即使训练数据有限也是如此。此外，通过将这些学习到的特征转移到基于交互的材料网络（一种本构代理模型），我们的模型能够有效地预测材料的非线性行为。这些结果展示了我们基础模型捕捉复杂材料行为的潜力。我们的研究结果验证了基础模型在复合材料中的可行性和有效性。我们期待将此方法扩展到更复杂的三维复合材料、多晶材料以及其他材料。此外，该框架即使在实验数据稀缺的情况下也能实现高精度预测，为更高效和成本效益更高的材料设计和分析铺平了道路。

发布时间: 2/5/2025

查看原文

边学边适应：以智能工具使用适应为基础的LLMs在科学问题上的应用

作者: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

arXiv:2411.00412v2 宣告类型: 替换-交叉摘要：大型语言模型（LLMs）在解决简单的科学问题方面展现了令人鼓舞的能力，但在解决复杂的问题时，即使进行了领域特定的微调，仍然常常会产生幻觉。尽管将LLMs与工具集成可以缓解这一可靠性问题，但仅基于工具使用进行微调的模型往往过度依赖工具，即使对于简单的科学问题，也会导致因使用资源密集型科学工具而产生的不必要的成本。受到人类专家在选择解决方案之前评估问题复杂性的启发，我们提出了一种新的两组件微调方法，称为适配与学习（Adapting While Learning，AWL）。第一组件是世界知识学习（WKL），通过从工具生成的解决方案中学习，LLMs内化科学知识。第二组件是工具使用适应（TUA），我们基于WKL训练模型的准确度将问题分类为简单或困难，并训练该模型在处理简单问题时保持直接推理，在处理挑战性问题时切换到使用工具。我们在气候科学、流行病学和数学领域的6个科学基准数据集上验证了该方法。与基础的8B模型相比，我们的训练模型的答题准确率提高了28.27%，工具使用准确率提高了13.76%，甚至在4个自定义创建的数据集上超过了包括GPT-4和Claude-3.5在内的最先进模型。

发布时间: 2/5/2025

查看原文

轨迹流匹配及其在临床时间序列建模中的应用

作者: Xi Zhang, Yuan Pu, Yuki Kawamura, Andrew Loza, Yoshua Bengio, Dennis L. Shung, Alexander Tong

arXiv:2410.21154v2 通知类型: 替换-交叉摘要：建模随机且不规则采样的时间序列是一个在广泛应用中发现的具有挑战性的问题，特别是在医学领域。神经随机微分方程（Neural SDEs）是解决这个问题的一种有吸引力的建模技术，它使用神经网络参数化随机微分方程（SDE）的漂移和扩散项。然而，当前用于训练Neural SDEs的算法需要通过SDE动力学进行反向传播，这极大地限制了其可扩展性和稳定性。为了解决这个问题，我们提出了一种轨迹流匹配（TFM）的方法，以无模拟的方式训练Neural SDEs，避免了通过动力学进行反向传播。TFM利用生成模型中的流匹配技术来建模时间序列。在这项工作中，我们首先建立了TFM学习时间序列数据所需的条件。接下来，我们提出了一种重新参数化技巧，以提高训练稳定性。最后，我们将TFM适应临床时间序列设置，在绝对性能和不确定性预测方面展示了在三个临床时间序列数据集上的改进表现。

发布时间: 2/5/2025

查看原文

VideoWebArena：基于视频理解网络任务评估长时间上下文多模态代理

作者: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida

arXiv:2410.19100v2 宣告类型: replace-cross 摘要：视频通常用于以不同于仅通过文本和静态图片所能提供的方式学习或提取完成任务所需的信息。然而，许多现有的代理基准忽略了长期上下文视频理解，相反，它们更多关注文本或静态图像输入。为了弥合这一差距，我们介绍了VideoWebArena（VideoWA）基准，用于评估长期上下文多模态代理在视频理解方面的能力。VideoWA 包含基于手工制作的视频教程的 2021 个网络代理任务，总时长接近四小时。对于我们的基准，我们定义了一种长期上下文基于视频的代理任务的分类学，分为两个主要领域：技能保留和事实保留。虽然技能保留任务评估代理能否使用给定的人类示范高效完成任务，但事实保留任务评估代理能否从视频中检索到相关指令的信息以完成任务。我们发现，最佳模型在事实保留任务上的成功率为 13.3%，在事实保留问答对上的成功率为 45.8%，分别低于人类表现的 73.9% 和 79.3%。在技能保留任务上，带有教程的长上下文模型的表现不如没有教程时，WebArena 任务表现出 5% 的性能下降，而 VisualWebArena 任务则表现出 10.3% 的下降。我们的工作强调了需要改进长期上下文多模态模型的代理能力，并为未来开发提供了一个基于长期上下文视频代理的测试平台。

发布时间: 2/5/2025

查看原文

强化学习验证者和强化训练器：验证驱动和解释驱动的安全深度强化学习框架

作者: Zixuan Yang, Jiaqi Zheng, Guihai Chen

arXiv:2410.15127v2 宣告类型: 替换-交叉摘要：确保深度强化学习(DRL)的可验证和可解释的安全性对于其在实际应用中的部署至关重要。现有方法，如验证-在环训练，面临诸如部署难度大、训练效率低、缺乏可解释性以及在属性满足和奖励性能方面表现不佳等问题。在本文中，我们提出了一种名为Reintrainer的新颖的验证驱动的解释-在环框架，以开发可信赖的DRL模型，这些模型可以保证满足预期的约束属性。具体而言，在每次迭代中，该框架使用形式化验证来测量带内训练模型与预定义属性之间的差异，解释每个输入特征对模型输出的贡献，并根据即时测量结果生成训练策略，直到所有预定义属性得以证明。此外，现有验证器和解释器的低可重用性促使我们开发Reinfier，这是Reintrainer中的一个通用基础工具，用于DRL验证和解释。Reinfier具有断点搜索和验证驱动的解释功能，并与简洁的约束编码语言DRLP相关联。评估结果显示，Reintrainer在六个公共基准上的性能和属性保证方面均优于现有最新技术。我们的框架可以访问 https://github.com/Kurayuri/Reinfier。

发布时间: 2/5/2025

查看原文

作文评分背后的理由：通过由LLM生成的推理提升S-LLM的多特质作文评分

作者: SeongYeub Chu, JongWoo Kim, Bryan Wong, MunYong Yi

arXiv:2410.14202v2 宣告类型: replace-cross 摘要：现有的自动化作文评分（AES）仅依赖于作文文本，而不使用解释性推理来评分，从而错失了以精细方式捕捉评分标准评价指标具体方面的机会。本文介绍了基于推理的多特征评分（RMTS），这是一种新颖的多特征作文评分方法，该方法结合了基于提示工程的大语言模型（LLMs）和使用较小的大语言模型（S-LLM）进行微调的作文评分模型。RMTS 使用基于LLM的特征别化推理生成系统，其中单独的LLM代理根据评分标准指南生成特征特定的推理，评分模型使用这些推理来准确预测多特征评分。在包括ASAP、ASAP++和Feedback Prize在内的基准数据集上的广泛实验表明，RMTS在特征特定评分方面显著优于现有最佳模型和纯S-LLM。通过使用精细的定性推理辅助定量评估，RMTS 提高了特征别化可靠性，并对作文提供部分解释。代码可从 https://github.com/BBeeChu/RMTS.git 获取。

发布时间: 2/5/2025

查看原文

LightTransfer：你的长上下文LLM秘密地是一种轻松适应的混合模型

作者: Xuan Zhang, Fengzhuo Zhang, Cunxiao Du, Chao Du, Tianyu Pang, Wei Gao, Min Lin

arXiv:2410.13846v2 Announce Type: replace-cross 摘要：将语言模型扩展以处理更长的上下文引入了重大的内存挑战，因为键值（KV）缓存的成本随着其规模的扩大而增加。受混合模型效率提升的启发以及大型预训练Transformer骨干的广泛可用性，我们探索了将Transformer模型转换为混合架构以实现更高效的生成。在本文中，我们提出了LightTransfer，这是一种轻量级方法，可以将LLaMA等模型转换为混合变体。我们的方法识别出懒惰层——那些专注于最近或最初部分的令牌——并用流式注意替换它们的完整注意。这种转换可以在长上下文理解任务中无需任何训练，或仅需最少的微调（对于需要更强推理能力的类似o1的长推理生成任务）即可完成。在各种基准测试和模型（例如LLaMA、Mistral、QwQ-STILL）上的实验表明，即使有半数层被识别为懒惰层，LightTransfer仍可实现高达2.17倍的吞吐量提升，同时性能损失最小（在LongBench上的损失小于1.5%），并在高级类似o1的长推理模型QwQ-STILL的数学基准测试AIME24上达到53.3%。

发布时间: 2/5/2025

查看原文

大型语言模型的通道 Wise 混合精度量化

作者: Zihan Chen, Bike Xie, Jundong Li, Cong Shen

arXiv:2410.13056v3 宣布类型: replace-cross 摘要：大规模语言模型（LLMs）在广泛的语言任务中展现了令人瞩目的成功，但由于其庞大多参数量带来的巨大内存需求，它们在边缘设备上的部署仍然具有挑战性。仅权重量化提供了一种减少LLMs内存占用的有前景的解决方案。然而，现有的方法主要集中在整数位量化上，限制了它们对分数位量化任务的适应性，并阻止了设备上可用存储空间的充分利用。在本文中，我们提出了一种新的混合精度量化方法——通道级混合精度量化（CMPQ），该方法根据激活分布以通道级模式分配量化精度。通过为不同的权重通道分配不同的精度级别，CMPQ可以适应任何位宽约束。CMPQ采用非均匀量化策略，并结合了两种异常值提取技术，共同保留关键信息，从而最小化量化损失。在不同大小的LLMs上的实验表明，CMPQ不仅在整数位量化任务中提升了性能，还在内存使用略有增加的情况下实现了显著的性能提升。因此，CMPQ代表了一种适应性强且有效的LLM量化方法，在各种设备能力下提供了巨大的优势。

发布时间: 2/5/2025

查看原文