arXiv:2502.12354v1 宣布类型: cross
摘要: 最近的XAI研究探讨了在AI辅助决策中构成"好"解释的要素。尽管现有的解释具有广为人接受的人类友好的特性,如对比性和选择性,现有的研究却得出了不一致的结果。为了弥补这些差距,我们的研究重点在于解释评估的认知维度,通过评估六种使用不同对比策略和信息选择性的解释,并审查其评价过程背后的因素。我们的分析结果显示,一般而言,对比性解释并不是最可取或最容易理解的;相反,不同对比性和选择性解释在不同的人、时间、方式和解释的内容上得到了不同的评价——这些评价基于不同的认知负载和参与度以及社会技术背景。鉴于这些发现,我们呼吁对解释策略采取细致的观点,并对设计AI界面以适应AI辅助决策中的个体和情境差异具有重要意义。
arXiv:2502.12352v1 Announce Type:跨领域
摘要:我们引入了注意图(Attention Graphs),这是一种基于图神经网络(GNNs)中的消息传递与变换器中的自我注意机制之间的数学等价性的新工具,用于图神经网络和图变换器的机械可解释性。注意图在变换器层和头之间聚集注意力矩阵,以描述信息在输入节点之间的流动。通过在同质和异质节点分类任务上的实验,我们从网络科学的角度分析了注意图,并发现:(1)当允许变换器使用输入节点之间的全连接注意来学习最优图结构时,模型学习到的注意图不倾向于与输入/原始图结构相关;(2)对于异质图,不同的图变换器变体可以实现相似的性能,同时利用不同的信息流动模式。开源代码:https://github.com/batu-el/understanding-inductive-biases-of-gnns
arXiv:2502.12346v1 宣布类型: cross
摘要: 语言模型(LLMs)通常被量化为较低的精度,以降低推理时的内存成本和延迟。然而,量化往往会导致模型性能下降,因此需要对各种下游任务进行微调。传统的微调方法,如随机梯度下降和Adam优化,需要反向传播,这在低精度设置中容易出错。为了解决这些限制,我们提出了Quantized Zeroth-Order(QuZO)框架,专门用于通过低精度(例如4位或8位)前向传递来微调LLMs。我们的方法可以避开低精度下的易出错的直通过滤器估计,并利用优化的随机舍入来减轻增加的偏差。QuZO简化了训练过程,同时在${\rm FP}8$中达到与一阶方法可对比的结果,在${\rm INT}8$和${\rm INT}4$训练中则表现出更高的准确性。实验结果表明,低比特训练的QuZO在GLUE、多选择和生成任务上达到了与MeZO优化方法可比的性能,在对LLaMA2-7B的微调中,与量化的一阶方法相比,内存成本降低了$2.94 \times$。
arXiv:2502.12329v1 宣告类型: cross
摘要: 非凸优化是现代机器学习的核心,但非凸优化的一般框架提供的弱收敛保证与实践相比过于悲观。另一方面,虽然凸性能够使优化变得高效,但在许多实际问题中的应用却受到限制。为了解决这一差距,更好地理解优化算法在非凸环境下的实际成功,我们引入了一种新型的统一参数假设。我们的假设既足够普遍以涵盖广泛的非凸函数,又足够具体以推导出基于梯度的方法的统一收敛定理。值得注意的是,通过调整我们假设的参数,我们展示了其灵活性,能够恢复多种现有函数类别作为特殊情况,并识别出可进行高效优化的函数。我们分别为确定性和随机优化推导出收敛定理,并进行了实验以验证我们的假设在优化轨迹中可以实际成立。
arXiv:2502.12328v1 评估类型:横跨领域
摘要:本文介绍了PeopleJoin,这是一个用于评估语言模型(LM)介导协同解决问题的基准。给定用户请求,PeopleJoin智能体必须识别可能能够提供帮助的队友,与这些队友交谈以收集信息,最终为原始用户提供一个有用的答案或总结。PeopleJoin包括两个评估领域:PeopleJoin-QA,专注于表格数据问题,以及PeopleJoin-DocCreation,专注于文档创建任务。这两个领域是现有数据库问答和多文档总结NLP基准的改编;然而,在这里,完成这些任务所需的必要信息分布在2-20位用户的合成“组织”中,模拟了自然的多人协作场景。我们实现了几种流行的LM智能体架构,评估它们在完成任务方面的准确性和效率,并指出可以使用PeopleJoin研究的新研究问题。
arXiv:2502.12327v1 声明类型: cross
摘要: tokamak 运行的坡降阶段是很难模拟的一个过程,在此期间等离子体会常常被推向多种不稳定性极限。为了解决这一挑战,以减少操作中断的风险,我们利用最近在科学机器学习(SciML)领域的进展开发了神经状态空间模型(NSSM),该模型能够预测托卡马克可在配置变量(TCV)坡降期间的等离子 dynamics。通过整合简单的物理结构和数据驱动模型,NSSM 从只有 311 个脉冲的小数据集中学习等离子体动态,其中有五个脉冲处于与反应堆相关的高性能运行状态下。NSSM 在不确定性上进行了并行化处理,并应用强化学习(RL)来设计能够以高概率避免多种不稳定性极限的轨迹。在 TCV 坡降高性能等离子体的实验中,表明在等离子终止时电流和能量有统计学显著的改进,并通过持续重新训练提高了速度。在一个先预测后增加等离子体电流 20% 的实验中,展示了 NSSM 的能力,能够进行足够准确的小范围外推,以设计能够成功终止脉冲的轨迹。所开发的方法为设计对大量不确定性具有鲁棒性的托卡马克控制奠定了基础,并展示了 SciML 方法在学习等离子体动态方面的相关性,从而能够在逐步进行的未来燃烧等离子体托卡马克快速发展的过程中学习出稳健的轨迹和控制。
arXiv:2502.12304v1 类型: cross
摘要: 对于序列到序列的任务,传统的监督微调(SFT)策略通常直接训练模型生成目标输出。最近的研究表明,通过关键词、提纲或推理链等中间步骤来引导模型,可以显著提高性能、连贯性和可解释性。然而,这些方法通常依赖于预先定义的中间格式和标注数据,限制了其可扩展性和通用性。在本文中,我们提出了一种任务无关的框架,使模型能够生成中间的“预热”序列。这些预热序列作为后续生成的初始状态,优化以增强生成目标序列的概率,而无需依赖外部监督或人工设计的结构。借鉴强化学习的原则,我们的方法通过迭代优化这些中间步骤,以最大化其对最终输出的贡献,类似于在人类反馈驱动的强化学习中进行奖励驱动的优化。在翻译、总结和逻辑推理的多选题回答等任务上的实验结果表明,我们的方法优于传统的SFT方法,并为序列到序列的任务提供了一种可扩展且灵活的解决方案。
arXiv:2502.12280v1 宣告类型: 交叉
摘要: 大型语言模型代理工作流程使LLM能够调用工具功能,以在特定的科学领域问题上提高性能。要应对大规模的科学研究,它需要访问计算资源和并行计算设置。在这项工作中,我们将在LangChain/LangGraph工具调用设置中实现Parsl,以弥合LLM代理与计算资源之间的差距。我们在Polaris/ALCF的本地工作站和HPC环境中设置了两种工具调用实现并进行了测试。第一个实现使用了Parsl启用的LangChain工具节点,将工具功能并发地排队给Parsl工作者进行并行执行。第二种配置通过将工具功能转换为Parsl集合函数来实现,更适合在超级计算机环境中进行大规模任务。LLM代理工作流程被提示运行分子动力学模拟,模拟了不同的蛋白质结构和模拟条件。这些结果显示,LLM代理工具在可用的计算资源上由Parsl并发管理和执行。
arXiv:2502.12278v1 公告类型: cross
摘要: 一阶模型计数(FOMC)是计算一阶逻辑句子的模型数量的问题。由于提升推理技术依赖于FOMC的各种变体,因此在过去十年中,理论工作者和实践者都关注于设计可扩展的FOMC方法。最近,提出了一种基于一阶知识编译的新方法。该方法称为Crane,它不仅提供了最终计数,还生成了(可能递归的)函数的定义,这些函数可以接受不同的参数来计算任何领域大小的模型计数。然而,这种方法并非完全自动化,因为它需要手动评估构建的函数。本文的主要贡献是一种完全自动化的编译算法,称为Gantry,该算法将函数定义转换为配备了任意精度算术的C++代码。这些添加使得新的FOMC算法能够扩展到比当前最先进的技术大50多万倍的领域大小,实验结果证明了这一点。
arXiv:2502.12272v1 宣称类型:交叉
摘要:强化学习如今被广泛应用于大型语言模型训练的最终阶段,特别是在如数学问题这类需要推理的任务中。通常,模型会在单次训练步骤中多次尝试每个问题,并从成功的经验和失败中学习。然而,我们通过在两种流行算法(PPO 和 VinePPO)和两种广泛使用的数据集上进行训练,发现许多问题要么所有的尝试都已解决,这意味着这些任务已经在训练中被学习过,要么一次也没有解决,不能提供有意义的训练信号。为解决这一问题,我们借鉴了强化学习文献中的方法——可学习性采样,并将其应用于大型语言模型训练中的强化学习阶段。我们的课程优先考虑那些成功率有高差异的问题,即那些有时成功但并不总是成功的问题。我们的研究结果表明,这种方法在多种算法和数据集上都能一致地提升训练性能,为大型语言模型中的更高效和有效的强化学习铺平了道路。