LLM2D

arXiv 论文列表

作者: Zelin Zang, Yongjie Xu, Chenrui Duan, Yue Yuan, Jinlin Wu, Zhen Lei, Stan Z. Li
arXiv:2410.04815v2 交叉替换通告类型 摘要:生物树(BioTree)分析是生物学领域的一个基础工具,能够探索生物体、基因和细胞之间的进化和分化关系。传统的树构建方法在早期研究中发挥了重要作用,但在处理现代生物数据的日益复杂性和规模时遇到了重大挑战,特别是在整合多模态数据集方面。深度学习(DL)的进步提供了一种变革性机会,通过将生物学先验知识与数据驱动模型结合,解决传统方法的关键限制,促进构建更加准确且可解释的BioTree。本评论强调了对谱系和分化树分析至关重要的生物学先验知识,并探索了将这些先验知识整合到DL模型中的策略,以提高准确性和可解释性。此外,本评论系统地评估了常用的数据模态和数据库,为开发和评估多模态融合模型提供了宝贵的资源。对传统树构建方法进行了批判性评估,重点关注其生物学假设、技术限制和可扩展性问题。回顾了基于DL的树生成方法的最新进展,强调了其在多模态集成和先验知识融入方面的创新方法。最后,本评论讨论了BioTree在生物学各个领域的多样应用,从谱系学到发育生物学,并概述了未来利用DL推进BioTree研究的趋势。通过解决数据复杂性和先验知识集成的挑战,本评论旨在激励生物学与DL交叉领域的跨学科创新。
发布时间: 2/18/2025
查看原文
作者: Manuel Brenner, Elias Weber, Georgia Koppe, Daniel Durstewitz
arXiv:2410.04814v2 宣告类型: replace-cross 摘要:在科学中,我们往往希望从观测的时间序列中获得底层系统动力学的生成模型。当数据来自单一领域时,动力系统重构(DSR)的强大方法已经存在,但如何最好地整合来自多个动力学区间的数据并利用其进行泛化仍然是一个待解决的问题。当个体时间序列较短且群体级信息可能有助于填补单领域数据中的空白时,这一点尤为重要。在这里,我们引入了一种层次框架,该框架能够在保留所有单领域特性的前提下利用群体级(多领域)信息,并在流行的DSR基准数据集以及神经科学和医疗数据上展示了该方法。除了忠实重构所有个体动力学区间外,我们的无监督方法还在低维特征空间中发现了数据集集群的共同特征空间,在这些空间中,具有相似动态的数据库聚类。这些特征跨越这些空间时,表现出高度动态可解释性,令人惊讶地与控制底层系统动态的参数呈线性关系。最后,我们展示了迁移学习和对新参数区间泛化的实例,这为DSR奠定了基础模型。
发布时间: 2/18/2025
查看原文
作者: Zi Wang, Divyam Anshumaan, Ashish Hooda, Yudong Chen, Somesh Jha
arXiv:2410.04234v2 更新类型: 替换-交叉 摘要:优化方法在深度学习中广泛用于识别和缓解模型的不良响应。尽管梯度基方法在图像模型中证明了有效性,但由于输入空间的离散性,它们应用于语言模型时受到了阻碍。本研究介绍了一种新的优化方法,称为“功能性同伦”方法,该方法利用了模型训练与输入生成之间的功能性对偶性。通过构建一系列从易到难的优化问题,我们利用已建立的同伦方法的原则,逐步解决这些问题。我们将这种方法应用于大型语言模型(LLM)的牢笼突破攻击合成,相较于现有方法,在规避已建立的安全开源模型(如Llama-2和Llama-3)方面,成功率提高了20%-30%。
发布时间: 2/18/2025
查看原文
作者: Fatemeh Pesaran Zadeh, Juyeon Kim, Jin-Hwa Kim, Gunhee Kim
arXiv:2410.04064v2 公告类型: replace-cross 摘要:大型语言模型(LLMs)在各种语言任务中表现出强大的能力,特别是在通过指令调优方法实现这一点方面。然而,LLMs 在通过图表和图表可视化复杂的现实世界数据时面临着挑战。首先,现有的数据集很少涵盖所有类型的图表,如3D、体积和网格图表。其次,监督微调方法并没有充分利用丰富数据集中的复杂关系,包括文本、代码和图表。为了应对这些挑战,我们提出了一种分层管道和一个新的图表生成数据集。我们的数据集 Text2Chart31 包含了31种独特的图表类型(参考 Matplotlib 库),共有11100个描述、代码、数据表格和图表的元组。此外,我们还引入了一种基于强化学习的指令调优技术,用于图表生成任务,无需人类反馈。我们的实验表明,这种方法显著提升了模型性能,使较小的模型能够优于较大的开源模型,并在数据可视化任务中与最先进的专有模型相媲美。我们将在 https://github.com/fatemehpesaran310/Text2Chart31 提供代码和数据集。
发布时间: 2/18/2025
查看原文
作者: Yan Scholten, Stephan G\"unnemann, Leo Schwinn
arXiv:2410.03523v5 宣告类型: 替换-交叉 摘要:全面评估大型语言模型(LLMs)是一个开放的研究问题。现有的评估依赖于通过贪婪解码生成的确定性点估计。然而,我们发现确定性评估无法捕捉模型的整个输出分布,导致对模型能力的不准确估计。这在卸载和对齐等关键背景下尤为 problematic,因为精确的模型评估至关重要。为了弥补这一不足,我们首次提出了一个正式的概率评估框架用于LLMs。具体来说,我们提出了具有高概率保障的新颖度量标准,这些度量标准与模型的输出分布相关。我们的度量标准是应用无关的,并允许从业者在部署前更准确地估计模型能力。我们的实验分析表明,确定性评估错误地指出了成功的卸载和对齐,而我们的概率评估更好地捕捉了模型能力。我们通过在卸载案例研究中引入(1) 基于熵优化的新颖损失函数和(2) 适应性温度缩放,展示了如何克服与概率输出相关的一些挑战。我们证明,我们的方法在最近的基准测试中显著增强了概率设置下的卸载性能。总体而言,我们提出的从确定性评估到概率评估输出分布的转变是全面评估LLMs的重要一步。代码可在 https://www.cs.cit.tum.de/daml/probabilistic-unlearning/ 获取。
发布时间: 2/18/2025
查看原文
作者: Tiexin Qin, Mengxu Zhu, Chunyang Li, Terry Lyons, Hong Yan, Haoliang Li
arXiv:2410.02847v2 通知类型: 替换交叉 摘要:理解蛋白质的动力学对于解析蛋白质的功能机制和开发分子治疗方法至关重要。然而,生物过程中的复杂高维动力学和原子间相互作用给现有的计算技术带来了巨大挑战。在这个论文中,我们首次通过引入Deep Signature,一种基于其演变轨迹来表征复杂动力学和原子间相互作用的新型计算可行框架来解决这个问题。具体而言,我们的方法结合了软谱聚类,用于局部聚合合作动力学以减小系统的规模,以及签名变换,通过收集迭代积分来提供非光滑交互动力学的全局表征。理论分析表明,Deep Signature 具有多项令人 desirable 的性质,包括平移不变性、接近旋转不变性、原子坐标置换共变性,以及时间重参数化下的不变性。此外,对三种生物过程基准的实验结果验证了我们的方法在基线方法上具有优越的性能。
发布时间: 2/18/2025
查看原文
作者: Seokhyun An, Minji Kim, Hyounghun Kim
arXiv:2410.02465v2 宣告类型:替换-交叉 摘要:指令调优——使用指令-响应对进行监督微调——是使预训练的大语言模型(LLMs)具有可指令性的关键步骤。同时,LLMs 在预训练阶段进行多任务学习,获取了广泛的知识和能力。我们假设预训练阶段可以使它们具备理解并应对指令的能力。为了验证这一点,我们提出了响应调优(RT),它从指令调优的过程中去除了指令及其对应的响应映射,而是专注于建立响应分布。我们的实验表明,仅在响应上进行训练的 RT 模型能够有效地应对各种指令,并展现出接近其指令调优版本的帮助性。此外,我们观察到,在学习了训练响应中的拒绝条件后,模型能够识别并拒绝不安全的查询。进一步地,我们展示了这些观察结果也适用于上下文学习环境中。这些发现支持了我们的假设,突显了预训练 LLMs 的广泛内在能力。
发布时间: 2/18/2025
查看原文
作者: Klaus-Rudolf Kladny, Bernhard Sch\"olkopf, Michael Muehlebach
arXiv:2410.01660v2 宣告类型: replace-cross 摘要:生成模型在输出方面缺乏严格的统计保证,因此在关键安全应用中不可靠。在本文中,我们提出了生成模型的顺序校准预测方法(SCOPE-Gen),这是一种产生满足严格统计保证——校准校准可接受控制——的预测集的顺序校准预测方法。这一保证声明,以高概率而言,预测集中包含至少一个可接受(或有效)的示例。为了实现这一目标,我们的方法首先从一个黑盒生成模型中采样一组独立同分布的示例。然后,通过所谓的贪婪过滤器逐步精简这一组。由于迭代生成过程,最终预测集的可接受性分解为马尔可夫链。这种分解至关重要,因为它允许分别控制每个因素,使用校准预测来实现。与先前的工作相比,我们的方法在校准过程中显示出显著减少可接受性评估的数量。这在关键安全应用中非常重要,因为在这些应用中,这些评估必须由领域专家手动进行,因此成本高昂且耗时。我们通过在自然语言生成和分子图扩展任务中的实验突显了我们方法在可接受性评估和预测集基数方面的优势。
发布时间: 2/18/2025
查看原文
arXiv:2410.01308v2 宣告类型: replace-cross 摘要:图神经网络(GNNs)的成功激发了对其表达能力的理论探索。在图机器学习领域,研究人员通常将GNNs与Weisfeiler-Lehman(WL)测试视为理论分析的基础。然而,我们识别出这种方法存在两大主要局限:(1)WL测试的语义涉及通过一组逻辑语句验证纯粹的结构等价性。因此,它们在定义表达能力时不太匹配,通常定义为GNNs能表达的函数类别,并不适合处理具有特性的图;(2)通过利用通信复杂性,我们展示了GNN的容量下限(深度与宽度的乘积)模拟一次WL测试迭代所需的容量几乎线性增长于图的大小。这一发现表明WL测试不是局部可计算的,并且与消息传递GNNs不符。此外,我们展示允许不限量的预计算或将由外部模型计算的特征直接集成,尽管声称这些预计算增强了GNNs的表达能力,有时也会导致问题。这些问题甚至可以在顶级机器学习会议上发表的一篇重要论文中观察到。我们主张使用明确定义的计算模型,如分布式计算中的CONGEST模型,是合理的方法来描述和探索GNNs的表达能力。遵循这种方法,我们呈现了一些关于虚拟节点和边的影响的结果。最后,我们突出了关于GNN表达能力的几个开放问题,以供进一步研究。
发布时间: 2/18/2025
查看原文
作者: Haobo Li, Zhaowei Wang, Jiachen Wang, Yueya Wang, Alexis Kai Hon Lau, Huamin Qu
arXiv:2409.19058v2 宣告类型: replace-cross 摘要:预报天气和气候事件对于采取适当的措施以减轻环境危害和减少损失至关重要。然而,现有的环境预报研究主要集中在预测数值气象变量(例如温度)上,忽略了将这些变量转化为可操作的事件文本叙述及其后果。为了弥合这一差距,我们提出了一项新的任务——天气和气候事件预报(WCEF),该任务利用数值气象栅格数据和事件文本数据来预测天气和气候事件。由于多模态数据对齐的困难以及缺乏监督数据集,这项任务的实现颇具挑战性。为了应对这些挑战,我们提出了CLLMate,这是首个针对WCEF任务的多模态数据集,使用了26,156篇与ERA5再分析数据对齐的环境新闻文章。我们系统地在CLLMate上对23个现有的MLLMs进行了基准测试,包括内部源代码、开源和我们的微调模型。我们的实验揭示了现有MLLMs的优势和局限性,以及CLLMate在WCEF任务训练和基准测试方面的价值。
发布时间: 2/18/2025
查看原文