LLM2D

arXiv 论文列表

作者: Frederik Hytting J{\o}rgensen, Luigi Gresele, Sebastian Weichwald
arXiv:2501.19335v1 类别:交叉学科 摘要:因果贝叶斯网络是“因果”的模型,因为它们对干预分布作出预测。为了将这种因果模型的预测与现实世界的成果联系起来,我们必须确定世界中的哪些行为对应于模型中的哪些干预措施。例如,要将一个行为解释为对治疗变量的干预,该行为大概需要满足以下两点:a) 以与干预相对应的方式改变治疗的分布;b) 不改变其他方面,比如结果如何依赖于治疗;而一些变量的边缘分布可能会受到影响。我们提出了一个形式化的框架,以使不同行为解释为干预措施的要求变得精确。我们证明了将行为解释为干预措施的直观解释是循环的:在这种解释下,任何正确建模观测分布的因果贝叶斯网络也必然会是干预有效的,而没有任何行为能够提供能够反驳这种模型的实证数据。我们证明了一个不可能性结果:不存在一种既不是循环的,又能同时满足一系列自然要求的解释。相反,我们研究了一种非循环的解释,这种解释可能违背一些自然要求,并展示了这如何反过来使因果模型的证伪成为可能。通过严格探讨因果贝叶斯网络如何成为世界中的“因果”模型,而非仅仅是一个数学对象,我们的形式化框架为因果表示学习、因果发现和因果抽象的概念基础做出了贡献,同时也突显了现有方法的一些局限性。
发布时间: 2/3/2025
查看原文
作者: Jan Pauls, Max Zimmer, Berkant Turan, Sassan Saatchi, Philippe Ciais, Sebastian Pokutta, Fabian Gieseke
arXiv:2501.19328v1 类型: cross 摘要:随着全球温室气体排放量的增加,准确的大规模树冠高度图对于理解森林结构、估计地上生物量以及监测生态扰动至关重要。为此,我们提出了一种新的方法来生成时间序列上的大规模、高分辨率树冠高度图。我们的模型能够根据Sentinel-2时间序列卫星数据准确预测多年树冠高度。通过使用GEDI LiDAR数据作为训练模型的基准,我们首次提供了欧洲大陆2019年至2022年的10米分辨率时间序列树冠高度图。作为该产品的组成部分,我们还提供了2020年的详细树冠高度图,其精度高于以往的研究。我们的流水线及其生成的时间序列高度图已公开,这使人们能够开展大规模森林综合监控,从而促进未来的研究和生态分析。如需互动查看器,请访问https://europetreemap.projects.earthengine.app/view/temporalcanopyheight。
发布时间: 2/3/2025
查看原文
作者: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong
arXiv:2501.19324v1 通告类型: 交叉 摘要: 我们介绍了奖励引导推测解码(Reward-Guided Speculative Decoding, RSD),这是一种旨在提高大型语言模型(Large Language Models, LLMs)推理效率的新颖框架。RSD 智能结合了轻量级的草稿模型和更为强大的目标模型,并在此过程中引入了可控的偏差以优先考虑高奖励输出,这与现有的推测解码方法相比,这些方法强制执行严格的无偏序。RSD 使用过程奖励模型来评估中间解码步骤,并动态决定是否调用目标模型,以此优化计算成本与输出质量之间的权衡。理论上证明,基于阈值的混合策略在资源利用和性能之间实现了最佳平衡。在包括奥林匹克级别的任务在内的各种具有挑战性的推理基准测试中,广泛的评估表明,与仅使用目标模型解码相比,RSD 能够实现显著的效率提升(最多4.4倍的FLOPs减少),同时在平均情况下比并行解码方法具有显著更高的准确性(最多+3.5)。这些结果突显了RSD作为一种在资源密集型场景下部署LLMs的稳健且成本效益高的方法。
发布时间: 2/3/2025
查看原文
作者: Edward Storey, Naomi Harte, Peter Bell
arXiv:2501.19321v1 公告类型: cross 摘要: 自监督学习(SSL)在深度学习中被用于在无需昂贵数据标签的情况下对大规模数据集进行训练。最近,诸如XLS-R等大型自动语音识别(ASR)模型利用SSL同时对一百多种不同语言进行训练。然而,进一步的研究表明,XLS-R的主要训练数据来自少数几种语言。通过SSL学习到的偏见已在多个领域中得到证实,但多语言SSL ASR中的语言偏见尚未得到彻底的检查。在本文中,我们利用彩票票假设(LTH)在XLS-R中识别出特定语言的子网络,并在多种不同语言上测试这些子网络的性能。我们能够证明,在微调过程中,XLS-R bypasses传统的语言知识,仅基于训练数据中贡献最大的语言所学到的权重进行构建。
发布时间: 2/3/2025
查看原文
作者: Nafis Irtiza Tripto, Saranya Venkatraman, Mahjabin Nahar, Dongwon Lee
arXiv:2501.19301v1 交叉公告类型 摘要:大规模语言模型(LLMs)已经革新了自然语言处理(NLP)和人工智能(AI),开启了前所未有的能力。这种快速进步推动了对LLMs及其文本生成与推理能力、潜在滥用的各个方面研究,从而迫切需要 robust 检测方法。尽管先前的研究主要集中在检测LLM生成的文本(AI文本)上,从而限制它们的应用,我们的研究探索了一个相对未被充分研究的领域:探讨不同文本段落中人类与AI文本之间的细微差异。LLMs在不同的文本段落中处理或运用语言创新的能力差异,对于确定它们作为有效创意助手的潜力具有重要意义。通过将结构类比于国际象棋比赛(开局、中局和残局),我们分析不同文本段落(引言、正文和结论),以确定人类和AI文本之间最显著的差异存在于何处。尽管由于正文段落较长,AI文本可以更好地逼近这个段落,但更仔细的检查揭示了明显的差异性,突显了此段落对AI文本检测的重要性。此外,人类文本在跨段差异方面比AI文本更高。总体而言,我们的研究可以揭示人类与AI文本差异的复杂性,为文本检测和理解提供新的见解。
发布时间: 2/3/2025
查看原文
作者: Cory Hymel, Hiroe Johnson
arXiv:2501.19297v1 交叉类型:公告 摘要:关于大规模语言模型(LLM)在软件开发中的应用,大部分研究集中在代码生成方面。很少有文献探讨LLM对需求工程(RE)的影响,而需求工程涉及系统需求的开发和验证过程。在需求工程中,有一个子领域是需求获取,即从用户、客户和其他利益相关者中发现和记录系统需求的实践。在这项分析中,我们将LLM与人类专家在时间限制和提示限制的研究中获取软件系统需求的能力进行了比较。我们发现,与人类生成的需求相比,LLM生成的需求更加一致(+1.12)且更有完整度倾向(+10.2%)。另一方面,我们发现用户倾向于认为他们认为更一致的解决方案是由人类专家生成的。此外,虽然LLM生成的文档评分更高且速度是人类专家的720倍,但它们的平均成本仅为人类专家的0.06%。总体而言,这些发现表明,通过改进需求定义、促进更高效的资源配置以及缩短整体项目时间线,LLM将在需求工程中发挥越来越重要的作用。
发布时间: 2/3/2025
查看原文
作者: Xinyu Liu, Zixuan Xie, Shangtong Zhang
arXiv:2501.19254v1 宣告类型: cross 摘要: $Q$-学习是强化学习中最基础的算法之一。之前,普遍认为使用线性函数逼近的$Q$-学习(即线性$Q$-学习)可能会产生发散的问题。本文反而确立了线性$Q$-学习到一个有界集合的首个$L^2$收敛速率。值得注意的是,我们没有对原始的线性$Q$-学习算法进行任何修改,没有做出贝尔曼完备性的假设,也没有对行为策略做出接近最优性的假设。我们所需要的是一个具有自适应温度的$\epsilon$-softmax行为策略。我们分析的关键在于在具有马尔可夫噪声和快速变化的转移函数下随机逼近的一般结果。作为副产品,我们还利用这一般结果确立了具有$\epsilon$-softmax行为策略的表形$Q$-学习的$L^2$收敛速率,这里我们依赖于加权贝尔曼最优性算子的一种新颖的拟收缩性质。
发布时间: 2/3/2025
查看原文
作者: Yunzhe Li, Junting Wang, Hari Sundaram, Zhining Liu
arXiv:2501.19232v1 交叉类型:通告 摘要:零样本跨域序列推荐(ZCDSR)能够在无需额外训练或 fine-tuning 的情况下对未见过的域进行预测,特别适用于传统模型难以应对的数据稀疏环境。最近大型语言模型(LLMs)的发展大幅提升了ZCDSR的能力,通过利用丰富的预训练表示来促进跨域知识的转移。然而,一个核心挑战仍旧存在:领域语义偏差,这是由于不同领域中词汇和内容重点的差异而产生的。这种不一致导致项嵌入不稳定,并阻碍了泛化能力。 为解决这一问题,我们提出了一种新的框架,旨在通过提高项和序列层面的跨域对齐来增强基于LLM的ZCDSR。在项层面,我们引入了一种泛化损失,通过在不同领域之间对相似项进行对齐来促进跨域紧凑性,同时保持域内多样性以保留独特的项特征。这防止了项嵌入变得过于通用,同时确保了有效的转移能力。在序列层面,我们开发了一种方法来传输用户的行為模式,通过在源域中聚类用户序列,并在目标域中应用注意力机制聚合来进行推断。这种动态调整的用户嵌入允许在无需目标域交互的情况下实现有效的零样本推荐。 我们在多个数据集和领域的全面实验表明,我们的框架在ZCDSR设置中显著提高了序列推荐性能。通过缓解领域偏差和增强序列模式的转移性,我们的方法提供了一种可扩展且稳健的方案,以实现多领域的更有效的零样本推荐。
发布时间: 2/3/2025
查看原文
作者: Wanli Ma, Oktay Karakus, Paul L. Rosin
arXiv:2501.19227v1 宣告类型: cross 摘要: 在这篇论文中,我们提出了一种新颖的集成改进的半监督学习框架的主动学习方法,以降低手动标注的成本并提高模型性能。我们提出的方法有效地利用了通过主动学习选取的标记数据以及未选中的未标记数据。提出的主动学习方法指出了伪标签可能不准确的区域。然后,我们提出了一种自动高效的伪标签自改进(PLAR)模块,通过比较潜在错误伪标签和标记区域的特征表示来修正这些像素。该方法未增加标签预算,基于类别假设,即属于同一类别的像素在特征空间中应具有相似的表示。此外,仅对未标记数据中最难以标记且最不确定的区域进行人工标记,这些区域的信息不足,使得PLAR模块无法作出决策。我们在两个基准数据集上评估了所提出的混合半监督主动学习框架,一个来自自然图像领域,另一个来自遥感图像领域。在两种情况下,它在语义分割任务中都优于最先进的方法。
发布时间: 2/3/2025
查看原文
作者: Alexander Kozachinskiy, Felipe Urrutia, Hector Jimenez, Tomasz Steifer, Germ\'an Pizarro, Mat\'ias Fuentes, Francisco Meza, Cristian Buc, Crist\'obal Rojas
arXiv:2501.19215v1 交叉类型: 摘要: 我们提出了一种新的方法来评估变压器的理论极限,使我们能够证明无限精度的一层softmax变压器的第一个下限。我们为三项需要高级推理的任务建立了这些界限。第一个任务Match3 (Sanford et al., 2023) 要求查看所有三元组的位置。第二个和第三个任务处理基于组合性推理:一个是函数的组合 (Peng et al., 2024),另一个是二元关系的组合。我们正式证明了一层softmax变压器无法解决任何这些任务。为了克服这些限制,我们引入了Strassen注意力,并证明通过这种方法,一层变压器原则上可以解决所有这些任务。我们还展示了它具有亚立方运算复杂度,使其比类似的先前提出机制(如高阶注意力,Sanford et al., 2023)更具可扩展性。为了补充我们的理论发现,我们实验研究了Strassen注意力,并将其与标准(Vaswani et al, 2017)、高阶注意力(Sanford et al., 2023)和三角注意力(Bergen et al. 2021)进行了比较。我们的结果有助于区分所有这些注意力机制,强调了它们的优点和局限性。特别是,Strassen注意力在所有任务上显著优于标准注意力。总体而言,理解理论限制可以指导研究向具有可扩展性的注意力机制发展,从而提高变压器的推理能力。
发布时间: 2/3/2025
查看原文