arXiv 论文列表

作者: Yu Fu, Jie He, Yifan Yang, Qun Liu, Deyi Xiong

元学习已被广泛用于利用资源丰富的源任务来提高资源匮乏的目标任务的性能。然而，大多数现有的元学习方法平等地对待不同的源任务，忽略了源任务与目标任务在知识转移中的相关性。为了解决这个问题，我们提出了一种基于强化学习的多源元迁移学习框架（Meta-RTL），用于低资源常识推理。在这个框架中，我们提出了一种基于强化学习的方法来动态估计源任务权重，该权重衡量了相应任务在元迁移学习中对目标任务的贡献。元模型的通用损失与源特定时间元模型在采样目标数据上的任务特定损失之间的差异被馈送到强化学习模块的策略网络中作为奖励。策略网络建立在 LSTMs 之上，它捕获了跨元学习迭代的源任务权重估计的长期依赖关系。我们使用 BERT 和 ALBERT 作为元模型的骨干，在三个常识推理基准数据集上评估了提出的 Meta-RTL。实验结果表明，Meta-RTL 在很大程度上优于强基线和以前的任务选择策略，并在极低资源设置中取得了更大的改进。

发布时间: 10/1/2024

查看原文

CLLMate：一种用于天气和气候事件预测的多模态大型语言模型

作者: Haobo Li, Zhaowei Wang, Jiachen Wang, Alexis Kai Hon Lau, Huamin Qu

预测天气和气候事件对于采取适当措施减轻环境危害和最大限度地减少相关损失至关重要。以往的环境预测研究侧重于预测与封闭集事件相关的数值气象变量，而不是直接预测开放集事件，这限制了事件预测的全面性。我们提出了天气和气候事件预测（WCEF），一项利用气象栅格数据和文本事件数据来预测潜在天气和气候事件的新任务。然而，由于多模态数据对齐的困难以及缺乏足够的监督数据集，这项任务难以完成。因此，我们首先提出了一种框架，使用大型语言模型（LLM）将历史气象数据与过去的天气和气候事件对齐。在这个框架中，我们使用LLM从超过41,000篇高度关注环境的新闻文章语料库中提取有关天气和气候事件的信息，构建知识图谱。随后，我们将这些事件与气象栅格数据进行映射，创建了一个监督数据集，这是针对WCEF任务进行LLM调优的最大且最具新颖性的数据集。最后，我们介绍了我们对齐的模型，CLLMate（气候LLM），一种多模态LLM，用于利用气象栅格数据预测天气和气候事件。在评估CLLMate时，我们进行了广泛的实验。结果表明，CLLMate超越了基线和其他多模态LLM，展示了利用LLM将天气和气候事件与气象数据对齐的潜力，并突出了WCEF任务研究的光明未来。

发布时间: 10/1/2024

查看原文

面向图形设计完成的多模态标记文档模型

作者: Kotaro Kikuchi, Naoto Inoue, Mayu Otani, Edgar Simo-Serra, Kota Yamaguchi

本文介绍了多模态标记文档模型 (MarkupDM)，该模型可以在交织的多模态文档中生成标记语言和图像。与现有的视觉语言多模态模型不同，我们的 MarkupDM 解决了图形设计任务中至关重要的独特挑战：生成有助于整体外观的局部图像，通常涉及透明度和不同大小，以及理解标记语言的语法和语义，这些语言作为图形设计表示格式起着基本作用。为了应对这些挑战，我们设计了一个图像量化器，以使用透明度对不同大小的图像进行标记，并修改了代码语言模型以处理标记语言并合并图像模态。我们对三种图形设计完成任务进行了深入评估：在图形设计模板中生成缺失的属性值、图像和文本。结果证实了我们的 MarkupDM 对图形设计任务的有效性。我们还详细讨论了优缺点，为未来多模态文档生成研究提供了见解。

发布时间: 10/1/2024

查看原文

堆叠归纳偏差对提升推理能力的研究

作者: Nikunj Saunshi, Stefani Karp, Shankar Krishnan, Sobhan Miryoosefi, Sashank J. Reddi, Sanjiv Kumar

随着模型规模的不断扩大，渐进式堆叠等新型训练策略[Gong 等人，2019，Reddi 等人，2023]引起了人们的兴趣。堆叠通过逐步增加模型的深度并使用较小模型的层来初始化下一阶段，从而实现高效的训练。尽管这种增长方法在训练方面很有效，但由此产生的模型偏差在很大程度上尚未得到探索。在这项工作中，我们考察了渐进式堆叠的这一基本方面，超越了其效率优势。我们提出了一种名为 MIDAS 的渐进式堆叠变体，它可以将语言模型训练速度提高高达 40%。此外，我们发现了一个有趣的现象：MIDAS 不仅训练效率高，而且令人惊讶地具有向改进下游任务的归纳偏差，尤其是需要推理能力的任务，例如阅读理解和数学问题，尽管与基线训练相比，其困惑度相似或略差。为了进一步分析这种归纳偏差，我们构建了推理基元——简单的合成任务，它们是推理的基础——发现使用堆叠进行预训练的模型在这些基元上明显优于标准预训练，无论是否进行微调。这为这种推理归纳偏差提供了更强有力和更可靠的证据。这些关于训练效率和推理归纳偏差的发现已在 10 亿、20 亿和 80 亿参数语言模型中得到验证。最后，我们通过探索堆叠与循环模型之间的联系，推测了这种归纳偏差的潜在原因，并提供了强有力的实证分析支持。

发布时间: 10/1/2024

查看原文

房间里的巨象：揭示奖励模型质量对对齐的影响

作者: Yan Liu, Xiaoyuan Yi, Xiaokang Chen, Jing Yao, Jingwei Yi, Daoguang Zan, Zheng Liu, Xing Xie, Tsung-Yi Ho

大型语言模型（LLM）在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于 LLM 的方法...

发布时间: 10/1/2024

查看原文

基于人工智能模型的在线欺诈检测与分析应用

作者: Antonis Papasavva, Shane Johnson, Ed Lowther, Samantha Lundrigan, Enrico Mariconti, Anna Markovska, Nilufer Tuptuk

欺诈是一种普遍的犯罪行为，其危害不仅限于经济损失，还会对受害者造成心理和身体上的伤害。在线通信技术的进步为在线欺诈在庞大的网络中蓬勃发展提供了条件，欺诈者越来越多地利用这些渠道进行欺骗。随着人工智能等技术的进步，人们越来越担心欺诈会利用深度伪造等复杂方法在网络钓鱼活动中进行大规模扩张，这些方法都是由 ChatGPT 等语言生成模型生成的。然而，人工智能在检测和分析在线欺诈方面的应用仍处于研究不足的阶段。我们对用于在线欺诈检测的人工智能和自然语言处理技术进行了系统性文献综述。该综述遵循 PRISMA-ScR 协议，其资格标准包括与在线欺诈的相关性、文本数据的利用和人工智能方法。我们筛选了 2457 篇学术记录，其中 350 篇符合我们的资格标准，并最终纳入了 223 篇。我们报告了用于分析各种在线欺诈类别的最先进的自然语言处理技术；训练数据源；构建的自然语言处理算法和模型；以及用于模型评估的性能指标。我们发现，目前关于在线欺诈的研究被划分为各种诈骗活动，并确定了研究人员关注的 16 种不同的欺诈行为。这份系统性文献综述增强了学术界对基于人工智能的在线欺诈检测方法的理解，并为政策制定者、执法部门和企业提供了防范此类活动的见解。我们得出结论，专注于特定诈骗缺乏泛化性，因为不同类型的欺诈需要多个模型。诈骗的不断演变限制了在过时数据上训练的模型的有效性。我们还发现了数据限制、训练偏差报告以及模型性能报告中指标的选择性呈现等问题，这些问题会导致模型评估中潜在的偏差。

发布时间: 10/1/2024

查看原文

无文本自然语言处理——低资源计算下的零资源挑战

作者: Krithiga Ramadass, Abrit Pal Singh, Srihari J, Sheetal Kalyani

这项工作解决了在进行无文本 NLP 训练时，即使训练轻量级编码器-解码器模型，也仍然存在着训练时间过长和 GPU 资源需求过高的持久性挑战。我们通过以下方法显著减少了训练步骤，同时提高了性能：a) 利用学习率调度器实现高效且更快的收敛；b) 优化跳跃长度；c) 调整插值比例因子以获得更好的音频质量。此外，我们还探索了印度语种（如泰米尔语和孟加拉语）的潜在空间表示，用于声学单元发现和语音转换任务。我们的方法利用了量化编码器架构，并结合了声码器，该声码器利用了提出的混合优化跳跃长度、调整后的插值比例因子和循环学习率调度器。我们在英语、泰米尔语和孟加拉语数据集上获得了始终如一的良好结果。该方法在捕捉复杂的语言模式方面表现出色，在语音转换过程中产生了清晰的重建音频，同时显著减少了训练时间。

发布时间: 10/1/2024

查看原文

利用自然语言处理和集成学习提升学术技能评估

作者: Zhengpei Cheng, Yingyi Wu, Danyang Zhang, Jiacheng Hu, Yujian Long

本研究通过利用自然语言处理 (NLP) 的进步来解决评估基础学术技能的关键挑战。传统的评估方法往往难以提供关于连贯性、语法和分析推理等关键认知和语言方面的及时和全面的反馈。我们的方法将多个最先进的 NLP 模型（包括 BERT、RoBERTa、BART、DeBERTa 和 T5）集成到一个集成学习框架中。这些模型通过使用 LightGBM 和 Ridge 回归的堆叠技术进行组合，以提高预测精度。该方法涉及详细的数据预处理、特征提取和伪标签学习，以优化模型性能。通过结合复杂的 NLP 技术和集成学习，本研究显著提高了评估的准确性和效率，提供了一种超越传统方法的稳健解决方案，为专注于增强核心学术能力的教育技术研究开辟了新途径。

发布时间: 10/1/2024

查看原文

迷失在逻辑中：对大型语言模型在LSAT逻辑游戏中的推理能力的评估

作者: Saumya Malik

本论文评估了大型语言模型 (LLMs) 在法学院入学考试 (LSAT) 中的表现，特别是考试的逻辑游戏部分。我专注于这一部分，因为它呈现了一个复杂的逻辑推理任务，因此是评估现代、能力不断提升的 LLMs 如何处理困难的逻辑推理任务的宝贵数据来源。我构建了一个包含 LSAT 逻辑游戏及其相关元数据的数据库，并广泛评估了 LLMs 在链式思维提示设置中的表现。鉴于在这种设置下的表现较弱，我在数据集的一个较小子集上探索了其他提示框架，将反思的思想应用于此任务。这使得 GPT-4 在此数据子集上的准确率大幅提高到 70%，GPT-3.5 的准确率提高到 46%，突出了 LLMs 尽管最初表现较弱，但仍能修正其逻辑错误的能力。最后，我分析了模型表现更好或更差的逻辑游戏类型，以及从人工标注中观察到的逻辑错误类型，提供了关于 LLMs 逻辑推理能力的详细见解。

发布时间: 10/1/2024

查看原文

量子机器学习中的偏差识别与缓解

作者: Nandhini Swaminathan, David Danks

量子机器学习 (QML) 作为量子计算与人工智能交叉领域的一个充满希望的领域，解决因量子系统独特性而产生的偏差和挑战变得至关重要。本研究包括对量子机器学习中偏差的识别、诊断和响应工作。本文旨在概述三个关键主题：量子机器学习特有的偏差是什么样的？它为什么会发生以及如何发生？对此可以做些什么，应该做些什么？

发布时间: 10/1/2024

查看原文