LLM2D

arXiv 论文列表

当前语言建模技术的數據和計算需求給低資源語言的處理和分析帶來了挑戰。聲明式語言知識有可能通過以語言特定規則的形式為模型提供有用的歸納偏差來部分彌合這種數據稀缺差距。本文提出了一個由大型語言模型 (LLM) 支持的檢索增強生成 (RAG) 框架,用於糾正較小模型在形態學詞義標註的語言任務中的輸出。我們利用語言信息來彌補數據和可訓練參數的不足,同時允許從通過 LLM 解釋和提煉的書面描述性語法中獲取輸入。 結果表明,通過以下組合可以實現性能和效率的顯著飛躍:a) 語法形式的語言輸入,b) LLM 的解釋能力,以及 c) 更小的標記分類網絡的可訓練性。我們證明,一個緊湊的、由 RAG 支持的模型在數據稀缺環境中非常有效,在該任務和我們的目標語言中實現了新的最先進水平。我們的研究還為文獻語言學家提供了一個更可靠、更易用的形態學詞義標註工具,為每個輸出提供合理的解釋和置信度得分。
发布时间: 10/2/2024
查看原文
作者: Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song
交通预测是智慧城市管理的基石,它能够实现高效的资源分配和交通规划。深度学习凭借其捕捉时空数据中复杂非线性模式的能力,已成为交通预测的强大工具。虽然图神经网络 (GCNs) 和基于 Transformer 的模型已展现出潜力,但它们的高计算需求往往阻碍了其在现实世界道路网络中的应用,尤其是那些具有大规模时空交互的网络。为了应对这些挑战,我们提出了一种新颖的时空图 Transformer (STGformer) 架构。STGformer 有效地平衡了 GCNs 和 Transformers 的优势,能够高效地建模全局和局部交通模式,同时保持可控的计算量。与需要多个注意力层的传统方法不同,STG 注意力块能够在单个层中捕捉高阶时空交互,从而显著降低计算成本。具体而言,与 STAEformer 相比,STGformer 在加州道路图(包含 8,600 个传感器)上进行批处理推理时,实现了 100 倍的速度提升和 99.8% 的 GPU 内存使用量减少。我们在 LargeST 基准上评估了 STGformer,并证明了其优于 PDFormer 和 STAEformer 等最先进的基于 Transformer 的方法,这表明 STGformer 有潜力通过克服现有方法的计算和内存限制来彻底改变交通预测,使其成为未来时空建模任务的有前景的基础。
发布时间: 10/2/2024
查看原文
作者: Yuhao Liu, James Doss-Gollin, Guha Balakrishnan, Ashok Veeraraghavan
理解极端降雨(如洪水)带来的局部风险,需要同时具备长期的记录(用于采样罕见事件)和高分辨率的产品(用于评估局部灾害)。然而,缺乏可用于理解局部风险和降水科学的长记录和高分辨率产品。本文提出了一种新颖的生成扩散模型,该模型可将全球可用的气候预测中心(CPC)仪器降水产品和ERA5再分析数据降尺度(超分辨率),以生成公里级降水估计。将仪器降水从55公里降尺度到1公里,同时恢复极端降雨信号,存在重大挑战。为了迫使我们的模型(命名为WassDiff)生成校准良好的降水强度值,我们在扩散去噪过程中的得分匹配训练目标中引入了Wasserstein距离正则化(WDR)项。我们发现,与没有WDR的扩散相比,WDR极大地增强了模型捕获极端值的能力。广泛的评估表明,WassDiff比传统的基于得分的扩散模型具有更好的重建精度和偏差得分。极端天气现象(如热带风暴和冷锋)的案例研究表明,WassDiff能够在捕捉极端值的同时生成适当的空间模式。这种降尺度能力能够从现有的历史全球仪器记录和没有高分辨率雷达地区的当前仪器测量中生成大量的公里级降水数据集。
发布时间: 10/2/2024
查看原文
作者: Xiao Wang, Fuling Wang, Yuehang Li, Qingchuan Ma, Shiao Wang, Bo Jiang, Chuanfu Li, Jin Tang
基于 X 射线图像的医学报告生成 (MRG) 是人工智能领域的关键领域,可以显著减少诊断负担和患者等待时间。尽管取得了重大进展,但我们认为该任务遇到了瓶颈,原因是基准数据集有限,以及现有大型模型在该专业领域的增强能力不足。具体而言,最近发布的 CheXpert Plus 数据集缺乏比较评估算法及其结果,仅提供了数据集本身。这种情况使得后续算法的训练、评估和比较具有挑战性。因此,我们在 CheXpert Plus 数据集上对现有的主流 X 射线报告生成模型和大型语言模型 (LLM) 进行了全面的基准测试。我们相信,所提出的基准可以为后续算法提供可靠的比较基础,并作为研究人员快速掌握该领域最先进模型的指南。更重要的是,我们提出了一种用于 X 射线图像报告生成的大型模型,该模型采用多阶段预训练策略,包括自监督自回归生成和 X 射线报告对比学习,以及监督微调。大量的实验结果表明,基于 Mamba 的自回归预训练有效地编码了 X 射线图像,而图像文本对比预训练进一步对齐了特征空间,从而取得了更好的实验结果。源代码可以在 \url{https://github.com/Event-AHU/Medical_Image_Analysis} 上找到。
发布时间: 10/2/2024
查看原文
作者: Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song
近年来,时空图神经网络(ST-GNNs)和Transformer在交通预测方面取得了显著进展,有效地捕捉了时间和空间相关性。时空模型的泛化能力在最近的学术讨论中引起了相当大的关注。然而,目前还没有专门针对交通分布外(OOD)场景的实质性数据集被提出。现有的ST-OOD方法要么局限于在现有数据上进行测试,要么需要对数据集进行人工修改。因此,当前时空模型在OOD场景中的泛化能力在很大程度上尚未得到探索。在本文中,我们使用新提出的交通OOD基准对最先进的模型进行了研究,令人惊讶的是,我们发现这些模型的性能出现了显著下降。通过仔细分析,我们将这种下降归因于模型无法适应以前未观察到的空间关系。为了解决这一挑战,我们提出了一种新颖的专家混合(MoE)框架,该框架在训练过程中学习一组图生成器(即图子),并自适应地组合它们以根据新的环境条件生成新的图,从而在测试期间处理空间分布变化。我们进一步将这一概念扩展到Transformer架构,取得了实质性的改进。我们的方法既简洁又有效,可以无缝地集成到任何时空模型中,在解决空间动态方面优于当前最先进的方法。
发布时间: 10/2/2024
查看原文
作者: Prasenjit Maji, Amit Kumar Mondal, Hemanta Kumar Mondal, Saraju P. Mohanty
人工智能(AI)的快速发展彻底改变了智慧医疗,推动了可穿戴技术、持续监测设备和智能诊断系统的创新。然而,安全性、可解释性、鲁棒性和性能优化挑战仍然是广泛应用于临床环境的关键障碍。本研究提出了一种使用自适应特征评估器(AFE)算法的创新算法方法,以改进医疗数据集中的特征选择并克服问题。AFE整合了遗传算法(GA)、可解释人工智能(XAI)和排列组合技术(PCT),该算法优化了临床决策支持系统(CDSS),从而提高了预测准确性和可解释性。所提出的方法在三个不同的医疗数据集上使用六种不同的机器学习算法进行了验证,证明了其鲁棒性和优于传统特征选择技术的优势。结果强调了AFE在智慧医疗中的变革潜力,使个性化和透明的患者护理成为可能。值得注意的是,AFE算法与多层感知器(MLP)相结合,实现了高达98.5%的准确率,突出了其在现实世界医疗应用中改进临床决策过程的能力。
发布时间: 10/2/2024
查看原文
作者: Zhidong Gao, Yu Zhang, Zhenxiao Zhang, Yanmin Gong, Yuanxiong Guo
尽管在各种语言任务中表现出优异的性能,但预训练的大型语言模型 (LM) 通常需要在特定数据集上进行微调,才能有效地解决不同的下游任务。然而,为了在下游任务中微调这些 LM,需要从个人收集数据,这引发了重大的隐私问题。联邦学习 (FL) 已经成为事实上的解决方案,它能够在不共享原始数据的情况下进行协作模型训练。虽然很有前景,但大型 LM 的联邦微调面临着重大挑战,包括对模型参数的访问受限以及高计算量、通信和内存开销。为了解决这些挑战,本文介绍了 **Fed**erated **P**roxy-**T**uning (FedPT),这是一种用于黑盒大型 LM 的联邦微调的新框架,它只需要访问其在输出词汇表上的预测,而不是其参数。具体而言,FedPT 中的设备首先协作地调整一个较小的 LM,然后服务器将调整后的小型 LM 学习到的知识与较大的预训练 LM 学习到的知识相结合,构建一个大型代理调整 LM,该 LM 可以达到直接调整的大型 LM 的性能。实验结果表明,FedPT 可以显著降低计算量、通信量和内存开销,同时与大型 LM 的直接联邦微调相比保持竞争性能。FedPT 为在资源受限的设备上高效、隐私保护地微调大型 LM 提供了一种有前景的解决方案,扩展了最先进大型 LM 的可访问性和适用性。
发布时间: 10/2/2024
查看原文
大型语言模型 (LLMs) 的应用已广泛应用于各个领域。然而,LLMs 的基本能力,例如可控性,仍然有限。为了解决这个问题,我们提出了“自控制器”,这是一个新颖的代理框架,将自我意识引入 LLMs 的推理逻辑。这项工作的核心思想是根据 LLM 的响应来维护状态,使 LLM 能够意识到当前状态,并在多轮思维链范式中逐步思考。我们在文本长度状态上的实验表明了自控制器的可控性和有效性。我们进一步实施了一种二分查找算法,以基于文本长度状态的线性性和单调性来加速生成过程。自控制器的另一个优势是利用 DeepSeek 的上下文缓存技术,当一组对话共享相同的上下文前缀时,可以显着节省计算令牌消耗。从理论上讲,我们证明在这种情况下,额外的时空复杂度为 $O(c \log n)$。信封估计结果表明,我们的方法的令牌消耗不超过单轮生成的令牌消耗的两倍。此外,我们在单词约束上的消融研究表明,自控制器在所有基础模型中都具有持续的可控性。
发布时间: 10/2/2024
查看原文
作者: Changlin Li, Jiawei Zhang, Sihao Lin, Zongxin Yang, Junwei Liang, Xiaodan Liang, Xiaojun Chang
大型视觉模型(LVMs),例如视觉Transformer(ViTs)和扩散模型,的快速发展导致对计算资源的需求不断增长,从而造成巨大的经济和环境成本。这一日益严峻的挑战突出了开发高效的LVM训练方法的必要性。渐进式学习是一种训练策略,在训练过程中模型容量逐渐增加,它在解决这些挑战方面显示出潜力。本文提出了一种先进的自动渐进式学习(AutoProg)框架,用于高效地训练LVMs。我们首先关注LVMs的预训练,以ViTs为例,并提出了AutoProg-One,一种具有动量增长(MoGrow)和一次性增长计划搜索的AutoProg方案。除了预训练之外,我们还将我们的方法扩展到解决LVMs的迁移学习和微调。我们将AutoProg的范围扩展到涵盖更广泛的LVMs,包括扩散模型。首先,我们通过使用新颖的零样本解冻计划搜索来增强AutoProg框架,从而消除了对一次性超网络训练的需求,从而引入了AutoProg-Zero。其次,我们引入了一种新颖的独特阶段标识符(SID)方案,以弥合网络增长过程中的差距。这些创新与AutoProg的核心原则相结合,为各种LVM场景中的高效训练提供了一个全面的解决方案。大量实验表明,AutoProg将ImageNet上的ViT预训练速度提高了1.85倍,并将扩散模型的微调速度提高了2.86倍,同时保持了相当甚至更高的性能。这项工作提供了一种强大且可扩展的方法来高效地训练LVMs,并在各种视觉任务中具有潜在的应用。代码:https://github.com/changlin31/AutoProg-Zero
发布时间: 10/2/2024
查看原文
作者: Gabriel Franco, Mark Crovella
许多论文表明,注意力头协同工作以执行复杂的任务。人们通常认为,注意力头之间的通信是通过向令牌残差添加特定特征来实现的。在这项工作中,我们试图分离和识别用于在 GPT-2 small 中的注意力头之间进行通信和协调的特征。我们对该问题的关键利用是证明这些特征在注意力头矩阵的奇异向量中经常以稀疏编码的方式出现。我们描述了 GPT-2 small 用于间接宾语识别 (IOI) 任务时,这些信号在注意力头中的维度和出现频率。由注意力头奇异向量提供的信号的稀疏编码,允许有效地将信号与残余背景分离,并直接识别注意力头之间的通信路径。我们通过追踪 IOI 任务中使用的电路的一部分来探索这种方法的有效性。我们的追踪揭示了以前研究中没有的相当多的细节,揭示了 GPT-2 中存在冗余路径的性质。我们的追踪超越了以前的工作,通过识别用于在执行 IOI 时注意力头之间进行通信的特征。
发布时间: 10/2/2024
查看原文