LLM2D

arXiv 论文列表

作者: Zheni Zeng, Yuxuan Chen, Shi Yu, Ruobing Wang, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
arXiv:2411.14790v4 通知类型: replace-cross 摘要:尽管检索增强生成(RAG)仍然是基于知识的问题回答(KBQA)中不可或缺的一部分,但现有的方法在特定领域面临着严峻的挑战。现有方法在小型知识库上的目标适配表现不佳:vanilla无监督训练效果较差,而微调则会产生高昂的外部信号成本。我们提出了KBAlign,这是一种通过高效模型适配增强RAG系统的自监督框架。我们的关键洞察是利用模型内在的知识对齐能力,通过两种创新机制来实现:多层次的自我注释,用于数据构建,捕捉全局知识,以及迭代调优,通过自我验证加速收敛。该框架能够实现针对特定文本知识库的成本效益模型适配,无需人类监督或外部模型辅助。实验表明,KBAlign可以在仅依赖较小模型的自我注释的情况下,达到通过GPT-4监督适配所能获得90%的性能提升。KBAlign能够以微小的成本在多个领域显著提高下游问答的准确性,特别是在需要从专门语料库中深度集成知识的场景中表现出色。我们发布了实验数据、模型和过程分析,供社区进一步探索 (https://github.com/thunlp/KBAlign)。
发布时间: 5/16/2025
查看原文
作者: Xidong Feng, Bo Liu, Ziyu Wan, Haotian Fu, Girish A. Koushik, Zhiyuan Hu, Mengyue Yang, Ying Wen, Jun Wang
arXiv:2411.14251v2 宣告类型: replace-cross 摘要: 强化学习(RL)以马尔可夫决策过程(MDP)的形式将决策制定数学化。通过MDP,研究人员在游戏、机器人和语言模型等各种领域取得了显著的突破。本文通过将传统的MDP扩展到基于自然语言的表示空间,寻求新的可能性——自然语言强化学习(NLRL)。具体而言,NLRL创新地将RL的基本原则,包括任务目标、策略、价值函数、贝尔曼方程和策略迭代,重新定义为其语言对应物。得益于大型语言模型(LLMs)的最新进展,NLRL可以通过纯提示或基于梯度的训练,实用性地实现类似RL的策略和价值提升。在Maze、Breakthrough和Tic-Tac-Toe游戏中进行的实验表明,NLRL框架在各种用途案例中具有有效性、效率和可解释性。
发布时间: 5/16/2025
查看原文
作者: Zhengyao Ding, Ziyu Li, Yujian Hu, Youyao Xu, Chengchen Zhao, Yiheng Mao, Haitao Li, Zhikang Li, Qian Li, Jing Wang, Yue Chen, Mengjia Chen, Longbo Wang, Xuesen Chu, Weichao Pan, Ziyi Liu, Fei Wu, Hongkun Zhang, Ting Chen, Zhengxing Huang
arXiv:2411.13602v2 Announce Type: replace-cross 摘要:心血管疾病(CVDs)是全球死亡的主要原因,需要可访问且准确的诊断工具。虽然心脏磁共振成像(CMR)提供了心脏结构和功能的黄金标准见解,但其临床应用受到高成本和复杂性的限制。相比之下,心电图(ECG)经济实惠且易于获取,但缺乏CMR的详细信息。我们提出了CardioNets,这是一种深度学习框架,可以将12导联ECG信号转化为CMR级别的功能参数和合成图像,从而实现可扩展的心脏评估。CardioNets结合了跨模态对比学习和生成预训练,将ECG与CMR衍生的心脏表型对齐,并通过掩码自回归模型合成了高分辨率CMR图像。CardioNets在包括五个队列的159,819个样本上进行了训练,包括英国生物银行(n=42,483)和MIMIC-IV-ECG(n=164,550),并在独立临床数据集(n=3,767)上进行了外部验证,CardioNets在疾病筛查和表型估计任务上取得了出色的表现。在英国生物银行中,它在基线模型基础上改善了心脏表型回归R2 24.8%,并在心肌病AUC上最多提高了39.3%。在MIMIC中,它将肺动脉高压检测的AUC提高了5.6%。生成的CMR图像的SSIM和PSNR分别比之前的方法提高了36.6%和8.7%。在读者研究中,仅使用ECG的CardioNets在使用ECG和真实CMR的医生准确度上提高了13.9%。这些结果表明,CardioNets为大规模CVD筛查提供了一种经济实惠的CMR替代方案,特别是在资源受限的环境中。未来的工作将重点放在ECG为基础的合成成像的临床部署和监管验证上。
发布时间: 5/16/2025
查看原文
作者: Mengxuan Li, Ke Liu, Hongyang Chen, Jiajun Bu, Hongwei Wang, Haishuai Wang
arXiv:2411.11641v3 公告类型:替换交叉 摘要:时间序列异常检测旨在识别数据中的异常模式或系统预期行为的偏差。基于重构的方法在这项任务中占主流地位,通过无监督学习学习点表示。然而,训练数据中的未标记异常点可能导致这些基于重构的方法学习和重构异常数据,从而带来捕捉正常模式的挑战。在本文中,我们提出了一种基于隐神经表示(INR)重构的时间序列异常检测方法,名为TSINR,以应对这一挑战。由于频谱偏差的特性,TSINR能够优先处理低频信号,并在高频异常数据上表现出较差的性能。具体而言,我们采用INR参数化时间序列数据为连续函数,并使用基于变压器的架构来预测给定数据的INR。因此,所提出的TSINR方法具备捕捉时间连续性的优势,因此对不连续的异常数据更加敏感。此外,我们还设计了一种INR连续函数的新形式,用于学习跨通道和通道内信息,并利用预训练的大语言模型放大异常的剧烈波动。广泛的实验表明,TSINR在单变量和多变量时间序列异常检测基准上的整体性能优于其他最先进的基于重构的方法。我们的代码已公开。
发布时间: 5/16/2025
查看原文
arXiv:2410.12609v2 通告类型: replace-cross 摘要:受到大型语言模型取得成功的影响,开发图基础模型以实现各种领域中的多样化下游任务的趋势逐渐兴起。然而,当前的模型往往需要额外的微调,才能将它们学到的结构和语义表示应用到新的图中,这限制了它们的灵活性。最近在知识图谱(KGs)上的零样本归纳推理的突破,为我们提供了一个新的视角,将KG推理扩展到一般的图应用。在本文中,我们介绍了SCR,这是一个统一的图推理框架,旨在针对知识图谱进行训练,并在广泛范围的图任务和领域中有效泛化。我们首先设计特定任务的KG结构,以建立一种统一的拓扑结构,适用于不同的任务格式。然后,我们提出了语义条件的信息传递,这是一种新型机制,用于解决传统KG推理中固有的语义隔离问题,通过同时建模图表示中的结构性不变性和语义不变性模式。为了展示其有效性,我们使用涵盖多个领域、包含节点级、边级和图级任务的38个多样图数据集,评估了SCR的归纳推理能力。我们的结果显示,相较于现有基础模型和监督学习基线,我们的方法在性能上取得了显著提升,突显了我们方法的有效性和适应性。
发布时间: 5/16/2025
查看原文
作者: Luckeciano C. Melo, Alessandro Abate, Yarin Gal
arXiv:2410.07812v2 公告类型: replace-cross 摘要: 在现实世界的应用中,机器学习模型必须不断地学习新任务以适应数据生成分布的变化。然而,对于连续学习(Continual Learning, CL),模型往往难以在学习新任务(塑性)与保留先前知识(记忆稳定性)之间取得平衡。因此,它们容易遭受灾难性遗忘(Catastrophic Forgetting)的影响,这会降低性能并削弱部署系统的可靠性。在贝叶斯连续学习的文献中,变分方法通过采用一个递归更新后验分布的学习目标来解决这一挑战,并对它进行约束,使其保持接近其先前的估计。然而,我们认为这些方法可能因递归更新过程中累积的近似误差而无效。为了缓解这一问题,我们提出了新的学习目标,这些目标结合了多个先前后验估计的正则化效应,防止个别错误在未来后验更新中占主导地位并随着时间累积。我们揭示了这些目标与时间差分方法之间的有趣联系,这是一种在强化学习和神经科学中流行的学习机制。在具有挑战性的连续学习基准测试中,我们的方法有效地缓解了灾难性遗忘,优于强大的变分连续学习方法。
发布时间: 5/16/2025
查看原文
作者: Siqiao Xue, Xiaojing Li, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei
arXiv:2410.04526v4 宣告类型: replace-cross 摘要: 在本文中,我们介绍了FAMMA,一个开源基准,用于金融多语言多模态问题回答(QA)。我们的基准旨在评估大规模语言模型(LLMs)在回答需要高级金融知识的复杂推理问题方面的能力。该基准有两个版本:FAMMA-Basic 包含1,945个问题,这些问题是从大学教科书和考试中抽取出来的,还附有人工标注的答案和推理过程;FAMMA-LivePro 包含103个由人类领域专家创建的新颖问题,答案和推理过程对外保密以进行无污染评估。这些问题涵盖了金融领域的8个主要子领域(例如,公司金融、衍生品和投资组合管理)的高级知识。其中一些问题使用中文或法文,而多数问题使用的则是英文。每个问题都有非文本数据,如图表、图表或表格。我们的实验表明,FAMMA 对 LLMs(包括推理模型如GPT-o1和DeepSeek-R1)构成了重大挑战。此外,我们整理了DeepSeek-R1在FAMMA-Basic数据上的1,270条推理路径,并使用这些推理数据对一系列开源的Qwen模型进行了fine-tuning。我们发现,通过这些推理路径训练模型可以显著提高其在FAMMA-LivePro上的性能。我们已在 https://famma-bench.github.io/famma/ 上公开了我们的排行榜、数据、代码和训练模型。
发布时间: 5/16/2025
查看原文
作者: David Herel, Vojtech Bartek, Jiri Jirak, Tomas Mikolov
arXiv:2409.13338v3 类型: replace-cross 摘要: 谁是美国总统?这个问题的答案取决于提问的时间。虽然大型语言模型(LLMs)在各种推理任务中得到了评估,但它们往往忽略了时间这一关键维度。在现实场景中,答案的正确性经常与时间背景密切相关。为了弥补这一差距,我们提出了一种新型框架和数据集,涵盖了从2018年到2024年的超过8000个事件,并以日级别粒度进行了注释,数据来自政治、科学和商业等多个领域。我们的TimeShift评估方法系统地检测LLMs的时间推理能力,揭示出基模型在时间敏感的记忆任务上常常优于指令微调和合成训练的版本。此外,我们还发现,即使大规模模型在处理改写过的事实时也会表现出脆弱性,这突出了一直存在的时间连贯性挑战。通过识别这些局限性,我们的工作为开发能够适应现实世界知识动态性的时感知语言模型提供了一个重要的步骤。
发布时间: 5/16/2025
查看原文
作者: Jingyong Liang, Bernd Meyer, Isaac Ning Lee, Thanh-Toan Do
arXiv:2409.09647v2 宣告类型: 替换-交叉 摘要:标记数据有限,自我监督学习是减少标注需求的重要方法之一。虽然它在图像领域得到了广泛探索,但在声学领域却未获得同等程度的关注。然而,减少标注是许多声学应用的关键需求。特别是在生物声学中,全监督学习所需的充分标签很少见。这导致了广泛使用在生物声学任务上预训练于无关数据的声学识别器。我们提出,使用实际任务数据进行训练,结合自我监督预训练和少样本分类,是一个更优的方法,即使只有少量标签可用,也有能力提供高精度。为此,我们引入并评估了一种新的架构,该架构结合了基于CNN的预处理和基于状态空间模型(SSMs)的特征提取。这种方法的动机在于,仅依靠基于CNN的网络难以有效地捕捉到时间信息,这对于分类声学信号至关重要。另一方面,特定的SSM,如S4和Mamba,已被证明在捕捉序列数据中的长期依赖关系方面具有出色的能力。我们使用对比学习在实际任务数据上对这种架构进行预训练,并使用极少量的标注数据进行后续微调。我们评估了这种提出的架构在标准基准以及实际数据上的($n$-shot,$n$-class)分类性能。我们的评估结果显示,该架构在少样本分类问题上优于现有最先进的架构。
发布时间: 5/16/2025
查看原文
arXiv:2409.06356v2 宣布类型: replace-cross 摘要:Q-learning 是强化学习(RL)中广泛使用的一种算法,但在折扣因子接近 1 时,其收敛速度可能会很慢。为了加快收敛速度,不断超松弛(SOR)Q-learning 引入了一个松弛因子,但这种方法存在两个主要局限性:在表格形式下,松弛参数依赖于转移概率,使其不能完全模型无关,且存在过度估算偏差。为克服这些局限性,我们提出了一种基于样本、模型无关的双重 SOR Q-learning 算法。理论上和实验上,该算法相较于 SOR Q-learning 更少有偏差。此外,在表格形式下,在迭代结果有界假设下讨论了收敛分析。提出的算法扩展到了大规模问题的深度 RL 中。最后,在轮盘游戏和网格世界环境中比较了所提算法的表格版本,并测试了深度 RL 版本在最大化偏差示例和 OpenAI Gym 环境中的表现。
发布时间: 5/16/2025
查看原文