LLM2D

arXiv 论文列表

arXiv:2504.12324v1 交叉类型:cross 摘要:自然语言推理(NLI)是自然语言处理和信息检索中的一个基本任务。尽管已有许多子方向,如句子级NLI、文档级NLI和跨语言NLI,但跨文档跨语言NLI(CDCL-NLI)仍主要未被探索。在本文中,我们提出了一种新的CDCL-NLI范式,将传统NLI能力扩展到多文档、多语言场景。为支持这一任务,我们构建了一个高质量的CDCL-NLI数据集,包含1110个实例,涵盖了26种语言。为了为这一任务建立一个基线,我们还提出了一种创新方法,该方法结合了RST增强图融合和可解释性预测。该方法在RGAT(关系感知图注意力网络)上使用RST(修辞结构理论)进行跨文档上下文建模,并通过基于词汇链的结构感知语义对齐机制进行跨语言理解。对于NLI的可解释性,我们开发了一个基于EDU的归因框架,生成提取性解释。广泛实验表明,我们的方法在性能上表现出色,相对于传统的NLI模型如DocNLI和R2F,以及LLM模型如Llama3和GPT-4o,取得了显著的改进。我们的工作为NLI的研究提供了启示,并将带来跨文档跨语言上下文理解、语义检索和可解释性推理方面的研究兴趣。我们的数据集和代码可在以下链接中获取:\href{https://anonymous.4open.science/r/CDCL-NLI-637E/}{CDCL-NLI审查链接}。
发布时间: 4/18/2025
查看原文
作者: Zheng Zhang, Ning Li, Qi Liu, Rui Li, Weibo Gao, Qingyang Mao, Zhenya Huang, Baosheng Yu, Dacheng Tao
arXiv:2504.12323v1 交叉领域类型:cross 摘要:检索增强生成(RAG)通过从外部知识源检索相关文档来增强大型语言模型(LLMs)。通过引用这些外部知识,RAG 有效地减少了生成事实错误内容的可能性,并解决了LLMs 中的幻想问题。最近,从各种角度提高 RAG 系统的性能和效率引起了越来越多的关注。尽管这些进展取得了显著成果,但 RAG 在具有重大社会意义的领域中的应用引发了一个关键问题——即引入 RAG 帕兹义对 LLM 的公平性有何影响?为了回答这一问题,我们通过改变 LLMs、检索器和检索来源进行了广泛的实验分析。我们的实验分析表明,LLM 的规模在 RAG 框架中对公平性结果产生显著影响。当模型规模小于 8B 时,集成检索机制往往会加剧小型 LLM(如 LLaMA3.2-1B、Mistral-7B 和 LLaMA3-8B)中的不公平性。为了缓解由于 RAG 引入的小型 LLM 中的公平性问题,我们提出了两种方法:FairFT 和 FairFilter。在 FairFT 中,我们使检索器在公平性方面与 LLM 对齐,使它能够检索出促进更公平模型输出的文档。在 FairFilter 中,我们提出了一种公平性过滤机制,在检索后过滤掉有偏见的内容。最后,我们在实际数据集上验证了我们提出的方法,证明了它们在提高公平性的同时保持性能有效性的能力。
发布时间: 4/18/2025
查看原文
作者: Xin Gao, Qizhi Pei, Zinan Tang, Yu Li, Honglin Lin, Jiang Wu, Conghui He, Lijun Wu
arXiv:2504.12322v1 交叉公告类型 摘要:虽然数据合成和蒸馏是增强小型语言模型的有前途的策略,但当前方法严重依赖大型语言模型(LLMs),而这些模型受到高计算成本、环境效率低以及可能从单一架构中继承的偏见的影响。相比之下,更小的LLMs更加易于获取且更可持续,但其个体能力往往在生成高质量、多样性和可靠的数据方面存在不足。受协作人类过程(如同行评审)的启发,我们提出了一个涉及多个小型LLMs的框架GRA,通过将小型LLMs中的专业角色聚合起来,迭代地进行精细化和质量控制,以达到类似于单一大型LLM所实现的效果。在这个协作框架中,多个小型LLMs承担不同的角色:生成器、审稿人和裁决者,以模拟一种同行评审启发的数据合成管道。生成器提出初始数据样本,审稿人对其质量和多样性进行评价,而裁决者解决冲突以最终确定输出。通过将合成过程分解为专门的子任务,协作的小型LLMs可以在数据层面与基于大型LLM的蒸馏实现同等效果。通过在多个基准上的实验,我们证明了由GRA生成的数据与或超过了单个大型LLM输出的质量,例如Qwen-2.5-72B-Instruct。我们的结果挑战了单一庞大模型对于高质量数据合成的必要性,而是提倡对较小代理的战略协调。我们的数据集、模型和代码可在https://github.com/GX-XinGao/GRA上公开获取。
发布时间: 4/18/2025
查看原文
arXiv:2504.12321v1 Cheat 类型: cross 摘要: 在过去几年中,语言模型(LMs)在多个领域展示了接近人类的能力。尽管它们在实际应用中表现优异且超过用户的消费水平,但在恶意输入利用LMs的弱点时,它们会受到破解的影响,导致偏离预期行为。当前的防御策略要么将输入提示识别为恶意的,要么阻止LMs生成有害输出。然而,难以解释恶意破解的原因,导致了范围广泛且封闭箱体的方法。在这项研究中,我们提出并证明了小型语言模型(SLMs)的系统提示注意力可以用于描述恶意提示,提供了一种新颖、可解释且成本更低的防护方法,称为AttentionDefense。我们的研究建议,注意力机制是理解并解释LMs对文本嵌入语义意义未涵盖的恶意输入的响应方式的关键组成部分。提出的AttentionDefense在现有的破解基准数据集上进行了评估。消融研究显示,基于SLM的AttentionDefense在破解检测性能上与基于文本嵌入的分类器和GPT-4零样本检测器相当或更优。为了进一步验证该方法的有效性,我们使用闭环LLM多代理系统生成了一个新的基准数据集的新型破解变体。我们证明,在该新的破解数据集上,提出的AttentionDefense方法表现出色,而现有方法在性能上有所下降。此外,出于实际应用的目的,AttentionDefense是理想的选择,因为它所需的计算量仅为小型LM,但性能却与LM检测器相当。
发布时间: 4/18/2025
查看原文
arXiv:2504.12320v1 类别:交叉学科 摘要:在2023年初ChatGPT广泛采用之后,许多研究报道大型语言模型(LLMs)能在创造性任务中达到甚至超越人类的表现。然而,尚未明确LLMs在创造性方面是否随着时间变得更加出色,以及它们的创造性产出是否一致。在此研究中,我们评估了14种广泛使用的LLMs——包括GPT-4、Claude、Llama、Grok、Mistral和DeepSeek——在两种验证过的创造性评估任务:发散联想任务(DAT)和替代用途任务(AUT)中。与其预期相反,我们没有发现过去18至24个月内创造性表现有所提升的证据,且GPT-4的表现低于之前的研究。对于更为广泛使用的AUT任务,所有模型平均而言都优于人类平均水平,GPT-4o和o3-mini表现最佳。然而,只有0.28%的LLM生成的回答达到了人类创造性基准的前10%。除了模型间的差异,我们记录了显著的模型内变异:同一LLM在给定相同提示的情况下,可以生成从低于平均水平到有原创性的多种输出。这种变异对创造性研究和实际应用都有重要的影响。忽略这种变异可能会错误地评估LLMs的创造性潜力,要么高估,要么低估它们的能力。提示的选择以不同的方式影响了LLMs。我们的研究强调了在使用生成性人工智能(GenAI)工具进行创造性任务时需要更精细的评估框架,并突显了模型选择、提示设计和多次评估的重要性。
发布时间: 4/18/2025
查看原文
作者: Duc Tuyen TA, Wajdi Ben Saad, Ji Young Oh
arXiv:2504.12319v1 宣称类型: cross 摘要:随着欧盟PSD2规定确立了开放银行框架,新的机会之窗已经向银行和金融科技公司打开,旨在通过丰富银行交易描述来更好地了解客户行为,并利用这种理解来预防欺诈、降低风险,并提供更具竞争力和针对性的服务。 尽管近年来自然语言处理模型和技术在各种应用和领域中取得了惊人的进展,基于特定领域文本语料库的定制应用程序在银行业领域仍然未得到充分解决。 在本文中,我们介绍了以法语市场和法语文本为重点的语言驱动的开放银行交易分类系统。该系统涵盖了数据收集、标注、预处理、建模和评估阶段。与以前专注于一般分类方法的研究不同,该系统特别针对训练语言模型时面临的挑战(在这种情况下是法语银行数据的专门文本语料库)进行了定制。通过结合语言特定技术和领域知识,所提出的系统在性能和效率方面优于通用方法。
发布时间: 4/18/2025
查看原文
作者: Mir Md Sajid Sarwar, Sudip Samanta, Rajarshi Ray
arXiv:2504.12318v1 自动导航类型: 横跨 摘要: 我们提出了一种名为 AUTONAV 的工具,它可以自动化机器人自主导航中的地图构建、定位和路径规划任务。模块化的架构允许轻松集成这些任务的各种算法以进行比较。我们在室内模拟场景中展示了 AUTONAV 生成的地图和路径规划。
发布时间: 4/18/2025
查看原文
作者: Jingyuan Zhang, Hongzhi Zhang, Zhou Haonan, Chenxi Sun, Xingguang ji, Jiakang Wang, Fanheng Kong, Yahui Liu, Qi Wang, Fuzheng Zhang
arXiv:2504.12316v1 宣告类型: 交叉 摘要:数据整理在训练强大的视觉语言模型(VLMs)中扮演着至关重要的角色。在这项工作中,我们介绍了数据代谢的概念,并提出了一种以数据为中心的框架,用于在开发生命周期中构建VLMs。从标准模型架构开始,我们讨论并提供了关于两个关键开发步骤——数据整理和迭代——的见解,从而形成一个闭环系统,持续提升模型性能。我们详细介绍了如何处理现有的大规模数据集并构建用户特定的数据飞轮。作为演示,我们发布了名为Capybara-VL的VLM,它在典型的多模态任务(例如,视觉问答、科学推理和文本丰富的任务)中表现出色。尽管相对较小的规模,Capybara-VL超越了几种开源模型,这些模型的规模大了10倍。此外,它在与几种领先的专有模型相当的结果上证明了自己的卓越竞争力。这些结果突显了我们以数据为中心的框架的威力以及训练更小、更高效VLMs的潜力。
发布时间: 4/18/2025
查看原文
作者: Xingguang Ji, Jiakang Wang, Hongzhi Zhang, Jingyuan Zhang, Haonan Zhou, Chenxi Sun, Yahui Liu, Qi Wang, Fuzheng Zhang
arXiv:2504.12315v1 声明类型: cross 摘要:随着多模态大型语言模型(MLLMs)的发展,开源社区涌现出了众多卓越的成就。由于创建和训练多模态数据对的复杂性,建立强大的MLLMs仍然是一项计算密集和耗时的过程。在这项工作中,我们介绍了Capybara-OMNI,这是一种以轻量级和高效方式进行训练的MLLM,并支持理解文本、图像、视频和音频模态。我们详细介绍了框架设计、数据构建和训练食谱,以便逐步开发MLLM以获得竞争性性能。我们还提供了在我们的实验中使用的独特基准,以展示如何正确验证不同模态下的理解能力。结果显示,按照我们的指导,我们可以高效地构建一个在各种多模态基准测试中规模相同时能达到竞争性性能的MLLM。此外,为了增强模型的多模态指令跟随和对话能力,我们进一步讨论了如何在MLLM理解模型的基础上训练聊天版本,这更符合用户的习惯,适于实时与人类交互的任务。我们公开披露了Capybara-OMNI模型及其基于聊天的版本。披露内容包括模型权重、部分训练数据和推理代码,这些资源已发布在GitHub上。
发布时间: 4/18/2025
查看原文
作者: Hao Li, Liuzhenghao Lv, He Cao, Zijing Liu, Zhiyuan Yan, Yu Wang, Yonghong Tian, Yu Li, Li Yuan
arXiv:2504.12314v1 宣传类型: cross 摘要: 大型语言模型在科学领域中越来越受欢迎,尤其是在分子理解和分析方面。然而,现有的模型受到了幻觉问题的影响,导致药物设计和使用的错误。在本文中,我们首先分析了分子理解任务中大型语言模型幻觉的来源,特别是在PubChem数据集中观察到的知识捷径现象。为了以计算效率的方式评估分子理解任务中的幻觉,我们引入了\textbf{Mol-Hallu}这一新颖的自由形式评估指标,该指标基于生成文本与实际分子性质之间的科学蕴含关系来量化幻觉的程度。利用Mol-Hallu指标,我们重新评估并分析了各种执行分子理解任务的大型语言模型中的幻觉程度。此外,我们还提出了幻觉减少后处理阶段(HRPP)来缓解分子幻觉。实验显示,HRPP在仅解码器和编码器-解码器分子大型语言模型中均有效。我们的发现为减轻幻觉和提高大型语言模型在科学应用中的可靠性提供了关键见解。
发布时间: 4/18/2025
查看原文