LLM2D

arXiv 论文列表

作者: Wen-Chao Hu, Wang-Zhou Dai, Yuan Jiang, Zhi-Hua Zhou
arXiv:2412.08457v2 更新类型: 替换 摘要:神经符号(NeSy)AI可以被视为人类双过程认知的类比,通过神经网络模拟直觉系统1,通过符号推理模拟算法系统2。然而,对于复杂的学习目标,NeSy系统经常生成与领域知识不符的输出,并且很难纠正这些输出。借鉴人类的认知反思,它可以迅速检测我们直觉反应中的错误,并通过调用系统2推理来修订它们,我们提出在基于Abductive Learning(ABL)框架的基础上引入Abductive Reflection(ABL-Refl)来改进NeSy系统。ABL-Refl利用领域知识在训练过程中推导出一个反思向量,该向量可以在生成过程中标记神经网络输出中的潜在错误,并调用推理来纠正它们并生成一致的输出。与之前的ABL实现相比,ABL-Refl非常高效。实验结果显示,ABL-Refl优于现有的NeSy方法,在更少的训练资源和更高的效率下实现了出色的准确率。
发布时间: 2/11/2025
查看原文
作者: Yingqi Gao, Yifu Liu, Xiaoxia Li, Xiaorong Shi, Yin Zhu, Yiming Wang, Shiqi Li, Wei Li, Yuntao Hong, Zhiling Luo, Jinyang Gao, Liyu Mou, Yu Li
arXiv:2411.08599v3 宣言类型: 替换 摘要: 为了解决大规模语言模型在自然语言到SQL任务中的表现挑战,我们介绍了XiYan-SQL,这是一种创新框架,采用多生成器集成策略以提高候选生成的性能。我们提出了M-Schema,这是一种半结构化的模式表示方法,旨在增强对数据库结构的理解。为了提高生成的候选SQL查询的质量和多样性,XiYan-SQL将上下文学习(ICL)的重要潜力与监督微调的精确控制结合在一起。一方面,我们提出了一系列训练策略,以微调模型生成高质量、多样性的候选。另一方面,我们使用基于命名实体识别的示例选择方法实施了ICL方法,以防止过度强调实体。优化器通过纠正逻辑或语法错误来优化每个候选。为了应对最佳候选识别的挑战,我们微调了一个选择模型来区分候选SQL查询的细微差别。在多个方言数据集上的实验结果展示出XiYan-SQL在不同场景中应对挑战的鲁棒性。总体而言,我们提出的方法在Bird基准上实现了75.63%的最优执行准确率,在Spider测试集上实现了89.65%的准确率,在SQL-Eval上实现了69.86%的准确率,在NL2GQL上实现了41.20%的准确率。所提出的框架不仅提高了SQL查询的质量和多样性,而且在性能上超过了之前的方法。
发布时间: 2/11/2025
查看原文
作者: Weidi Luo, He Cao, Zijing Liu, Yu Wang, Aidan Wong, Bing Feng, Yuan Yao, Yu Li
arXiv:2410.17922v2 安全公告类型: 重置 摘要:随着大型语言模型(LLMs)的广泛部署,确保其安全性变得越来越关键。然而,现有的防御方法在应对两大关键问题时往往效果不佳:(i) 防御能力不足,特别是在化学等特定领域场景中,缺乏专门知识会导致生成对恶意查询有害的响应。(ii) 过度防御,这会牺牲LLMs的一般用途和响应能力。为了解决这些问题,我们提出了一种基于多代理的防御框架,名为Guide for Defense(G4D),该框架利用精确的外部信息提供无偏见的用户意图总结和基于分析的安全响应指导。广泛的实验表明,在流行的安全突破攻击和良性数据集上,我们的G4D能够在不牺牲模型一般功能的情况下,增强LLMs在通用和特定领域场景下的稳健性。
发布时间: 2/11/2025
查看原文
作者: Akshar Prabhu Desai, Ganesh Satish Mallya, Mohammad Luqman, Tejasvi Ravi, Nithya Kota, Pranjul Yadav
arXiv:2410.15653v4 通知类型: 替换 摘要:生成人工智能(Gen-AI)技术能够改善对语言模型中语境和细微差别的理解,跨语言翻译,处理大量数据,提供快速、低延迟的响应,并且可以针对各种任务和领域进行微调。在本文中,我们提供了一份关于生成人工智能技术在金融领域应用的全面概述。特别是,我们介绍了使用生成人工智能技术的机会和挑战。我们还展示了可以用于训练生成人工智能技术的各种方法,并介绍了生成人工智能技术在金融生态系统中的各种应用场景。据我们所知,这项工作代表了对金融领域内生成人工智能技术最全面的总结。分析旨在为深度理解关键领域的重大进展提供全面概述,同时准确指出未来需要优先关注的领域。我们还希望这项工作能够成为金融与其他领域的桥梁,从而促进创新概念和实践的交流与融合。
发布时间: 2/11/2025
查看原文
作者: Kyungmin Min, Minbeom Kim, Kang-il Lee, Dongryeol Lee, Kyomin Jung
arXiv:2410.13321v2 通知类型:替换 摘要:大型视觉语言模型(LVLMs)在生成与视觉输入相关的详细和连贯的响应方面表现出令人印象深刻的能力。然而,由于过度依赖语言先验,它们容易产生幻觉。为了解决这一问题,我们研究了LVLM中的语言先验,并作出两项关键观察:(1)当预测与图像相关的词性(POS)相关的令牌时,随着令牌序列的增长,模型越来越多地依赖于语言先验,从而加剧了幻觉现象。(2)直接校准LVLM的输出分布以减轻语言先验的方法可能会导致文本质量下降,甚至加剧幻觉现象。基于这些发现,我们提出了一种新颖的方法——摘要引导解码(SumGD)。此方法自然地鼓励模型更多地关注图像信息,通过摘要减少文本上下文,同时只控制与图像相关的POS令牌以保持文本质量。通过实验,我们展示了SumGD在物体幻觉基准测试中达到了最先进的性能。此外,在精确性和召回率之间的权衡方面,SumGD在现有方法中达到帕累托最优。最后,我们观察到,尽管现有方法难以在减少物体幻觉与保持文本质量之间取得平衡,SumGD在处理这一挑战方面表现出很强的鲁棒性。
发布时间: 2/11/2025
查看原文
作者: Kuofeng Gao, Huanqia Cai, Qingyao Shuai, Dihong Gong, Zhifeng Li
arXiv:2410.10735v2 宣告类型: 修改 摘要:在革命性依赖大量推理的领域中,大型语言模型(LLMs)准确的数学推理至关重要。然而,LLMs在某些数学推理方面经常遇到困难,导致推理错误和结果错误。为解决这些问题,我们提出了一个新颖的机制,即链式自我纠正(CoSC),专门用于嵌入LLMs的内在自我纠正能力,使它们能够验证和修正自己的结果。CoSC机制通过一系列自我纠正阶段运行。在每个阶段中,LLMs生成一个程序以解决给定的问题,使用基于程序的工具执行该程序以获取输出,随后验证该输出。根据验证结果,LLMs或继续下一个纠正阶段或最终确定答案。这种迭代的自我纠正过程使LLMs能够细化其推理步骤并提高数学推理的准确性。我们使用两阶段微调方法实现CoSC。首先,LLMs使用少量由GPT-4生成的种子数据进行训练。然后,我们通过使用大量自动生成的数据进一步增强CoSC,不再依赖于GPT-4。实验结果显示,与现有的开源LLMs相比,CoSC显著提升了标准数学数据集的性能。值得注意的是,我们的CoSC-Code-34B模型在具有挑战性的MATH数据集上取得了53.5%的分数,超过了ChatGPT、GPT-4以及多模态LLMs如GPT-4V和Gemini-1.0。重要的是,CoSC以零样本方式进行操作,无需提供示例。
发布时间: 2/11/2025
查看原文
作者: Xi Wang, Taketomo Isazawa, Liana Mikaelyan, James Hensman
arXiv:2410.10450v2 公告类型: 替换 摘要: 在本文中,我们提出了知识库增强语言模型(KBLaM),这是一种将外部知识增强大型语言模型(LLMs)的新方法。KBLaM 使用从文档集合构建的知识库(KB),通过预训练的句子编码器和线性适配器将 KB 中的每一条知识转化为连续的键值向量对,并通过专门的矩形注意力机制将它们集成到预训练的 LLMs 中。与检索增强生成不同,KBLaM 消除了外部检索模块;与上下文学习不同,其计算开销随着 KB 大小线性增长而不是平方增长。我们的方法使我们能够在一个单一的 A100 80GB GPU 上将包含超过 10K 三元组的大型 KB 集成到仅 8K 上下文窗口的 8B 预训练 LLM 中,并且在不需要模型微调或重新训练的情况下支持动态更新。实验表明,KBLaM 在包括问答和开放式推理在内的各种任务中都非常有效,同时还能提供其使用增强知识的可解释见解。有关代码和数据集,请参阅 https://github.com/microsoft/KBLaM/
发布时间: 2/11/2025
查看原文
作者: Achint Soni, Sreyas Venkataraman, Abhranil Chandra, Sebastian Fischmeister, Percy Liang, Bo Dai, Sherry Yang
arXiv:2410.10076v3 宣告类型: 修改 摘要:视频生成已被用来生成控制机器人系统的视觉计划。给定一个图像观察和语言指令,以前的工作生成了视频计划,然后将其转换为可以执行的机器人控制指令。然而,在利用视频生成进行控制方面的主要瓶颈在于生成的视频质量,往往存在幻视内容和不切实际的物理现象,导致在从生成的视频中提取控制动作时任务成功率低。虽然扩大数据集和模型规模可以提供部分解决方案,但结合外部反馈是自然且必不可少的方法,以便将视频生成与现实世界相结合。基于这一观察,我们提出了VideoAgent,用于基于外部反馈自我改进生成的视频计划。VideoAgent 不是直接执行生成的视频计划,而是首先通过我们称为自我条件一致性的新方法对生成的视频计划进行细化,从而将推理时的计算转化为更好的生成视频计划。在生成细化后的视频计划被执行时,VideoAgent 可以从环境中收集额外的数据,进一步改进视频计划生成。我们在从MetaWorld和iTHOR模拟机器人操作中的实验表明,VideoAgent 显著减少了幻视现象,从而提高了下游操作任务的成功率。我们还展示了VideoAgent可以有效细化真实机器人视频,这表明机器人可以是一个有效的工具,用于在物理世界中将视频生成与现实世界相结合。相关视频演示和代码可以在https://video-as-agent.github.io找到。
发布时间: 2/11/2025
查看原文
作者: Jiashu He, Mingyu Derek Ma, Jinxuan Fan, Dan Roth, Wei Wang, Alejandro Ribeiro
arXiv:2410.08475v2 通告类型: 修改 摘要: 依赖上下文提示或强化学习(RL)以改进大型语言模型(LLMs)的推理能力的方法,都依赖于LLMs内部的知识来生成可靠的链式思考(CoT)。然而,无论LLMs的大小如何,某些问题仍然无法在一 passes 中得到解决。同时,基于代理的推理系统需要访问全面的非参数化知识库,这对于科学和专门领域的使用往往是昂贵的或不可行的。我们提出了图启发的真实性外推(GIVE),这是一种新颖的推理方法,将参数性和非参数性记忆相结合,以在最少的外部输入下提高准确推理的能力。GIVE 指引LLM 代理选择最相关专有数据(观察),参与查询特定的发散性思考(反思),然后综合这些信息以生成最终输出(发言)。广泛的实验表明,我们的框架具有以下优点:(1) GIVE 在各种尺寸的LLMs中提高了性能。(2) 在某些场景中,GIVE 使较小的LLMs能够在科学任务中超越更大的、更复杂的LLMs (GPT3.5T + GIVE > GPT4)。(3) GIVE 在科学和开域评估中有效。(4) GIVE 是一种无需训练的方法,使LLMs能够应对超出其训练数据的新问题 (准确率提升从43.5% -> 88.2%)。(5) GIVE 允许LLM代理使用有限的(非常小)和噪音的(非常大)知识源进行推理,能够支持从135到超过840,000个节点的知识图。(6) GIVE 的推理过程完全可解释。
发布时间: 2/11/2025
查看原文
作者: Lin Luo, Yuri Nakao, Mathieu Chollet, Hiroya Inakoshi, Simone Stumpf
arXiv:2407.11442v3 宣告类型: 重置 摘要: 已经提出了大量的公平性度量标准,人工智能(AI)专家们将其用于定量衡量偏见并定义AI模型中的公平性。认识到需要适应不同相关方的多元公平性理解,人们正在努力寻求他们的反馈。然而,向缺乏AI专业知识的相关方传达AI公平性度量标准、捕捉他们的个人偏好以及寻求集体一致意见仍然具有挑战性和尚未充分探索。为了弥合这一差距,我们提出了一种新的框架,称为EARN Fairness,该框架可以在不需要AI专业知识的情况下帮助相关方集体决策公平性度量标准。该框架的特点是一个可适应的交互系统以及一个以相关方为中心的EARN Fairness过程,包括解释公平性度量标准、询问相关方的个人度量偏好、集体审查度量标准以及通过协商达成度量选择的共识。为了收集实证结果,我们将该框架应用于信用评级场景,并对18名没有AI知识的决策主体进行了用户研究。我们确定了他们的个人度量偏好以及他们可接受的不公平程度。随后,在团体会议中发现了他们如何达成度量共识的过程。我们的研究表明,EARN Fairness框架使相关方能够表达个人偏好并达成共识,为在高风险环境下实施以人为中心的AI公平性提供了实际指导。通过这种方法,我们旨在协调不同相关方的公平性期望,促进更加公平和平等的AI公平性。
发布时间: 2/11/2025
查看原文