LLM2D

arXiv 论文列表

arXiv:2404.09077v2 Announce Type: replace-cross 摘要:大型语言模型(LLMs)已经在开放域的问题回答中取得了显著的成功。然而,它们仍然面临着幻觉和知识截止等问题的挑战。这些问题可以通过上下文学习得到缓解,即在生成答案之前为LLMs提供相关的上下文。最近的文献提出了一种知识图谱提示(KGP)的方法,将知识图谱与基于LLM的遍历代理结合,显著提高了文档检索的质量。然而,KGP需要大量数据集的成本高昂的微调,并仍然容易产生幻觉。在本文中,我们提出了CuriousLLM,一种将好奇心驱动的推理机制集成到LLM代理中的增强方法。这一机制使代理能够生成相关后续问题,从而更高效地指导信息检索过程。我们方法的核心是开发了新的Follow-upQA数据集,该数据集包括问题及其支持证据作为输入,后续问题作为 ground truth。这些后续问题要么询问还缺少什么才能完全回答用户的查询,要么使用特殊标记来表示检索到的证据已经足够。我们的实验表明,CuriousLLM在多文档问题回答(MD-QA)中显著提升了LLM的表现,规避了原始KGP框架的巨大计算成本和延迟。
发布时间: 2/18/2025
查看原文
作者: Yizhou Chi, Kevin Yang, Dan Klein
arXiv:2404.05966v2 公告类型: 替换-交叉 摘要: 我们介绍了THOUGHTSCULPT,这是一种适用于输出可以分解为组件的任务的通用推理和搜索方法。THOUGHTSCULPT 使用蒙特卡洛树搜索 (MCTS) 探索潜在解决方案的搜索树,逐步构建解决方案并根据任何领域特定启发式进行评估,实践中通常是简单的LLM评估器。关键的是,我们的操作空间包括修正操作:THOUGHTSCULPT 可能选择修正其部分先前输出,而不是继续构建其余输出。实验表明,THOUGHTSCULPT 在三个具有挑战性的任务上优于最先进的推理方法:故事梗概改进(最高提高30%的兴趣度)、微型填字游戏解题(最高提高16%的单词成功率)以及受约束生成(最高提高10%的概念覆盖面)。
发布时间: 2/18/2025
查看原文
作者: Shahzeb Naeem, Muhammad Riyyan Khan, Usman Tariq, Abhinav Dhall, Carlos Ivan Colon, Hasan Al-Nashash
arXiv:2404.01438v2 宣布类型: 替换交叉引用 摘要:这项研究探讨了深度假�rah技术在上半身生成中的正面应用,特别是针对聋人和听力障碍者(DHoH)社区的的手语生成。鉴于手语的复杂性和专家的稀缺性,生成的视频由手语专家进行准确性审核。我们构建了一个可靠的深度假顛数据集,使用计算机视觉和自然语言处理模型评估其技术和视觉可信度。该数据集包含超过1200个视频,涉及已知和未知个体,也被用于检测针对弱势群体的深度假顛视频。专家标注确认,生成的视频在真实手语内容方面具有可比性。使用文本相似性评分和译者的评价进行语言分析,显示生成视频的解释与真实的手语至少有90%相似度。视觉分析表明,即使是对新主体,也可以生成令人信服的真实感深度假顛。通过使用姿态/风格转换模型,我们注重细节,确保手部动作准确并与驱动视频对齐。我们还应用机器学习算法为该数据集建立基线,以检测虚假手语视频,从而贡献于深度假顛检测。
发布时间: 2/18/2025
查看原文
作者: Shuyu Chang, Rui Wang, Peng Ren, Qi Wang, Haiping Huang
arXiv:2403.17706v2 宣告类型: 替换-交叉 摘要:在推文和新闻片段等短文本中有效地建模主题对于捕捉快速演变的社会趋势至关重要。现有主题模型通常难以准确捕捉短文本下的语义模式,主要是由于此类数据的稀疏性。这种文本的性质导致不可避免地缺乏共现信息,这阻碍了挖掘主题的一致性和细粒度。本文介绍了一种新的模型无关机制,称为主题细化,该机制利用大型语言模型(LLMs)的高级文本理解能力来进行短文本主题建模。与传统方法不同,这种后处理机制通过提示工程技术来提高各种主题建模方法提取的主题质量。我们指导LLMs识别提取主题中的语义异类词,并建议一致的替代词来替换这些词。这一过程模仿了人类识别、评估和细化提取主题的方式。对四个不同数据集的广泛实验表明,主题细化提高了主题质量,并提高了与主题相关文本分类任务的表现。
发布时间: 2/18/2025
查看原文
作者: Jian Li, Pu Ren, Yang Liu, Hao Sun
arXiv:2403.15245v2 公告类型: replace-cross 摘要:以物为中心的学习旨在将复杂的视觉场景分解为更易管理的对象表示,从而增强机器学习系统对物理世界的理解与推理能力。近年来,基于槽的视频模型在分割和追踪对象方面展现了卓越的能力,但忽略了有效推理模块的重要性。在现实世界中,推理和预测能力在人类感知和对象追踪中起着关键作用,尤其是这些能力与人类直觉物理学紧密相关。受到这一启发,我们设计了一个名为基于槽的时间-空间变换器带有记忆缓冲区(STATM)的新推理模块,以增强模型在复杂场景中的感知能力。记忆缓冲区主要用于存储上游模块的槽信息,基于槽的时间-空间变换器通过基于槽的时间-空间注意计算和融合来进行预测。我们在多个数据集上的实验结果表明,STATM模块可以显著增强多个先进以物为中心的学习模型在视频中的能力。此外,作为预测模型,STATM模块在下游预测和视觉问答(VQA)任务中也表现出色。我们将在此处发布我们的代码和数据:https://github.com/intell-sci-comput/STATM。
发布时间: 2/18/2025
查看原文
作者: Ziyao Liu, Huanyi Ye, Chen Chen, Yongsen Zheng, Kwok-Yan Lam
arXiv:2403.13682v5 宣告类型: replace-cross 摘要:机器去学习(MU)由于其在从已训练的机器学习(ML)模型中移除特定数据以实现安全AI方面的潜力,近年来引起了广泛关注。这一过程,称为知识移除,解决了训练数据的质量、敏感性、版权限制和过时等问题所引起的AI治理问题。这种能力对于确保符合《被遗忘权》(RTBF)等隐私法规同样至关重要。此外,有效的知识移除能够减轻有害结果的风险,防止偏见、错误信息和未经授权的数据利用,从而增强AI系统的安全和负责任的使用。为了设计高效的去学习方法,已经进行了诸多努力,包括将MU服务与现有机器学习即服务(MLaaS)进行整合,允许用户提交请求以从训练语料中删除特定数据。然而,近期的研究发现,机器去学习系统存在信息泄露和恶意去学习等漏洞,这可能会导致重大的安全和隐私问题。此外,大量研究表明,去学习方法和常见攻击在MU系统中发挥着不同的作用。这强调了这些机制之间错综复杂的关系和复杂的互动,对于维护系统的功能和安全性至关重要。本文旨在填补机器去学习方面对威胁、攻击和防御研究数量众多但缺乏全面分类、方法和解决方案的综述这一空白,从而为未来的研究方向和实际实施提供有价值的见解。
发布时间: 2/18/2025
查看原文
作者: Xiaoyu Liu, Paiheng Xu, Junda Wu, Jiaxin Yuan, Yifan Yang, Yuhang Zhou, Fuxiao Liu, Tianrui Guan, Haoliang Wang, Tong Yu, Julian McAuley, Wei Ai, Furong Huang
arXiv:2403.09606v2 宣告类型: replace-cross 摘要:因果推理已被证明能够通过捕捉变量之间的因果关系来提升自然语言处理(NLP)模型的预测准确性、公平性、稳健性和可解释性。生成型大规模语言模型(LLMs)的出现对各种NLP领域产生了重大影响,尤其是在其先进的推理能力方面。本综述从因果视角出发,旨在评估和改进LLMs的以下方面:理解并提高LLMs的推理能力、解决LLMs中的公平性和安全性问题、为LLMs提供解释、处理多模态数据。同时,LLMs强大的推理能力可以反过来促进因果推理领域的发展,辅助发现因果关系和估计因果效应。本文从因果推理框架和LLMs的相互作用视角出发,强调它们的集体潜力,旨在进一步推动更先进和公平的人工智能系统的开发。
发布时间: 2/18/2025
查看原文
arXiv:2403.08211v3 宣告类型:替换交叉 摘要:提示方法在增强预训练大型语言模型(LLMs)的能力方面发挥着关键作用。我们探索了对比提示(CP)如何显著提高大型语言模型进行复杂推理的能力。我们通过在LLMs提供答案之前添加“让我们给出一个正确的答案和一个错误的答案。”来展示LLMs作为对比推理者的能力。对各种大型语言模型的实验表明,零样本对比提示在各种算术、常识和符号推理任务中显著提升了标准零样本提示的效果,而无需任何人工设计的少样本示例,例如,使用最先进的GPT-4模型将GSM8K的准确率从35.9%提高到88.8%,AQUA-RAT的准确率从41.3%提高到62.2%。我们的方法在大多数算术和常识推理任务中不仅超越了零样本CoT和少样本CoT,还能无缝集成到现有的提示方法中,与最先进的方法相比,其表现更好或相当。我们的代码可在 https://github.com/yao8839836/cp 获取。
发布时间: 2/18/2025
查看原文
arXiv:2403.07887v3 通告类型: replace-cross 摘要:人类认知的多个论述认为,我们的智能源自形成抽象可组合的概念、将这些概念扎根于环境以及在这些扎根实体上进行推理的能力。这一人类思维的三重组合在现代智能机器中始终难以实现。在这项工作中,我们探讨了从视觉场景中提取的槽表示是否适合作为适当的组合抽象来进行扎根和推理。我们介绍了神经槽解释器(NSI),它学习将物体语义扎根于槽中。NSI的核心是一个类似于XML的模式,它使用简单的语法规则将场景中的物体语义组织成物体为中心的模式原语。然后,通过结构化的对比学习目标,NSI评估了这些原语与槽之间的跨模态对齐,从而学习扎根。具有双模物体属性和场景检索任务的实验展示了NSI学习对应关系的有效性和可解释性。从场景表示的角度来看,我们发现,NSI槽通过绑定到空间对象超越了图像网格,从而在视觉扎根方面优于基于常规边界框的方法。从数据效率的角度来看,我们实验证明,与传统的做法相比,NSI可以从固定数量的注解数据中学习到更具推广性的表示。我们还展示了根植槽在实际物体发现中优于无监督的槽,并且随着场景复杂性的增加而规模扩大。最后,我们研究了根植槽的推理能力。使用感知耕耘意识到的NSI标记器进行训练的视觉变换器,在仅使用十个标记的挑战性少量样本分类任务中,优于基于块的标记。
发布时间: 2/18/2025
查看原文
作者: Peyman Hosseini, Mehran Hosseini, Ignacio Castro, Matthew Purver
arXiv:2403.01643v3 宣告类型: replace-cross 摘要:从自然语言处理到计算机视觉,缩放点积注意(SDPA)是大多数现代深度学习应用的核心。不幸的是,在资源有限的环境中,它的内存和计算需求可能是不可行的。在本文中,我们改进了它的效率,而无需牺牲其多功能性。我们提出了三种注意变体,在这些变体中,我们移除了连续的线性变换或添加了一个新型变换,并在一系列标准的自然语言处理和计算机视觉任务上对其进行评估。我们提出的新模型比标准SDPA显著更轻(参数少25-50%)。我们展示了这些变化的性能代价相对于大小减小可以忽略不计,并且在一种情况下(超级注意),我们在保持甚至提高了SDPA的速度的同时,将其参数减少了25%,并在某些情况下将其性能提高了10%。
发布时间: 2/18/2025
查看原文