LLM2D

arXiv 论文列表

作者: Yuxiang Wang, Junhao Gan, Jianzhong Qi
arXiv:2502.13422v1 交叉类型: cross 摘要: 由于缺乏预先定义的模式和大型表格中存在的噪声,自由格式表格的问答(TableQA)极具挑战性。尽管大型语言模型(LLMs)在TableQA方面显示出潜力,但在处理大型自由格式表格和噪声敏感性方面仍存在问题。为了解决这些挑战,我们提出了一种基于SQL的分解模型TabSD,以增强LLMs处理大型自由格式表格的能力。TabSD生成SQL查询以指导表格分解、去除噪声,并处理子表格以更好地生成答案。此外,SQL Verifier对SQL输出进行细化以提高分解准确性。我们引入了两个包含大型自由格式表格的TableQA数据集SLQA和SEQA,其中仅包含大型自由格式表格,并将公开提供。在四个基准数据集上的实验结果表明,TABSD分别在准确性上优于现有的最佳基线模型23.07%、2.84%、23.24%和9.32%,突显了其在处理大型和嘈杂的自由格式表格方面的有效性。
发布时间: 2/20/2025
查看原文
作者: Yifei Xu, Tusher Chakraborty, Emre K{\i}c{\i}man, Bibek Aryal, Eduardo Rodrigues, Srinagesh Sharma, Roberto Estevao, Maria Angels de Luis Balaguer, Jessica Wolk, Rafael Padilha, Leonardo Nunes, Shobana Balakrishnan, Songwu Lu, Ranveer Chandra
arXiv:2502.13417v1 任务类型:跨域 摘要:由于强化学习从人类反馈(RLHF)中高质量的人类注释成本高以及AI反馈的一般化限制,将大规模语言模型(LLMs)调整到与用户偏好一致具有挑战性。为了解决这些挑战,我们提出了一种人机混合框架RLTHF,该框架结合了基于LLM的初步对齐和选择性的人类注释,以最小的努力实现全面的人类注释对齐。RLTHF使用奖励模型的奖励分布来识别LLM错误标注的难以注释的样本,并通过集成战略的人类修正来逐步增强对齐,同时利用LLM正确标注的样本。在HH-RLHF和TL;DR数据集上的评估结果显示,RLTHF仅需6-7%的人类注释努力即可达到全面的人类注释级别对齐。此外,使用RLTHF精选数据集进行下游任务训练的模型在性能上优于使用完全人类标注数据集训练的模型,这进一步证明了RLTHF战略数据精选的有效性。
发布时间: 2/20/2025
查看原文
作者: Yanbang Sun, Qing Huang, Xiaoxue Ren, Zhenchang Xing, Xiaohong Li, Junjie Wang
arXiv:2502.13412v1 交叉类型:cross 摘要:API 知识图谱(API KG)是一个结构化的网络,用于建模 API 实体及其关系,为其推荐 API、代码生成和 API 使用不当检测等任务提供重要的语义洞察。然而,构建一个知识丰富且可靠的 API KG 面临着诸多挑战。现有的基于模式的方法高度依赖于手动注释来设计知识图谱(KG)模式,导致人工干预过多。另一方面,缺乏模式指引的无模式方法容易引入噪声,降低 KG 的可靠性。为了解决这些问题,我们提出了一种基于大规模语言模型(LLMs)的自动化的 API KG 构建框架——Explore-Construct-Filter 框架。该框架包括三个关键模块:1) KG 探索:大规模语言模型模拟注释人员的工作流程,自动设计一个包含全面类型三元组的模式,最大限度地减少人工干预;2) KG 构建:在模式的指导下,大规模语言模型提取实例三元组以构建一个丰富但不可靠的 API KG;3) KG 过滤:去除无效类型三元组和可疑实例三元组,构建一个丰富且可靠的 API KG。实验结果表明,我们的方法超越了最先进的方法,在 F1 分数上提高了 25.2%。此外,Explore-Construct-Filter 框架的有效性也得到了验证,KG 探索模块将 KG 的丰富性提高了 133.6%,而 KG 过滤模块提高了 26.6% 的可靠性。最后,跨模型实验进一步证实了我们框架的泛化能力。
发布时间: 2/20/2025
查看原文
作者: Siddarth Srinivasan, Ezra Karger, Michiel Bakker, Yiling Chen
arXiv:2502.13410v1 类型: cross 摘要: 常识告诉我们,当个人解释他们为什么相信某事时,我们可以得出比他们仅陈述他们所相信的内容更为准确的结论。然而,目前没有已知的机制能够激励代理提供信念的解释。这种情况很可能源于标准贝叶斯模型假设(如信号的条件独立性)使得无需解释也能高效地整合信息。解释的价值的一个自然理由是,代理的信念倾向于来自重叠的信息源,因此代理的信念报告并不能透露所有需要了解的信息。事实上,本文认为,解释(即代理对其私人信息的说明)能够通过使代理能够高效地识别他们共享的信息和新信息,从而促进更有效的信息整合。基于这一解释模型,我们提出了一种新的“讨论机制”,在这种机制中,代理真实地报告信念和解释是一个完美的贝叶斯平衡。
发布时间: 2/20/2025
查看原文
作者: Ziyuan Liu, Ruifei Zhu, Long Gao, Yuanxiu Zhou, Jingyu Ma, Yuantao Gu
arXiv:2502.13407v1 宣传类型: 横向 摘要: 深度学习在遥感图像变化检测(CD)领域取得了显著的成果,但仍存在两个主要挑战:缺乏低分辨率到亚米级的全面开源CD数据集,以及在变化区域各异的图像上实现一致且令人满意的变化检测结果的难度。为了解决这些问题,我们介绍了JL1-CD数据集,该数据集包含5,000对分辨率为0.5到0.75米的512 x 512像素图像。此外,我们还提出了一种多教师知识蒸馏(MTKD)框架用于变化检测。JL1-CD和SYSU-CD数据集上的实验结果表明,MTKD框架显著提高了不同网络架构和参数量的变化检测模型的性能,实现了新的最先进的结果。代码可在 https://github.com/circleLZY/MTKD-CD 获取。
发布时间: 2/20/2025
查看原文
arXiv:2502.13406v1 宣告类型: cross 摘要:生成控制策略最近在机器人领域取得了重大进展。这些方法通过扩散或流匹配产生动作序列,训练数据来自于演示。尽管在复杂的操作问题上取得了显著成功,生成策略仍然存在两个关键局限性。首先,行为克隆需要专家演示,这往往耗时且成本高昂。其次,现有的方法限制在相对较慢的准静态任务上。本文利用基于采样的预测控制与生成建模之间的紧密联系来解决这两个问题。特别是,我们引入了生成预测控制,这是一种监督学习框架,适用于快速动力学任务,这些任务易于模拟但难以演示。随后,我们展示了如何在运行时使用训练好的流匹配策略进行热启动,保持时间一致性,并允许快速反馈率。我们认为,生成预测控制为现有的行为克隆方法提供了一种补充方法,希望这能铺平通往超越准静态演示任务的一般性策略的道路。
发布时间: 2/20/2025
查看原文
arXiv:2502.13398v1 类型: cross 摘要: 尽管最近取得了进展,但大多数分子优化的计算方法仅限于单属性或双属性优化任务,并且在扩展性和新型优化任务的一般适用性方面表现不佳。同时,大型语言模型(LLMs)在处理新型任务方面显示出卓越的跨领域一般适用性。为了展示LLMs在分子优化领域的潜力,我们引入了MoMUInstruct,这是第一个专注于复杂多属性分子优化任务的高质量指令调优数据集。利用MoMUInstruct,我们开发了GeLLM^3Os,一系列用于分子优化的指令调优LLMs。在5个领域内和5个领域外任务的广泛评估中,GeLLM^3Os持续超越最先进的基线模型。GeLLM^3Os在未见过的任务上的零样本泛化表现也非常出色,远超强大的闭源LLMs。这种强大的泛化能力展示了GeLLM^3Os作为分子优化基础模型的巨大潜力,使其能够在不进行资源密集型重训的情况下解决新型优化任务。MoMUInstruct、模型和代码可通过https://github.com/ninglab/GeLLMO访问。
发布时间: 2/20/2025
查看原文
作者: Ameesh Shah, Niklas Lauffer, Thomas Chen, Nikhil Pitta, Sanjit A. Seshia
arXiv:2502.13376v1 宣布类型: cross 摘要: 提高合作多智能体学习中样本效率的一种方法是将整体任务分解为可以分配给单个智能体的子任务。我们在奖励机器的背景下研究了这一问题:一种可以形式上分解为子任务的符号任务。为了处理事先不了解环境的设置,我们引入了一个可以从无模型的环境交互中学习最优分解的框架。我们的方法使用任务条件化的架构同时学习最优分解和每个子任务对应的智能体策略。通过这种方式,我们移除了人类手动设计最优分解的需要,同时保持改进的归因效率带来的样本效率优势。我们提供了在多个深度强化学习设置中的实验结果,展示了我们方法的有效性。我们的结果表明,在智能体动力学相互依赖的环境中,我们的方法仍然能够成功,这使得同步多智能体学习成为可能,这是之前工作中无法实现的。
发布时间: 2/20/2025
查看原文
作者: Sichu Liang, Linhai Zhang, Hongyu Zhu, Wenwen Wang, Yulan He, Deyu Zhou
arXiv:2502.13361v1 交叉类型: 摘要:医学问答需要广泛获取专门的概念知识。当前的 paradigm 是检索增强生成(RAG),它通过大规模语料库检索获取医学专业知识,并利用这些知识指导通用的大型语言模型(LLM)生成答案。然而,现有的检索方法往往忽视了事实知识的重要性,这限制了检索到的概念知识的相关性,并限制了其在现实世界场景中的适用性,例如基于电子健康记录(EHRs)进行临床决策。本文介绍了 RGAR,这是一种循环生成增强检索框架,可以从双源(即 EHRs 和语料库)检索相关事实和概念知识,并使它们相互作用和相互完善。通过在三个事实驱动的医学问答基准数据集上进行广泛的评估,RGAR 在医学 RAG 系统中取得了新的最佳性能。值得注意的是,配备 RGAR 的 Llama-3.1-8B-Instruct 模型超过了大幅增强的 RAG 加强版 GPT-3.5。我们的研究结果表明,提取事实知识对于检索的益处是一致的,这可以提高生成质量。
发布时间: 2/20/2025
查看原文
作者: Liangqi Lei, Keke Gai, Jing Yu, Liehuang Zhu, Qi Wu
arXiv:2502.13345v1 安全性类型:交叉研究 摘要:潜在扩散模型在生成任务中展现了巨大的潜力。水印被认为是保护生成模型的版权和防止其滥用的一种替代方法。然而,在模型分发场景中,对大量模型用户的模型访问带来了对现有水印解决方案的安全性、效率和鲁棒性的新挑战。为了解决这些问题,我们提出了一种安全且高效的水印解决方案。设计了一种新的安全机制,以防止水印泄露和水印逃逸,该机制将水印随机性和水印-模型关联视为必须进行强制水印注入的两个约束条件。为了降低训练安全模块所需的时间成本,水印注入和安全机制被解耦,从而确保仅对VAE进行微调以实现安全机制,而不必学习水印模式。提出了一种基于水印分发的验证策略,以增强在模型分发场景中的鲁棒性。实验结果证明,我们的水印解决方案在效果和针对十种图像处理攻击和对抗攻击的鲁棒性方面,始终优于现有六个基线,同时在分发场景中增强了安全性。
发布时间: 2/20/2025
查看原文