LLM2D

arXiv 论文列表

作者: Majid Ghasemi, Amir Hossein Moosavi, Dariush Ebrahimi
arXiv:2411.18892v2 更新通知类型: 替换 摘要:强化学习(RL)已成为人工智能(AI)中的一个强大范式,使代理能够在与环境互动过程中学习最优行为。从试错的基础出发,RL 使代理能够通过奖励或惩罚形式的反馈做出知情决策。本文对 RL 进行了全面综述,详细分析了从基础的表格方法到先进的深度强化学习(DRL)技术的广泛算法。我们根据关键标准如可扩展性、样本效率和适用性对这些算法进行分类和评估。我们通过比较这些方法在各种环境中的优势和劣势来进行对比。此外,我们还提供了选择和实施 RL 算法的实际见解,解决了常见的挑战,例如收敛性、稳定性以及探索与利用的权衡问题。本文为追求充分利用 RL 解决复杂现实世界问题的研究人员和实践者提供了一个全面的参考。
发布时间: 2/4/2025
查看原文
作者: Kumud Lakara, Georgia Channing, Juil Sock, Christian Rupprecht, Philip Torr, John Collomosse, Christian Schroeder de Witt
arXiv:2410.20140v2 宣告类型: 替换 摘要:一种最具挑战性的虚假信息形式是将图片与误导性文字结合的断章取义(OOC)使用,从而营造虚假叙事。现有的基于AI的检测系统缺乏解释性,并且需要昂贵的微调。我们通过LLM-Consensus,一个针对OOC虚假信息检测的多代理辩论系统来解决这些问题。LLM-Consensus引入了一种新颖的多代理辩论框架,其中多模态代理协同合作来评估上下文一致性,并请求外部信息以增强跨上下文的推理和决策能力。我们的框架即使在没有特定领域微调的情况下,也能提供解释性的检测和最先进的准确性。广泛的消融研究证实,外部检索显著提高了检测准确性,用户研究显示LLM-Consensus能够同时提升专家和非专家的表现。这些结果将LLM-Consensus定位为自主和公民智能应用的强大工具。
发布时间: 2/4/2025
查看原文
作者: Xin Li, Qizhi Chu, Yubin Chen, Yang Liu, Yaoqi Liu, Zekai Yu, Weize Chen, Chen Qian, Chuan Shi, Cheng Yang
arXiv:2410.18032v3 宣告类型: 替换 摘要: 图形广泛用于现实世界场景中的关系数据建模,例如社会网络和城市计算。现有的基于大语言模型(LLM)的图形分析方法要么将图形神经网络(GNNs)集成用于特定的机器学习任务,从而限制其转移性,要么仅仅依赖于LLM内部的推理能力,导致性能不佳。为了解决这些限制,我们利用了基于LLM的智能代理领域的最新进展,这些智能代理显示出利用外部知识或工具解决问题的能力。通过模拟人类问题解决策略,如类比和协作,我们基于LLM提出了一种名为GraphTeam的多智能体系统,用于图形分析。GraphTeam由三个模块中的五个基于LLM的智能体组成,不同专业领域的智能体可以相互协作以解决复杂的问题。具体而言,(1) 输入-输出规范化模块:问题智能体从原始问题中提取和提炼四个关键论据,便于问题理解,而答案智能体组织结果以满足输出要求;(2) 外部知识检索模块:我们首先构建了一个包含相关文档和经验信息的知识库,然后搜索智能体检索每个问题最相关的条目。(3) 问题解决模块:给定搜索智能体检索的信息,编码智能体通过编程使用已建立的算法生成解决方案,在编码智能体无法工作的情况下,推理智能体将直接进行计算而无需编程。在六个图形分析基准上的广泛实验表明,在准确率方面,GraphTeam 的性能达到了最先进的水平,相对于最佳基线,其平均提高了25.85%。代码和数据可在 https://github.com/BUPT-GAMMA/GraphTeam 获得。
发布时间: 2/4/2025
查看原文
作者: L. I. Zablocki, L. A. Bugnon, M. Gerard, L. Di Persia, G. Stegmayer, D. H. Milone
arXiv:2410.16212v2 宣告类型: 替换 摘要:受大型语言模型(LLM)在DNA和蛋白质方面取得成功的影响,最近已经开发出了几种针对RNA的LLM。RNA-LLM 使用大规模的RNA序列数据集,以自监督的方式学习如何用语义丰富数值向量来表示每一片RNA碱基。这是在假设获得高质量的RNA表示可以提高数据成本高昂的下游任务的情况下进行的。其中,预测二级结构是一个基本任务,对于揭示RNA功能机制至关重要。在本文中,我们对几种预训练的RNA-LLM 进行了全面的实验分析,将它们统一在深度学习框架下,比较它们在RNA二级结构预测任务上的表现。RNA-LLM 在基准数据集上进行了逐步提高泛化难度的评估。结果表明,有两款LLM 明显优于其他模型,并揭示了在低同源性场景下的泛化挑战。
发布时间: 2/4/2025
查看原文
arXiv:2409.16001v2 公告类型: 替换 摘要:人类智能,作为最显而易见且极易获得的推理形式,由生物硬件承载,并在几千年的进化与提炼中,今天已发展出新的人工形式,并正准备自我设计其进化的路径。随着基础模型的出现,人类与人工智能之间的互动频率已超出任何预期的定量数据。这种密切互动以各种方式影响了两者,自然引发了需要仔细审查的复杂交汇。在随后的部分中,我们将使用一种新的分类法,探讨人类与机器智能之间的互动,重点探讨人类在开发道德、负责任和稳健智能系统中所扮演的关键角色。我们简要探讨了受神经科学和人类认知机制启发的各种实施方面的内容。此外,我们提出了未来视角,利用共生设计的优势,建议下一代开发以人类为中心的方向,重点在于人工智能的增强作用。最后,我们以一些有待更广泛社区解答的想法和问题作为本文的结束。
发布时间: 2/4/2025
查看原文
作者: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang
arXiv:2409.14038v5 公告类型:替换 摘要:大型语言模型(LLMs)在领域特定的下游任务中常见地出现幻觉现象,而在本体匹配(OM)任务中也不例外。由于使用LLMs进行OM的应用日益增多,因此需要基准数据集来更好地了解LLMs的幻觉现象。OAEI-LLM数据集是Ontology Alignment Evaluation Initiative(OAEI)数据集的扩展版本,用于评估OM任务中特定于LLMs的幻觉现象。我们概述了数据集构建和模式扩展的方法,并提供了潜在应用场景的示例。
发布时间: 2/4/2025
查看原文
arXiv:2408.17380v2 宣告类型: 修订 摘要: 基于模型的强化学习(RL)有望通过利用虚拟环境模型表现出比无模型RL更高的样本效率。然而,由于复杂系统和环境中的不确定性,获取环境动力学的足够准确表示仍然是一个挑战。不准确的环境模型可能会降低基于模型的RL的样本效率和性能。同时,尽管基于模型的RL可以提高样本效率,但由于需要从头学习,通常仍然需要大量的训练时间,这可能会限制其相对于无模型方法的优势。为了解决这些挑战,本文提出了一种知识导向的基于模型的残差强化学习框架,旨在通过将已确立的专家知识融合到学习过程中来提高学习效率,并避免从零开始的问题。我们的方法将交通专家知识融入到虚拟环境模型中,使用智能驾驶模型(IDM)处理基本动力学,并使用神经网络处理残差动力学,从而确保对复杂场景的适应性。我们提出了一种新的策略,将传统的控制方法与残差RL结合,使得在不需要从头学习的情况下,也能实现高效的学习和策略优化。为了应用,我们将在混合交通流中针对CAV轨迹控制任务对停止-行走波的消散进行测试。实验结果表明,我们的方法在轨迹控制方面相比基线代理在样本效率、交通流平滑性和交通流动性方面实现了更好的性能。源代码和补充材料可在以下网址获取:https://zihaosheng.github.io/traffic-expertise-RL/。
发布时间: 2/4/2025
查看原文
作者: Jia Zhang, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
arXiv:2408.11449v2 通知类型: 替换 摘要:像 CLIP 这样的视觉语言模型在图像分类任务中通过文本和图像对齐展示了令人印象深刻的零样本能力,但在性能上却不如针对特定任务的专家模型。相反,专家模型在它们的专业领域表现出色,但对于新任务缺乏零样本能力。如何同时获得专家模型的高性能和零样本能力是一个重要的研究方向。在本文中,我们尝试通过构建模型枢纽并使用模型标签将模型与其功能进行对齐,证明可以通过有效地选择和重用枢纽中的模型以零样本的方式解决新任务。我们引入了一种新的范式,模型标签学习(Model Label Learning, MLL),通过语义有向无环图(SDAG)弥合了模型与其实现功能之间的差距,并利用分类头部组合优化算法(CHCO)选择适合新任务的模型。与基础模型范式相比,MLL 更具成本效益且更具可扩展性,即零样本能力随着模型枢纽规模的扩大而增长。在七个真实世界数据集上的实验验证了 MLL 的有效性和效率,证明了专家模型可以有效地被重用以应对零样本任务。我们的代码将公开发布。
发布时间: 2/4/2025
查看原文
作者: Yuhe Nie, Michael Middleton, Tim Merino, Nidhushan Kanagaraja, Ashutosh Kumar, Zhan Zhuang, Julian Togelius
arXiv:2408.09594v3 公告类型: 替换 摘要: 通过机器学习进行程序化内容生成(PCGML)已经提升了游戏内容的创建,但可控制性和有限的训练数据仍然是挑战。本研究通过提炼一种建设性PCG算法为一种可控制的PCGML模型来解决这些问题。我们首先使用一种建设性算法生成大量内容,并使用大型语言模型(LLM)对其进行标记。我们利用这些合成的标签对两个PCGML模型进行条件化,分别是一个扩散模型和五美元模型,从而实现内容特定的生成。这个神经网络提炼过程确保生成的内容与原始算法保持一致,并通过纯文本引入了可控制性。我们将这种基于文本条件化的PCGML定义为“文本到游戏地图”(T2M)任务,提供了一种替代流行的文本到图像多模态任务的方案。我们对比了提炼后的模型与基线建设性算法。我们对生成的多样性和质量的分析证明了将建设性方法提炼为可控制的文本条件化PCGML模型的有效性。
发布时间: 2/4/2025
查看原文
作者: Jinwei Hu, Yi Dong, Xiaowei Huang
arXiv:2408.08959v2 安全类型: 替换 摘要: 作为一种新兴机制,Guardrail 设计旨在通过调节有害或有毒的响应,确保大型语言模型(LLMs)与人类价值观对齐,它在设计中需要一种社会技术方法。本文解决了一个关键问题:现有的 Guardrail 缺乏一套确立的方法来满足不同用户群体的多样化需求,特别是关于访问权限的问题。本研究依托于信任建模(主要在“社会”方面)并通过对检索增强生成的在线上下文学习进行增强,在“技术”方面引入了一种自适应 Guardrail 机制,以根据用户的信任度指标动态调节对敏感内容的访问。用户的信任度指标,作为一种新颖的直接互动信任和权威验证信任的组合,使系统能够根据用户的真实性以及他们询问的具体情境,精确地调整内容审核的严格程度。我们的实证评估表明,这种自适应 Guardrail 在满足多样化用户需求方面表现出色,优于现有的 Guardrail,同时通过上下文感知的知识库来保护敏感信息并精确管理潜在的危险内容。据我们所知,这是首次将信任导向的概念引入到 Guardrail 系统中,提供了一种可扩展的解决方案,丰富了下一代 LLM 服务伦理部署的讨论。
发布时间: 2/4/2025
查看原文