LLM2D

arXiv 论文列表

作者: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
arXiv:2505.07215v1 宣告类型: 新 摘要: 我们介绍了gg-bench,这是一个游戏环境集合,旨在评估语言模型的通用推理能力。与大多数静态基准不同,gg-bench 是一个数据生成过程,新的评估实例可以随时生成。具体而言,通过以下步骤生成合成的gg-bench:(1) 使用大型语言模型 (LLM) 生成新颖游戏的自然语言描述,(2) 使用LLM将每款游戏编码实现为一个Gym环境,以及(3) 使用自博弈训练强化学习 (RL) 剂量,针对生成的游戏。我们通过让模型提供游戏描述、当前棋盘状态和有效移动列表来评估语言模型,然后模型输出它们希望采取的移动。gg-bench 具有挑战性:像GPT-4o 和Claude 3.7 Sonnet这样的先进LLM在上下文学习的情况下,在gg-bench 上的胜率为7-9%,而像o1、o3-mini 和DeepSeek-R1这样的推理模型在gg-bench上的平均胜率是31-36%。我们发布了生成的游戏、数据生成过程和评估代码,以便支持未来的工作并对我们的基准进行进一步扩展。
发布时间: 5/13/2025
查看原文
arXiv:2505.07178v1 宣告类型: 新 摘要:生成式人工智能(AI)技术的快速发展引发了社会技术系统问责制方面的担忧。当前的生成式AI系统依赖于复杂的机制,使得即使是专家也很难完全追溯其输出的原因。本文首先审视了现有关于AI透明度和问责制的研究,并认为透明度并不是问责制的充分条件,但可以促进其改进。然后讨论了如果无法使生成式AI变得透明,生成式AI技术在比喻意义上就成为“人工创造的自然”,并建议采用预防性原则来考虑AI风险。最后,提出需要一个公民参与的平台来应对生成式AI的风险。
发布时间: 5/13/2025
查看原文
arXiv:2505.07171v1 通知类型: 新 摘要: 知识图谱(KGs),由形式为(头,关系,尾)的三元组组成,包含实体和关系,对信息检索系统如问答、实体搜索和推荐起着关键作用。在现实世界的知识图谱中,虽然存在许多实体,但关系呈现出长尾分布,这可能影响信息检索性能。先前的少量知识图谱补全研究仅集中于图中存在的正三元组信息,或者即使引入了负三元组,也只是将其作为一种指示错误三元组的信号。为克服这一局限性,我们提出了基于关系的条件扩散与注意力聚合(ReCDAP)。首先,通过随机替换支持集中尾实体来生成负三元组。通过有条件地将正信息纳入知识图谱和非存在的负信息引入扩散过程,模型分别估计正和负关系的潜在分布。此外,包含注意力聚合器使模型能够明确地利用正和负案例之间的差异。在两个广泛使用的数据集上的实验表明,我们的方法优于现有方法,达到业内最佳性能。代码可在 https://github.com/hou27/ReCDAP-FKGC 获取。
发布时间: 5/13/2025
查看原文
arXiv:2505.07089v1 宣布类型: 新 摘要: 由大型语言模型(LLMs)驱动的自动化渗透测试(AutoPT)因其能够自动化伦理黑客攻击过程并在目标系统中识别漏洞而引起了关注。然而,现有的基于LLM的AutoPT框架在面对挑战性任务时往往不如人类专家表现良好,原因包括LLM训练中不均衡的知识、规划过程中的短视规划以及命令生成过程中的幻觉。此外,渗透测试(PT)过程因其试错性质,现有的框架缺乏机制来利用之前失败操作的经验,从而限制了PT策略的适应性改进。为了应对这些局限性,我们提出了一种由LLM支持的知识驱动和自我反思的渗透测试框架,称为RefPentester,这是一项旨在协助人类操作员识别当前PT过程阶段、选择合适的战术和技术、选择建议的操作、提供逐步操作指导,并从之前的失败操作中学习的AutoPT框架。我们还将PT过程建模为一个包含七个状态的阶段机器,以有效集成提出的框架。评估结果显示,RefPentester在揭示Hack The Box的Sau机器上的凭据方面表现成功,优于基准的GPT-4o模型16.7%。在PT的各个阶段,RefPentester还显示了在PT阶段转换上的优越成功率。
发布时间: 5/13/2025
查看原文
作者: Robert E. Wray, James R. Kirk, John E. Laird
arXiv:2505.07087v1 宣告类型: 新作 摘要: 人工智能(和超人工智能)的一个目标是识别和理解足以实现一般智能的具体机制和表示。通常,这项工作体现在针对架构的研究上,AI/AGI 中已经探索了许多认知架构。然而,不同的研究小组甚至不同的研究传统在一定程度上独立地识别出了相似或常见的过程和表示模式或认知设计模式,这些模式在现有的架构中有所体现。今天,利用大型语言模型(LLMs)的 AI 系统提供了一种相对较新的机制和表示方式,用于探索一般智能的可能性。在本文中,我们总结了几种在各种预转子注意力 AI 架构中反复出现的认知设计模式。然后进一步探讨这些模式在使用 LLMs 的系统中是如何显现的,特别是在进行推理和交互(“能动的”)应用场景方面。通过研究和应用这些反复出现的模式,我们还可以预测当前的能动 LLM 系统中的缺陷或不足之处,并确定未来利用 LLMs 和其他生成性基础模型进行一般智能研究的重点领域。
发布时间: 5/13/2025
查看原文
作者: Robert Johansson, Patrick Hammer, Tony Lofthouse
arXiv:2505.07079v1 宣告类型: 新 摘要: 同异关系反应,人类符号认知的一个基本方面,允许基于最少的经验对刺激关系进行灵活的泛化。在这项研究中,我们在非公理推理系统(NARS)中展示了同异关系反应的**任意适用性**,NARS 是一种为在不确定性下进行自适应推理而设计的计算认知架构。具体而言,我们扩展了 NARS,实现了一种**习得关系**的版本,使系统能够在一种受控的配对-样本(MTS)程序中从少量的显性训练中显式地推导出对称关系(互蕴)和新颖的关系组合(组合性蕴涵)。实验结果显示,NARS 快速吸收了显性训练的关系规则,并且基于任意的上下文线索稳健地展示了推导出的关系泛化。重要的是,在关键的测试阶段,推导出的关系反应自然结合了互蕴和组合性蕴涵,例如,从多个显性训练的对立关系推导出相同关系。内部信心指标表明,这些关系原则被强烈吸收,与其在人类关系学习实验中观察到的现象高度相似。我们的发现强调了将源自学习心理学的关系学习机制整合到人工通用智能框架中的潜力,并明确指出了 NARS 所建模的任意性和上下文敏感的关系能力。
发布时间: 5/13/2025
查看原文
作者: Humam Kourani, Gyunam Park, Wil M. P. van der Aalst
arXiv:2505.07052v1 公告类型: 新 摘要: 过程发现旨在从事件日志中自动推导出过程模型,使组织能够分析和改进其运营流程。归纳挖掘算法通过分层建模语言优先考虑正确性和效率,但往往会强加一种严格的块结构表示。这限制了它们准确捕捉现实世界过程复杂性的能力。尽管像部分有序工作流语言(POWL)这样的最近进展解决了并发的块结构限制,但在有效建模非块结构的决策点方面仍存在问题。在本文中,我们通过提出一种应用于POWL的选择图扩展来弥补这一差距,以处理非块结构的决策。选择图提供了一种在POWL的分层框架内结构化但灵活的方法来建模复杂的决策逻辑。我们提出了一种使用我们扩展的归纳挖掘发现算法,同时保留归纳挖掘框架的质量保证。我们的实验评估表明,使用选择图增强的发现模型更精确地代表了现实世界过程中发现的复杂决策行为,而不会牺牲归纳挖掘技术固有的高可扩展性。
发布时间: 5/13/2025
查看原文
作者: Yubo Shu, Zhewei Huang, Xin Wu, Chen Hu, Shuchang Zhou, Daxin Jiang
arXiv:2505.07049v1 说明类型: 新 摘要: 我们提出了DialogueReason,一种揭示单人推理模型中丢失的角色的推理范式,旨在提升推理过程的多样性和连贯性。基于强化学习的大规模推理模型的最新进展已经展示了令人印象深刻的长链推理能力和在数学和科学基准测试中的高表现。然而,这些推理模型主要依赖单人推理方式,这往往限制了推理多样性和连贯性,经常重复固定的策略或表现出不必要的注意力转移。我们的工作包括对单人推理模式的分析以及基于对话的推理方法的发展。我们首先引入了Compound-QA任务,该任务将多个问题串联成一个提示,用于评估推理的多样性和连贯性。我们的分析表明,Compound-QA揭示了单人推理的弱点,这不仅体现在定量指标上,还体现在定性的推理追踪中。基于分析,我们提出了一种基于对话的推理方法,称为DialogueReason,该方法围绕代理、环境和交互构建。使用基于规则的奖励进行PPO训练,我们对开源大语言模型(Qwen-QWQ和Qwen-Base)进行训练,使其采用对话推理。我们在MATH、AIME和GPQA数据集上评估训练后的模型,结果显示,在更复杂的复合问题下,对话推理模型的表现优于单人模型。此外,我们讨论了基于对话的推理如何增强可解释性,促进更直观的人机交互,并启发多代理系统设计的进步。
发布时间: 5/13/2025
查看原文
作者: Mahmood Mohassel Feghhi, Raya Majid Alsharfa, Majid Hameed Majeed
arXiv:2505.07030v1 公告类型: 新增 摘要: 无线传感器网络(WSNs)中的故障检测对于可靠的数据传输和网络寿命至关重要。传统的故障检测方法往往难以优化深度神经网络(DNN)以实现高效性能,特别是在处理高维数据和捕捉非线性关系方面。此外,这些方法通常收敛速度慢,使用梯度优化方法难以找到最优网络架构。本研究提出了一种新的混合方法,结合主成分分析(PCA)与草蜢优化算法(GOA)优化的DNN,以解决这些问题。该方法首先计算原始12维数据集的特征值并按降序排列。计算这些值的累积和,保留特征直到累积方差达到99.5%,有效地将维度从12维压缩到4维,同时保留关键信息。压缩后的表示训练一个六层DNN,其中使用GOA优化网络架构,克服了反向传播在发现非线性关系方面的局限。此混合PCA-GOA-DNN框架不仅压缩了数据还训练了一个六层DNN,通过GOA优化提升了训练效率和故障检测准确性。本研究使用的数据集是由北卡罗来纳大学开发的真实世界WSNs数据集,用于评估所提方法的性能。广泛的模拟表明,我们的方法实现了令人惊讶的99.72%分类准确率,具有出色的精确度和召回率,优于传统方法。该方法计算效率高,适用于大规模WSNs部署,并代表了资源受限WSNs故障检测的一个重要进展。
发布时间: 5/13/2025
查看原文
作者: Haorui Wang, Jeff Guo, Lingkai Kong, Rampi Ramprasad, Philippe Schwaller, Yuanqi Du, Chao Zhang
arXiv:2505.07027v1 宣布类型: 新颖 摘要: 逆合成反应, 即将目标分子通过一系列有效的反应逐步分解为更简单的前体物, 是有机化学和药物开发的核心。尽管最近的机器学习 (ML) 研究在单步骤逆合成反应建模和后续路径搜索方面取得了进展, 但这些解决方案仍然受限于可能路径的广泛组合空间。同时, 大型语言模型 (LLMs) 表现出出色的知识水平, 暗示它们有可能处理化学中的复杂决策任务。在这项工作中, 我们探讨了 LLMs 是否能够成功导航高度受限的多步骤逆合成规划问题。我们引入了一种高效的方法来编码反应路径, 并提出了一种新的路线级搜索策略, 超越了传统的逐步反应物预测方法。通过全面的评估, 我们展示了我们的 LLM 增强方法在逆合成规划中的卓越表现, 并自然地扩展到更广泛的可合成分子设计挑战。
发布时间: 5/13/2025
查看原文