LLM2D

arXiv 论文列表

作者: Minori Narita, Ryo Kuroiwa, J. Christopher Beck
arXiv:2503.16371v2 更新类型: 替换 摘要: 领域独立动态规划(DIDP)是一种基于动态规划的空间状态搜索范式,用于组合优化。在当前实现中,DIDP 使用用户定义的双重边界来引导搜索。强化学习(RL)越来越多地被应用于组合优化问题,并且与动态规划(DP)共享几个关键结构,DP 通过贝尔曼方程和基于状态的转换系统来表示。我们提出使用强化学习来获得一个启发式函数,以引导DIDP中的搜索。我们开发了两种基于RL的引导方法:基于深度Q网络的价值函数引导,以及基于近端策略优化的策略引导。我们的实验表明,基于RL的引导显著优于标准的DIDP和具有相同节点扩展数的问题特定贪婪启发式方法。此外,尽管节点评估时间较长,但基于RL的引导在三个基准领域中实现了比标准DIDP更优秀的运行时性能。
发布时间: 5/15/2025
查看原文
作者: Rui Xing, Boyang Sun, Kun Zhang, Preslav Nakov, Timothy Baldwin, Jey Han Lau
arXiv:2502.16560v2 公告类型: 替换 摘要:在线社交媒体中的谣言给现代社会带来了重大的风险,推动了对其发展机制的更好理解的需求。我们专注于情绪与谣言之间的接口,在该主题的研究文献中存在令人惊讶的稀少,大部分研究仅关注原始谣言帖子中的单一情绪方面,而忽视了谣言与非谣言之间的比较差异。在本文中,我们进一步提出了一种全面的分析情绪框架,进行多方面情绪检测,对比谣言和非谣言的帖子,并提供情绪的相关性和因果分析。我们将该框架应用于现有的广泛使用的谣言数据集,以进一步理解在线社交媒体帖子中的情绪动态。我们的框架揭示,谣言引发更多的负面情绪(如愤怒、恐惧、悲观),而非谣言则引发更多的正面情绪。情绪具有传染性,谣言传播负面情绪,非谣言传播正面情绪。通过因果分析显示,惊讶将谣言与其他情绪联系起来;悲观源自悲伤和恐惧,而乐观则源自快乐和爱。
发布时间: 5/15/2025
查看原文
arXiv:2501.05765v2 通告类型: 替换 摘要: 随着人工智能(AI)系统日益普及和影响力增强,在这些系统中确保伦理行为是一个全球性的重大关切。使用形式化方法来研究AI伦理是一种可能的关键手段,用于定义和验证AI系统的伦理行为。本文提出了一种基于义务逻辑的形式化方法,以定义和评估AI系统的伦理行为,强调系统级别的规范,从而为实现这一重要目标做出贡献。本文引入公理和定理来捕捉与公平性和可解释性相关的伦理要求。形式化方法引入了时间操作符,以便随着时间推移对AI系统的伦理行为进行推理。作者通过评估实际世界的COMPAS和贷款预测AI系统的伦理性来评估这种形式化方法的有效性。使用义务逻辑公式对COMPAS和贷款预测系统的各种伦理属性进行编码,从而可以使用自动定理证明器验证这些系统是否满足所定义的属性。形式化验证表明,这两个系统未能满足与公平性和非歧视性相关的某些关键伦理属性,证明了所提出的形式化方法在识别实际AI应用中的潜在伦理问题方面的有效性。
发布时间: 5/15/2025
查看原文
作者: Jiawei Li, Xinyue Liang, Junlong Zhang, Yizhe Yang, Chong Feng, Yang Gao
arXiv:2411.11681v3 宣告类型: 更新 摘要: 过程监督通过在链式思维推理的每一步提供反馈,增强了大型语言模型在推理任务中的性能。然而,由于缺乏有效的过程监督方法,即使是先进的大型语言模型也容易出现逻辑错误和冗余推理。我们认为,过程监督的有效性在很大程度上取决于推理链的准确性和长度。此外,我们发现这些因素与推理过程的整体奖励分数之间存在非线性关系。借鉴这些见解,我们提出了一种新的过程监督范式 PSPO*,系统地概述了从奖励模型训练到策略优化的工作流程,并强调了非线性奖励在过程监督中的重要性。基于 PSPO*,我们开发了 PSPO-WRS,该方法在确定奖励分数时考虑了推理步骤的数量,并利用调整后的韦布尔分布进行非线性奖励塑造。在六个数学推理数据集上的实验结果表明,PSPO-WRS 一致优于当前主流模型。
发布时间: 5/15/2025
查看原文
arXiv:2411.04867v2 安全提示类型: 替换 摘要:安全强化学习(RL)对于实际应用至关重要,而多智能体交互引入了额外的安全挑战。虽然概率逻辑遮蔽(PLS)已在单智能体RL中提供了一种强大的安全增强方案,但其在多智能体环境中的普适性尚未被探索。在本文中,我们通过在去中心化多智能体环境中对PLS进行广泛的分析,填补了这一空白,并在此基础上提出Shielded Multi-Agent Reinforcement Learning(SMARL)作为引导MARL朝着规范合规结果的一般框架。我们的主要贡献包括:(1)一种新颖的概率逻辑时差(PLTD)更新,用于防护的独立Q学习,该更新直接将概率约束纳入价值更新过程;(2)一种概率逻辑策略梯度方法,用于防护PPO,并为MARL提供形式化安全保证;(3)在对称和非对称防护的n玩家博弈论基准测试中进行全面评估,结果显示在规范约束下约束违犯次数较少,且合作性能显著提高。这些结果表明SMARL是一种有效的均衡选择机制,为更安全、社会相符的多智能体系统奠定了道路。
发布时间: 5/15/2025
查看原文
作者: Riccardo Zese, Evelina Lamma, Fabrizio Riguzzi
arXiv:2306.09138v5 公告类型: 替换 摘要:随着语义网的重要性日益增加,描述逻辑知识库(KBs)中矛盾管理的需求愈发凸显。在这种背景下,信息来源多样且不断变化,单独或共同考虑时可能会包含矛盾的描述。经典推理算法无法处理不一致的知识库,迫使人们对知识库进行调试以去除不一致性。在本文中,我们利用现有的概率语义学DISPONTE来克服这一问题,并允许在不一致的知识库中执行查询。我们已在TRILL和BUNDLE推理器中实现了该方法,并进行实证测试以验证我们的提案。此外,我们还正式比较了本文提出的方法与修复语义学方法,后者在描述逻辑推理任务中是最为成熟的一种语义学。
发布时间: 5/15/2025
查看原文
作者: Montaser Mohammedalamen, Dustin Morrill, Alexander Sieusahai, Yash Satsangi, Michael Bowling
arXiv:2110.15907v2 宣布类型:替换 摘要:强化学习领域的一个关键挑战是在新情况下谨慎行事的代理行为开发。通常无法预料自主系统可能遇到的所有情况或何种行为能最好地避免不良结果。能学习谨慎行事的代理将通过自行发现何时以及如何谨慎行事来克服这一挑战。相比之下,当前的方法通常会将特定任务的安全信息或明确的谨慎行为嵌入系统中,这容易出错,并给实践者增加了额外的负担。在本文中,我们提出了一个逐步任务序列,在该序列中,谨慎行为逐渐变得不那么显而易见,同时也提出了一种算法,证明系统能够学习谨慎行事是可能的。我们算法的核心特征是,在没有特定任务安全信息的情况下,它会通过神经网络集成来表征奖励函数的不确定性,并利用这种不确定性来构建稳健的策略。具体而言,我们使用k-of-N反事实遗憾最小化(CFR)子模块,基于学习到的通过神经网络集成表示的奖励函数不确定性来构建稳健的策略。在我们的任务中,这些策略在没有任何特定任务安全调整的情况下表现出谨慎。
发布时间: 5/15/2025
查看原文
作者: Nicolas Dupuis, Ravi Nair, Shyam Ramji, Sean McClintock, Nishant Chauhan, Priyanka Nagpal, Bart Blaner, Ken Valk, Leon Stok, Ruchir Puri
arXiv:2505.09610v1 Announce Type: cross 摘要:近年来,大型语言模型(LLMs)在硬件设计中的应用取得了显著进展,主要通过提高芯片设计师的生产力来实现。关于LLMs在芯片设计rtl规范中的应用进行了大量的讨论,目前最流行的两种语言是Verilog和VHDL。由于Verilog语言的流行程度较高,因此LLMs及其在Verilog设计中的应用受到了大量关注,但尽管VHDL在行业中仍保持流行,但它尚未得到足够的关注。同样,关于涉足高性能处理器设计的组织的独特需求,以及在这些环境中部署AI解决方案的技术,也几乎没有讨论。在这篇论文中,我们描述了我们为了解释VHDL代码而开发大型语言模型(LLM)的旅程,解释VHDL代码在具有数十年高性能处理器设计经验及其资产的组织中尤为重要。我们展示了我们如何根据自己的需求开发特定的测试集,并在执行扩展预训练(EPT)的过程中使用它们来评估模型。EPT模型生成的代码解释的专家评估从基模型的43%提高到了69%。我们还展示了我们如何开发出一个LLM作为裁判,以评估类似专家评估模型的方法。这使我们能够开发和评估一系列新的模型,包括一个EPT模型的指令调整版本,其预期的专家评估得分为71%。我们的实验还表明,通过使用新的基模型,这一评分可以提升到85%以上。最后,我们讨论了如何利用生成人工智能领域的最新进展进一步提高硬件设计LLMs的质量。
发布时间: 5/15/2025
查看原文
作者: Nidhal Jegham, Marwen Abdelatti, Lassad Elmoubarki, Abdeltawab Hendawi
arXiv:2505.09598v1 交叉类型:cross 摘要:随着大型语言模型(LLMs)在各行各业中的普及,理解其推理层面的环境足迹不再是一种选择;它变得至关重要。然而,大多数现有研究排除了专有模型,忽视了基础设施的差异性和额外开销,或者仅专注于训练,即使推理越来越成为人工智能环境影响的主要因素。为了弥合这一差距,本文介绍了一种新的基于基础设施的基准测试框架,用于量化30个商用数据中心部署状态下最先进的LLM推理的环境足迹。我们的框架结合了公开API性能数据、地区特定的环境乘数以及硬件配置的统计推断。此外,我们还利用跨效率数据包络分析(DEA)对模型的性能相对于环境成本进行排名。我们的结果显示,o3和DeepSeek-R1成为最耗能的模型,每条长提示消耗超过33 Wh,是GPT-4.1 nano消耗量的70多倍。而Claude-3.7 Sonnet在环保效率方面排名第一。一个短的GPT-4o查询仅消耗0.43 Wh,但如果将其扩展到每天7亿次查询,将产生显著的年度环境影响,包括与35,000个美国家庭的用电量相当、与120万人的年度饮用水需求相当的淡水蒸发量,以及需要一片相当于芝加哥大小的森林来抵消的碳排放量。这些发现展示了一个日益增长的悖论:虽然单个查询是高效的,但其全球规模导致了不成比例的资源消耗。本研究提供了一种标准化的、基于经验的方法来基准测试LLM部署的可持续性,为未来人工智能发展中的环境问责制和可持续性标准奠定了基础。
发布时间: 5/15/2025
查看原文
作者: Abdullah Mushtaq, Imran Taj, Rafay Naeem, Ibrahim Ghaznavi, Junaid Qadir
arXiv:2505.09595v1 宣告类型: 交叉 摘要: 大型语言模型(LLMs)大多是以强化西方中心化知识论和社会文化规范的方式进行训练和对齐的,这导致了文化同质化,并限制了它们反映全球文明多样性的能力。现有的基准评估框架无法充分捕捉这种偏差,因为它们依赖于严格的、封闭形式的评估,忽视了文化包容性的复杂性。为了解决这一问题,我们引入了WorldView-Bench,这是一个旨在通过分析LLMs适应多种世界观的能力来评估全球文化包容性(GCI)的基准。我们的方法基于Senturk等人提出的Multiplex Worldview,它区分了单层模型,这些模型强化了文化同质化,以及多层模型,这些模型整合了多元视角。WorldView-Bench通过自由形式的生成评估来衡量文化极化,而不是传统的类别基准,从而测量了排斥替代视角的情况。我们通过两种干预策略实施了应用的多层性:(1) 上下文驱动的多层LLM,其中系统提示嵌入了多层原则,以及 (2) 多智能体系统(MAS)驱动的多层LLM,其中多个代表不同文化视角的LLM智能体协作生成回应。我们的结果显示,与基线相比,使用MAS驱动的多层LLM时视角分布得分(PDS)熵从13%显著增加到94%,同时情感倾向向正面偏向(67.7%)且文化平衡得到了增强。这些发现强调了多层性意识的AI评估在减轻LLMs中的文化偏差方面的潜力,为更具包容性和伦理对齐的AI系统的开发铺平了道路。
发布时间: 5/15/2025
查看原文