arXiv:2411.03321v3 宣告类型: 替换
摘要: 大型语言模型(LLMs)能否准确预测选举结果?尽管LLMs在包括医疗保健、法律分析和创造性任务在内的各种领域中展现了令人印象深刻的性能,但对于它们预测选举结果的能力仍不清楚。选举预测面临着独特的挑战,如选民级数据有限、政治景观快速变化以及需要建模复杂的人类行为。为解决这些挑战,我们介绍了一种多步骤推理框架,专门用于政治分析。我们的方法在2016年和2020年的美国全国选举研究(ANES)真实数据以及由领先机器学习框架生成的合成人物数据上进行了验证,提供了可扩展的数据集以建模选民行为。为了捕捉时间动态变化,我们融入了候选人的政策立场和生平细节,确保模型能够适应不断变化的政治环境。借助于Chain of Thought提示,我们的多步骤推理流水线系统地整合了人口统计学、意识形态和时间依赖性因素,增强了模型的预测能力。
arXiv:2411.00773v2 通知类型:替换
摘要:近年来,神经符号(NeSy)AI系统的发展迅速,这些系统将符号推理融入了深度神经网络。然而,现有的大多数NeSy AI基准测试未能提供包含复杂多智能体交互的长期推理任务。此外,它们通常受限于固定且简单的逻辑规则,这些规则仅限于少量实体,这使得它们远远无法反映现实世界的复杂性。为了解决这些关键缺口,我们引入了LogiCity,这是第一个基于可定制的一阶逻辑(FOL)的城市环境模拟器,该环境包含多个动态智能体。LogiCity使用语义和空间概念来建模各种城市元素,例如IsAmbulance(X)和IsClose(X, Y)。这些概念用于定义FOL规则,这些规则治理各种智能体的行为。由于这些概念和规则是抽象的,因此它们可以适用于任何智能体组成的任何城市,促进各种场景的实例化。此外,LogiCity的一个关键特点是支持用户配置抽象,从而允许为逻辑推理设定自定义的模拟复杂性。为了探索NeSy AI的各种方面,LogiCity引入了两个任务,一个侧重于长期序列决策,另一个侧重于单步骤视觉推理,难度和智能体行为有所不同。我们的广泛评估表明,NeSy框架在抽象推理方面具有优势。此外,我们强调了处理长期多智能体场景中更复杂的抽象或在高维、不均衡数据下的重大挑战。凭借其灵活的设计、各种功能以及新提出的挑战,我们认为LogiCity代表了推动下一代NeSy AI发展的关键一步。所有代码和数据已在我们网站上开源:https://jaraxxus-me.github.io/LogiCity/
arXiv:2408.10015v2 公告类型: 修订
摘要: 我们研究了计算受限马尔可夫决策过程(MDP)确定性最优策略的问题,其中状态和动作空间是连续的,这种问题在受限动力系统中广泛出现。由于缺乏可枚举的状态-动作对以及采用确定性策略,在连续状态和动作空间中设计确定性策略梯度方法特别具有挑战性,阻碍了现有策略梯度方法的应用。为了解决这个问题,我们提出了一种确定性策略梯度对偶方法,以求得非渐近收敛的最优确定性策略。具体来说,我们利用受约束MDP的拉格朗日函数正则化,提出了一种确定性策略梯度对偶(D-PGPD)算法,通过二次正则化梯度上升步骤更新确定性策略,通过二次正则化梯度下降步骤更新对偶变量。我们证明了D-PGPD的对偶迭代收敛到一个最优正则化对偶对的次线性速度。我们用函数逼近实例化D-PGPD,并证明了D-PGPD的对偶迭代收敛到最优正则化对偶对的次线性速度,直到函数逼近误差。此外,我们展示了我们的方法在两种连续控制问题中的有效性:机器人导航和流体控制。这似乎是第一个提出确定性策略搜索方法用于连续空间受限MDP的工作。
arXiv:2304.14832v2 公告类型: 替换
摘要: 我们提出了基于可满足性问题(SAT)求解和回答集编程(ASP)的算法,用于解决确定命题知识库不一致程度的问题。我们考虑了六种不同的一致性度量,它们各自的一致性判定问题位于多项式层次的第一层。具体来说,这些度量分别是争执一致性度量、遗忘基于的一致性度量、击集一致性度量、最大距离一致性度量、总距离一致性度量和击距离一致性度量。在广泛的经验分析中,我们将基于SAT的方法和基于ASP的方法相互比较,并与一组原始_baseline_算法进行比较。我们的结果表明,总体而言,基于SAT的方法和基于ASP的方法在运行时间方面明显优于原始baseline方法。进一步的结果表明,提出的基于ASP的方法在考虑的所有六种一致性度量中均优于基于SAT的方法。此外,我们还进行了额外的实验以详细解释上述结果。
arXiv:2212.12470v3 公告类型:替换
摘要:最优潮流(Optimal Power Flow, OPF)是电力系统领域非常传统的研究领域,旨在寻找发电厂的最佳运行点,且在实际情况中需要每几分钟就解决一次。然而,由于电力生成系统中存在的非凸性,目前还没有快速且稳健的全交流最优潮流(Alternating Current Optimal Power Flow, ACOPF)解决方案。在过去的几十年里,电力网络已经演变成了一种典型的动态、非线性和大规模控制系统,即电力系统,因此寻找更好的和更快的ACOPF解决方案变得至关重要。图神经网络(Graph Neural Networks, GNN)的出现使得自然地在图数据,如电力网络上使用机器学习(Machine Learning, ML)算法成为可能。另一方面,深度强化学习(Deep Reinforcement Learning, DRL)以其解决复杂决策问题的强大能力而闻名。尽管分别使用这两种方法的解决方案开始出现在文献中,但还没有一种方法将两者的优势结合起来。我们提出了一种基于Proximal Policy Optimization算法与图神经网络的新架构,用于解决最优潮流问题。目标是设计一种能够学习如何解决优化问题且能够泛化到未见过的情景的架构。我们通过在IEEE 30节点系统上训练我们的DRL代理,然后在拓扑结构发生变化的基础网络上计算最优潮流(OPF),将我们的解决方案与DCOPF进行了成本方面的比较。
arXiv:2504.03640v1 宣告类型: 交叉
摘要: 为了开发通用协作代理,人类需要可靠的AI系统,这些系统能够(1)适应新的领域,(2)透明地处理不确定性,从而允许验证和纠正。黑箱模型展示了强大的数据处理能力,但由于其透明性差、领域特异性以及缺乏对不确定性的意识,它们不满足这些标准。我们介绍了一种组合和概率推理系统Bonsai,该系统通过检索相关基础证据并使用它来计算从更广泛的自然语言推理中派生出的子断言的可能性,生成可适应的推理树。Bonsai的推理能力可以通过证据缩放在测试时进行调整,它展示了在包括转录、照片、视频、音频和数据库在内的各种领域的可靠处理能力。问答和人类对齐实验表明,Bonsai在生成可解释的、与基础证据相关且具有不确定性的推理轨迹方面,与特定领域的黑箱方法的性能相当。
arXiv:2504.03622v1 类型: cross
摘要:生成长且连贯的文本仍然是大型语言模型(LLMs)面临的挑战,因为它们在话语生成中缺乏层次规划和结构化组织。我们引入了结构对齐(Structural Alignment),这是一种新颖的方法,通过将LLMs与人类似的话语结构对齐来增强长文本生成。通过将基于语言学的话语框架整合到强化学习中,我们的方法指导模型生成连贯且井然有序的输出。我们在Proximal Policy Optimization框架中采用了密集奖励方案,基于话语与人类写作的差异性分配细粒度的标记级别奖励。我们评估了两种互补的奖励模型:第一个通过评分表面级文本特征来提高可读性,提供显式的结构化,而第二个通过分析通过层次话语动机的全局话语模式来强化更深的连贯性和修辞 sophistication,能够在诸如文章生成和长文档摘要等任务中优于标准模型和RLHF增强模型。所有训练数据和代码将在 https://github.com/minnesotanlp/struct_align 公开共享。
arXiv:2504.03616v1 交叉类型:cross
摘要:检索增强生成(RAG)已成为当今自然语言处理(NLP)的基石,通过内部检索使大型语言模型(LLMs)能够访问更丰富的事实背景,从而增强其性能。虽然在单语言环境中,尤其是在英语中,其效果显著,但其在多语言任务中的应用仍然未被探索。本文通过提出针对多语言开放域问答的新方法,研究了RAG在多种语言中的有效性。我们评估了各种多语言RAG策略的表现,包括问题翻译(tRAG),即在检索前将问题翻译成英语,以及直接在多种语言之间进行检索的多语言RAG(MultiRAG)。我们的研究发现,虽然tRAG在某些方面是有用的,但它存在覆盖率有限的问题。相比之下,MultiRAG通过实现多语言检索提高了效率,但因跨语言检索获取内容的差异性而引入了不一致性。为了解决这些问题,我们提出了跨语言RAG(CrossRAG)方法,该方法在生成响应前将检索到的文档翻译成一种通用的语言(例如英语)。我们的实验表明,CrossRAG在知识密集型任务中的表现得到了显著提升,不论是高资源语言还是低资源语言均有受益。
arXiv:2504.03615v1 交叉公告类型
摘要:生成式AI的迅速发展使得创建高度逼真的合成图像成为可能,尽管这种技术在许多领域具有积极的作用,但也带来了信息误导、欺诈和其他恶意应用的严重风险。当前的合成图像识别系统通常都是静态的,依赖于从已知生成器中学习到的特征表示;随着新生成模型的出现,这些系统会遭受严重的性能下降。在本文中,我们引入了自主自适应合成媒体识别系统的概念——一个不仅能够检测合成图像并将其归因于已知来源,还能在无需人工干预的情况下自主识别和整合新型生成器的系统。我们的方法利用了开放集识别策略与可进化的嵌入空间,以区分已知和未知来源。通过采用无监督聚类方法将未知样本聚合到高置信度的簇中,并不断优化其决策边界,我们的系统即使在生成模型不断发展变化时,也能保持稳健的检测和归因性能。广泛的实验表明,我们的方法显著优于现有方法,标志着在生成模型迅速发展的时代朝着通用且适应性强的取证系统迈出了一大步。
arXiv:2504.03601v1 宣告类型: cross
摘要: 训练有效的多轮交互AI代理需要能够捕捉到真实的人机动态的高质量数据,但这种数据稀缺且手动收集成本高昂。我们引入了APIGen-MT,这是一种两阶段框架,用于生成可验证且多样化的多轮交互代理数据。在第一阶段,我们的代理管道利用LLM评审委员会和迭代反馈循环生成详细的任务蓝图,其中包括真实动作。然后,将这些蓝图转化为完整的交互轨迹,通过模拟的人机互动实现。我们训练了一系列模型——xLAM-2-fc-r系列,参数范围从1B到70B。我们的模型在$\tau$-bench和BFCL基准测试中表现优于GPT-4o和Claude 3.5等最新模型,其中较小的模型在多轮设置中尤其超越了较大版本,同时在多次试验中保持了更高的一致性。全面的实验表明,我们验证过的蓝图到详细数据的方法生成了高质量的训练数据,有助于开发更可靠、更高效且更强大的代理。我们开源了收集的合成数据和训练过的xLAM-2-fc-r模型,以促进AI代理领域的研究。模型可在HuggingFace上获取,网址为https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4,项目网站是https://apigen-mt.github.io