LLM2D

arXiv 论文列表

作者: Ezgi Iraz Su (Sinop University)
arXiv:2502.09221v1 论文类型: 新论文 摘要: 逻辑基础的AI领域中,回答集编程(ASP)是一种成功的解决问题的方法。在ASP中,问题表示为语义逻辑程序,解决方案通过其回答集来确定。平衡逻辑(EL)是一种基于语义逻辑“这里和那里”逻辑的一般用途非单调推理形式化。EL主要由Pearce提出,作为ASP的基础框架。知识规定(ES)是ASP程序的扩展,带有主观字汇。ASP语言中的这些新模态构建使得能够检查ASP中的常规字汇在程序的每个(或某些)回答集中是否为真。ES程序通过世界观解释,本质上是回答集的集合。反思自Knowepistemic逻辑是一种非单调形式化,模型理想理性代理的自我信念(知识)。对于ES相对新的语义基于EL和(反思)自知epistemic逻辑的结合。在本文中,我们首先提出一个涵盖性的框架应用于epistemic ASP领域。然后,我们确立了现有(反思)(自知)epistemic平衡逻辑与我们易于适应的全面框架之间的对应关系,基于Pearce对回答集作为平衡模型的描述。我们通过将Ferraris关于命题理论回答集的工作扩展到epistemic情况,并揭示了一些ES语义提议的关系来实现这一点。
发布时间: 2/14/2025
查看原文
作者: Galileo Sartor (Swansea University), Adam Wyner (Swansea University), Giuseppe Contissa (University of Bologna)
arXiv:2502.09216v1 宣告类型: 新颖 摘要: 在本文中,我们提出了一种用于表示和推理自主车辆交通规则中的法律方面的模块化系统。我们专注于与交叉口相关的英国公路守则(HP)的部分内容。由于人类驾驶员和自动驾驶车辆(AVs)将在道路上相互作用,尤其是在城市环境中,我们认为应该存在一个易于访问、统一的高层计算模型,并且可以适用于用户。自动驾驶车辆引入了责任分配的变化,不应该对人类驾驶员造成不利影响或增加负担。我们开发了一个基于模拟器的系统。该系统由三个主要部分组成:一个使用逻辑英语的自然语言接口,它编码了规则;一个使用Prolog表示规则的内部表示;以及一个在NetLogo中构建的基于多智能体的仿真环境。这三个组件相互作用:逻辑英语可以翻译成Prolog(以及一些支持代码);Prolog和NetLogo通过谓词进行接口交互。这种模块化方法使得系统中的不同组件可以根据整体系统承担不同的“负担”;它还允许模块之间的替换。借助NetLogo,我们不仅可以可视化所模型规则的效果,还可以通过简单的动态运行场景验证系统。指定的代理监控车辆的行为以确保合规,并记录违规行为的发生。然后,这些关于潜在违规的信息被验证器利用,以确定违规行为是否可处罚,区分例外情况和具体案例。
发布时间: 2/14/2025
查看原文
arXiv:2502.09212v1 宣告类型: 新 摘要:大规模语言模型(LLMs)能够生成类似于人类的回答用户查询。然而,LLMs表现出固有的局限性,尤其是因为它们会产生幻觉。本文提出了一种名为LP-LM的系统,该系统通过在知识库(KB)中包含的事实来回答问题,并借助Prolog的语义解析,始终生成可靠的答案。 LP-LM通过Prolog确定性谓词语法(DCG)解析,生成输入问题的最可能成分解析树以及相应的Prolog术语。然后,该术语在表示为Prolog术语的自然语言句子知识库中执行,用于回答问题。通过利用DCG和幻影表,LP-LM在输入句子数量足够多的语法规则下,能在线性时间内运行。在与当前知名的LLMs进行准确度比较的实验中,我们展示了LLMs即使在简单问题上也会产生幻觉,而LP-LM不会。
发布时间: 2/14/2025
查看原文
作者: Jakob Johannes Bauer (ETH Zuerich, Switzerland), Thomas Eiter (TU Wien, Austria), Nelson Higuera Ruiz (TU Wien, Austria), Johannes Oetsch (Jonkoping University, Sweden)
arXiv:2502.09211v1 宣告类型: 新 摘要: 视觉问答(VQA)是一个具有挑战性的问题,它需要处理多模态输入。答案集程序(ASP)在这方面显示出了很大的潜力,能够为模块化VQA架构增加解释性和可解释性。在本文中,我们探讨了如何将ASP与视觉和自然语言处理的模块结合,以解决一种新的、具有挑战性的VQA变体,该变体关注的是图(而不是符号形式的图)的图像。包含基于图结构的图像是一种普遍且流行的可视化形式。在这里,我们处理了由公共交通网络启发的特定问题,并引入了一个新的数据集,该数据集修正了一个现有数据集,添加了类似于地铁线路的图的图像。我们的模块化神经符号方法结合了光学图识别进行图解析,预训练的光学字符识别神经网络进行标签解析,大型语言模型(LLMs)进行语言处理,以及ASP进行推理。该方法作为第一个基线,在数据集上的整体平均准确率为73%。我们的评估提供了进一步的证据,表明模块化神经符号系统,特别是结合预训练模型(无需进一步训练和推理中的逻辑编程)具有解决复杂VQA任务的潜力。
发布时间: 2/14/2025
查看原文
作者: Paul Tarau (University of North Texas)
arXiv:2502.09209v1 类型: 新增 摘要: 在petabyte级数据上训练的大语言模型(LLMs)是对迄今为止积累和提炼的重要知识进行高度压缩的存储库。在本文中,我们研究将这些知识以几种逻辑程序的形式提取出来的方法,包括命题赫恩公式、双赫恩公式、关系三元组和确定性_clause_文法。将这些知识以逻辑程序的形式暴露出来,可以使逻辑推理方法得以实现,这些方法能够验证LLM输出与其预期用途的一致性,并扩展它们的推理能力。我们研究了生成的程序的新执行方法,包括将可变地结合可推导事实与LLM生成的内容(存储在向量数据库中)进行软统一,以及基于GPU加速最小模型计算,支持大型LLM生成程序的推理。
发布时间: 2/14/2025
查看原文
作者: Vaishak Belle (University of Edinburgh)
arXiv:2502.09205v1 通告类型: 新增 摘要:近年来,关于AI中的可解释性问题引起了广泛关注,尤其是在黑盒机器学习模型方面。正如计划社区正确指出的,当应用场景不是单一决策或预测,而是一个依赖于观察结果的一系列行动时,需要有更丰富的解释概念。 在这篇文章中,我们试图基于行动序列提供“反事实解释”的正式说明。然后,我们展示了这自然地引出了模型调和的概念,可能的形式是用户纠正代理模型,或者建议代理计划中的行动。为此,我们需要区分什么是真实的,什么是已知的,并借助情境演算的模态片段来正式化这些直觉。我们考虑了不同的场景:代理了解部分真实信息、弱化的真实信息以及错误的信念,并展示了我们的定义容易推广到这些不同的情景中。
发布时间: 2/14/2025
查看原文
arXiv:2502.09204v1 法律案件类型:新 摘要:法律案件需要遵循法律进行细致的逻辑推理,而与非技术用户交互则必须使用自然语言。作为一种结合使用Prolog进行逻辑推理和使用大型语言模型(LLMs)进行自然语言处理的应用程序,本文介绍了一种新的方法和系统——LogicLease,用于自动化纽约州房东与租户法律案件的分析。LogicLease通过分析案件描述并引用所有相关法律来确定是否符合相关法律要求。它利用LLMs进行信息提取,并利用Prolog进行法律推理。通过将信息提取与法律推理分离,LogicLease实现了更高的透明度和对应用于每个案件的法律逻辑的控制。我们通过一系列测试评估了LogicLease的准确度、效率和鲁棒性,实现了100%的准确度,并且平均处理时间为2.57秒。与最新的基于LLM的法律分析系统相比,LogicLease的优势在于提供了清晰的、逐步的推理过程、引用具体的法律,并且通过避免LLMs常见的幻觉现象来脱颖而出。
发布时间: 2/14/2025
查看原文
作者: Hanmeng Liu, Zhizhang Fu, Mengru Ding, Ruoxi Ning, Chaoli Zhang, Xiaozhang Liu, Yue Zhang
arXiv:2502.09100v1 通知类型: 新 摘要:随着 OpenAI o3 和 DeepSeek-R1 等先进推理模型的出现,大型语言模型(LLM)展现了非凡的推理能力。然而,它们进行严格逻辑推理的能力仍然是一个开放的问题。本文综述了 LLM 中逻辑推理的近期进展,这是人工智能研究的一个关键领域。本文概述了 LLM 中逻辑推理的范围、理论基础以及用于评估推理能力的标准。我们分析了不同推理范式(演绎、归纳、 abduction 和类比)下的现有能力,并评估了提高推理性能的策略,包括以数据为中心的调优、强化学习、解码策略和神经符号方法。本文以未来方向收尾,强调加强人工智能系统中逻辑推理的进一步探索的必要性。
发布时间: 2/14/2025
查看原文
作者: Michael J. Zellinger, Rex Liu, Matt Thomson
arXiv:2502.09054v1 传达类型: 新 摘要: LLM 递归基于这样一个想法:使用最大的和最昂贵的LLM 来处理所有查询是低效的。相反,递归部署小的LLM来回答大多数查询,将大型和昂贵的LLM的使用限制在最困难的查询上。这种方法可以在不影响性能的情况下显著降低成本。然而,在金融或医学等风险敏感领域,避免模型错误被附加赋值。认识到最昂贵的模型也可能出错,这些领域的应用从允许LLM系统在做出错误风险较高的查询时完全避免回答中获益。然而,赋予递归结构避免回答的能力对LLM递归结构提出了一个即时的设计问题:避免回答是否仅应允许在最终模型中,还是也应在早期模型中?由于小型和大型模型的错误模式相关,后者策略可能通过让廉价模型预判昂贵模型的避免回答决策,从而进一步减少推理成本,从而避免运行昂贵的模型。我们研究了“早期避免回答”在LLM递归中的好处,并发现它在六个基准测试(GSM8K、MedMCQA、MMLU、TriviaQA、TruthfulQA和XSum)中平均将测试损失降低了2.2%。这些收益源于避免回答的更有效利用,这以整体避免回答率平均增加4.1%为代价,换取了成本减少13.0%以及错误率减少5.0%。我们的发现表明,可以通过利用不同语言模型错误模式之间的相关性来驱动具有避免回答功能的LLM系统性能提升。
发布时间: 2/14/2025
查看原文
作者: Haoran Sun, Yusen Wu, Yukun Cheng, Xu Chu
arXiv:2502.09053v1 宣布类型: 新发表 摘要:博弈论为分析理性决策者之间的战略互动提供了基本框架。大型语言模型(LLMs)的快速发展激发了对这两个领域交叉的研究。具体来说,博弈论方法正被应用于评估和提升LLM的能力,而LLMs本身也在重塑经典的博弈模型。本文从三个角度全面探讨了这两个领域交叉的现状,探讨双向关系:(1)为评估LLM行为建立标准化的基于博弈的基准;(2)利用博弈论方法通过算法创新改善LLM性能;(3)通过博弈建模表征LLMs的社会影响。在这些三个方面中,我们还强调了传统博弈模型的均衡分析如何因LLMs的高级语言理解能力而受到影响,从而扩展了博弈论的研究。最后,我们确定了关键挑战和未来研究方向,并根据当前领域的状态评估它们的可行性。通过将理论严谨性与新兴的人工智能能力相结合,本文旨在促进跨学科合作,并推动这个不断发展的研究领域的进步。
发布时间: 2/14/2025
查看原文