arXiv 论文列表

作者: Gordana Dodig-Crnkovic, Gianfranco Basti, Tobias Holstein

随着人工智能系统日益自主和适应性增强，传统技术社会系统中的道德责任边界正受到挑战。本文探讨了关于将责任委托给智能自主代理的不断发展的话语，以及此类行为的伦理意义。本文综合了人工智能伦理学的最新发展，包括分布式责任和设计伦理人工智能的概念，提出了一种功能主义视角作为框架。这种视角认为道德责任不是个体特征，而是在人类和人工智能代理之间分布的社会技术系统中的角色。作为“设计伦理人工智能”的一个例子，我们介绍了Basti和Vitiello的实现。他们认为，人工智能可以通过学习伦理准则并使用德昂图斯高阶逻辑来评估决策的伦理性，从而充当人工道德代理。鉴于可能超越人类监督的速度和规模以及伦理影响，本文主张“设计伦理人工智能”，同时承认责任的分布式、共享和动态特性。这种功能主义方法为在快速发展的技术环境中应对人工智能伦理的复杂性提供了一个实用框架。

发布时间: 11/26/2024

查看原文

Dafny程序的AI辅助验证

作者: Gabriel Poesia, Chloe Loughridge, Nada Amin

形式化验证有潜力大幅减少软件错误，但其高昂的额外成本阻碍了大规模应用。虽然Dafny有望显著减少编写验证程序的工作量，但用户通常需要提供逻辑注释来辅助验证器。在这里，我们探索使用大型语言模型和搜索的组合来构建dafny-annotator：一个向Dafny方法添加逻辑注释的工具，直到验证器能够证明其正确性。在一个来自DafnyBench程序集合的测试集上，由LLaMa 3.1 8B引导的贪婪搜索仅成功注释了15.7%的方法。由于这种数据驱动的方法受到缺乏大规模训练数据的阻碍，我们提出了一种在灵活管道中进行开放式合成新Dafny程序的方法，其中大型语言模型制定高级思想，实现它们，并逐步提出对现有程序的更改，而Dafny则进行验证。这为我们提供了一个合成数据集DafnySynth，我们用它来增强DafnyBench进行训练。在两个数据集上进行微调将LLaMa 8B的成功率提高到50.6%——显著优于基线模型或仅在一个数据集上进行训练的结果。我们的结果表明，为尚无大规模人工生成示例的语言构建强大的AI助手的方法。反过来，这样的助手可能会减少用户的摩擦，并最终推动应用。

发布时间: 11/26/2024

查看原文

基于本体论DOLCE+DnS Ultralite的事件模型F

作者: Ansgar Scherp, Thomas Franz, Carsten Saathoff, Steffen Staab

缺乏事件的形式化模型阻碍了分布式事件驱动系统的互操作性。本文提出了一种名为Event-Model-F的事件形式化模型。该模型基于基础本体DOLCE+DnS Ultralite (DUL)，并提供全面的支持来表示时间和空间、对象和人员，以及事件之间的整体、因果和相关关系。此外，Event-Model-F提供了一种灵活的方式来进行事件组合、建模事件因果关系和事件关联，以及表示同一事件的不同解释。Event-Model-F遵循DUL的面向模式的方法开发，被模块化到不同的本体中，并且可以很容易地通过特定领域的本体进行扩展。

发布时间: 11/26/2024

查看原文

从生成到判断：大型语言模型作为裁判的机会与挑战

作者: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu

人工智能（AI）和自然语言处理（NLP）中的评估和评价长期以来都是关键挑战。然而，无论是基于匹配的方法还是基于嵌入的方法，传统方法往往难以判断细微属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展催生了“LLM 作为评判者”的范式，其中 LLM 用于在各种任务和应用中执行评分、排序或选择。本文对基于 LLM 的判断和评估进行了全面综述，提供了深入的概述，以推动这一新兴领域的发展。我们首先从输入和输出的角度给出详细的定义。然后，我们引入一个全面的分类法，从三个维度探讨“LLM 作为评判者”：判断什么、如何判断以及在哪里判断。最后，我们编制了评估“LLM 作为评判者”的基准，并重点介绍了关键挑战和有前景的方向，旨在提供有价值的见解并激励该有前景研究领域的未来研究。“LLM 作为评判者”的论文列表和更多资源可在 \url{https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge} 和 \url{https://llm-as-a-judge.github.io} 找到。

发布时间: 11/26/2024

查看原文

CATP-LLM：赋能大型语言模型进行成本感知型工具规划

作者: Duo Wu, Jinghe Wang, Yuan Meng, Yanning Zhang, Le Sun, Zhi Wang

利用大型语言模型（LLM）进行工具规划已成为开发通用人工智能系统的一种有前景的方法，其中LLM根据任务描述自动调度外部工具（例如视觉模型）来处理复杂任务。为了将这种范式推向实际应用，LLM必须考虑工具执行成本（例如执行时间）进行工具规划至关重要。不幸的是，之前的研究忽略了工具执行成本，导致生成成本超过任务性能的昂贵计划。为了填补这一空白，我们提出了基于LLM的成本感知工具规划（CATP-LLM）框架，该框架首次提供了一种连贯的设计，使LLM能够进行成本感知工具规划。具体来说，CATP-LLM结合了一种工具规划语言，以增强LLM生成具有多个分支的非顺序计划，以实现高效的并发工具执行和成本降低。此外，它还设计了一种成本感知的离线强化学习算法来微调LLM，以优化工具规划中的性能成本权衡。由于缺乏公开的成本相关数据集，我们进一步提出了OpenCATP，这是一个用于成本感知规划评估的第一个平台。在OpenCATP上的实验表明，即使使用Llama2-7B作为其骨干，CATP-LLM也优于GPT-4，即使在具有挑战性的规划任务上，平均性能也提高了28.2%-30.2%，成本降低了24.7%-45.8%。CATP-LLM和OpenCATP的代码将公开发布。

发布时间: 11/26/2024

查看原文

探究机器意识

作者: Mathis Immertreu, Achim Schilling, Andreas Maier, Patrick Krauss

本研究探讨了人工智能体发展核心意识的可能性，该可能性基于安东尼奥·达马西奥的意识理论。根据达马西奥的理论，核心意识的出现依赖于自我模型的整合，该模型由情绪和感觉的表征提供信息，以及一个世界模型。我们假设，在一个虚拟环境中通过强化学习 (RL) 训练的人工智能体，可以将其主要任务的副产品作为这些模型的初步形式发展出来。该智能体的主要目标是学习玩电子游戏并探索环境。为了评估世界模型和自我模型的出现，我们采用了探针——前馈分类器，这些分类器使用训练后智能体神经网络的激活来预测智能体自身的空间位置。我们的结果表明，该智能体可以形成初步的世界模型和自我模型，这表明了一条发展机器意识的途径。这项研究为人工智能体在镜像人类意识方面能力提供了基础性见解，对人工智能的未来发展具有重要意义。

发布时间: 11/26/2024

查看原文

通过第三方大型语言模型集成增强多智能体共识：分析不确定性并减轻大型语言模型的幻觉

作者: Zhihua Duan, Jialin Wang

大型语言模型 (LLM) 在处理复杂推理任务时仍然面临挑战，常常导致幻觉，这限制了 LLM 的实际应用。为了缓解这个问题，本文提出了一种新的方法，该方法整合不同的 LLM 以扩展知识边界，减少对单一模型的依赖，并促进参与者之间的深入讨论。主要贡献包括：1) 引入第三方 LLM，通过不确定性估计和置信度分析来调整参与者的注意力权重，优化多智能体系统中的共识形成；2) 数值数据集上的实验验证了该方法的有效性，优于传统的基于多智能体的基线方法。这项研究为大型模型在处理复杂任务时缓解幻觉现象提供了一个新的视角。

发布时间: 11/26/2024

查看原文

基于条件模仿共学习的端到端自主驾驶车辆控制

作者: Mahmoud M. Kishky, Hesham M. Eraqi, Khaled F. Elsayed

arXiv:2411.16131v1 自动驾驶类型: 新摘要: 自动驾驶涉及复杂任务，如数据融合、物体和车道检测、行为预测和路径规划。与专门模块化的方法不同，该方法为每个任务分配单独的子系统，端到端的方法将问题视为单个可学习任务，使用深度神经网络处理，从而减少系统复杂性和减少对启发式的依赖。条件模仿学习（CIL）训练端到端模型以模仿人类专家的行为，考虑到引导车辆到达目的地的导航指令。CIL 采用专门网络分支，为每个导航指令学习驾驶任务。然而，当部署到未见过的环境中时，CIL 模型缺乏泛化能力。本工作引入了条件模仿协同学习（CIC）方法来解决这一问题，通过由门控双曲正切单元（GTUs）生成的协同学习矩阵，使模型能够学习 CIL 专门分支之间的关系。此外，我们提出将转向回归问题视为分类问题，使用分类-回归混合损失来弥合回归和分类之间的差距，我们还提出使用共存概率来考虑转向类之间的空间倾向。我们的模型在未见过的环境中将自主驾驶的成功率平均提高了 62%，相比 CIL 方法。

发布时间: 11/26/2024

查看原文

为什么智能体做出那个决策：使用视觉掩码解释深度强化学习

作者: Rui Zuo, Zifan Wang, Simon Khan, Garrett Ethan Katz, Qinru Qiu

由于深度神经网络固有的缺乏透明性，深度强化学习 (DRL) 智能体难以获得用户的信任和认可，尤其是在医疗诊断和军事行动等安全关键型应用中。现有的解释智能体决策的方法，要么需要使用支持解释生成的模型重新训练智能体，要么依赖于基于扰动的技术来揭示不同输入特征在决策过程中的重要性。然而，重新训练智能体可能会影响其完整性和性能，而基于扰动的方法性能有限，且缺乏知识积累或学习能力。此外，由于每次扰动都是独立进行的，扰动输入的联合状态可能在物理上没有意义。为了解决这些挑战，我们引入了 **VisionMask**，这是一个端到端训练的独立解释模型，用于识别智能体视觉输入中能够解释其行为的最关键区域。VisionMask 以自监督的方式进行训练，无需依赖人工生成的标签。重要的是，它的训练不会改变智能体模型，从而保持智能体的性能和完整性。我们在超级马里奥兄弟 (SMB) 和三个 Atari 游戏上评估了 VisionMask。与现有方法相比，VisionMask 在根据所选视觉解释重现原始动作方面，插入精度提高了 14.9%，F1 分数提高了 30.08%。我们还提供了示例，说明如何将 VisionMask 用于反事实分析。

发布时间: 11/26/2024

查看原文

PIANIST：利用大型语言模型学习部分可观测世界模型以进行多智能体决策

作者: Jonathan Light, Sixue Xing, Yuanzhe Liu, Weiqin Chen, Min Cai, Xiusi Chen, Guanzhi Wang, Wei Cheng, Yisong Yue, Ziniu Hu

大型语言模型 (LLM) 在复杂决策任务中有效提取世界知识仍然是一个挑战。我们提出了一种名为 PIANIST 的框架，将世界模型分解成七个直观的组件，有利于零样本 LLM 生成。仅给定游戏的自然语言描述和输入观测数据的格式，我们的方法就可以生成一个可用于快速高效蒙特卡洛树搜索 (MCTS) 模拟的工作世界模型。我们展示了我们的方法在两个不同的游戏中效果良好，这两个游戏都挑战了智能体的规划和决策能力，涉及基于语言和非语言的动作执行，并且无需任何特定领域的训练数据或明确定义的世界模型。

发布时间: 11/26/2024

查看原文