arXiv:2505.03989v1 声明类型: 新
摘要: 如果AI系统在一系列广泛的任务上与人类能力相当或超越,人类可能难以有效地判断其行为,这使得难以通过人类反馈引导它们朝向 desirable 特性变得困难。一种提出的解决方案是利用另一个超级系统通过辩论来指出系统输出的缺陷。本文概述了辩论在AI安全方面的价值,以及实现辩论所需的假设和进一步研究。它通过勾勒出一个“对齐安全性案例”来实现这一目标——这是一种论据,即尽管AI系统有能力采取可能导致严重伤害的行动,但其不会自主采取此类行动。此概要侧重于AI研发代理在AI公司内部破坏研究的风险,例如通过生成虚假结果。为防止这种情况发生,该代理通过辩论训练,在探索保证下,教会系统说实话。在整个部署过程中,通过在线训练维持诚实。安全案例基于四个关键主张:(1) 代理在辩论游戏中变得很擅长,(2) 在辩论游戏中表现良好意味着系统大部分时间是诚实的,(3) 在部署过程中,系统不会显著变得不那么诚实,(4) 部署环境容忍一定程度的错误。我们指出了如果解决的开放研究问题,这可以使其成为一个令人信服的论据,证明AI系统是安全的。
arXiv:2505.03985v1 宣布类型: 新颖
摘要: 紧急响应服务对于公共安全至关重要,9-1-1接线员在确保及时有效的紧急操作中扮演着关键角色。为了确保接线员的表现一致,会实施质量保证措施来评估和改进接线员的技能。然而,传统的人类主导评估在高通话量下难以应对,导致评估覆盖率低且延迟。我们引入了LogiDebrief,这是一种基于AI的框架,通过将信号-时间逻辑(STL)与大型语言模型(LLMs)结合,实现对9-1-1呼叫的自动化详细评审,从而实现全面严格的性能评估。LogiDebrief将接线要求形式化为逻辑规范,使得系统性地评估9-1-1呼叫是否符合操作指南成为可能。它采用三步验证过程:(1) 上下文理解以识别响应者类型、事件分类和关键条件;(2) 使用LLMs集成的STL基础运行时检查,以确保合规性;以及(3) 自动汇总结果生成质量保证报告。除了其技术贡献,LogiDebrief还展示了其现实世界的影响。在纳什维尔市紧急通讯部成功部署后,它已协助对1,701个实际呼叫进行了评审,节省了311.85小时的活跃参与时间。基于真实数据的实证评估证实了其准确性,而案例研究和广泛的用户研究强调了其在提高接线员表现方面的效果。
arXiv:2505.03961v1 宣告类型: 新
摘要: 根据尤瓦尔·诺亚·哈拉里的观点,大规模的人类合作是由包含共同信念和价值观的共享叙事驱动的。本研究探讨这类叙事是否可以同样促使LLM代理产生合作倾向。我们使用一个有限重复的公共物品博弈,在该博弈中,LLM代理可以选择合作或自我利益的支出策略。我们用不同程度强调团队合作的故事对代理进行唤醒,并测试这种唤醒如何影响谈判结果。我们的实验探索了四个问题:(1) 故事如何影响谈判行为?(2) 当代理共享同一个故事与不同故事时,情况有何不同?(3) 当代理数量增加时会发生什么?(4) 代理能否抵御自私的谈判者?我们发现基于故事的唤醒显著影响了谈判策略和成功率。共同的故事改善了合作,使每个代理受益。相反,用不同故事对代理进行唤醒逆转了这一效果,被唤醒为自我利益的代理占上风。我们假设这些结果对多代理系统设计和AI对齐具有重要意义。
arXiv:2505.03947v1 公告类型: 新闻
摘要: 强化学习研究的一个主要目标是开发出能够迅速适应并掌握新任务的一般性代理。尽管强化学习游戏代理已经掌握了许多阿特利游戏,但它们在每种游戏上的训练仍然非常缓慢且成本高昂。在本文中,我们展示了最新推理LLM在零样本设置下,经过领域外RL训练后,可以玩一个名为Frogger的挑战性阿特利游戏。然后,我们探讨了上下文学习和推理努力对LLM性能的影响。最后,我们展示了如何使用LLM演示来增强传统RL方法,这显著提高了它们的性能和样本效率。我们的实现已在https://github.com/AlienKevin/frogger 开源。
arXiv:2505.03941v1 宣告类型: 新
摘要: 目标识别(Goal Recognition, GR)是指基于观察到的动作识别代理的目标。最近的数据驱动的GR方法减轻了需要成本高昂且手动构建的领域模型的需求。然而,这些方法只能推理预定义的目标集,对于新的出现的目标,则需要耗时的训练。为了保持模型学习的自动化同时能够快速适应新的目标,本文提出了一种新的方法:目标识别即度量学习(GRAML: Goal Recognition As Metric Learning)。GRAML 使用了Siamese网络将目标识别问题视为深度度量学习任务,通过循环神经网络(RNN)在嵌入空间中学习一个度量,使得不同目标的观测轨迹嵌入彼此远离,同一目标的观测轨迹嵌入彼此靠近。这种度量在适应新目标时特别有用,即使只为每个目标提供一个示例观测轨迹也是如此。在一系列多样的环境中进行评估后,GRAML 在保持准确识别的同时,展示了比最先进的GR方法更高的速度、灵活性和运行时性能改进。
arXiv:2505.03800v1 类别: 新闻
摘要:本课程设计旨在开发和研究一种手写矩阵识别及逐步视觉计算过程展示系统,解决学生在学习数学时遇到的抽象公式和复杂计算步骤难以理解的问题。通过将人工智能与可视化动画技术相结合,系统利用Mamba骨干网络提升对手写矩阵内容的精确识别,借助YOLO模型完成数字提取和矩阵重建,并结合CoordAttention坐标注意力机制提高字符空间位置的准确掌握。通过利用Manim动画引擎逐帧展示计算过程,生动地呈现每个数学计算步骤,帮助学生直观理解数学运算的内在逻辑。通过为不同的计算任务动态生成动画过程,系统表现出高度的模块化和灵活性,能够根据学生的需求实时生成各种数学运算示例。通过创新人机交互方式,使数学计算过程栩栩如生,帮助学生在更深层次上弥合知识与理解之间的差距,最终实现“每一步都理解”的学习体验。该系统的可扩展性和互动性使其成为教育中直观、用户友好且高效的辅助工具。
arXiv:2505.03770v1 通告类型: 新论文
摘要: 本卷收录了在2025年3月3日于美国费城举行的AAAI 2025会议上举办的“通过心智理论推进人工智能工作坊”上所呈现的论文精选。本卷的目标是为ToM和AI研究社区提供开放获取且筛选过的合集。
arXiv:2503.23895v4 公告类型: replace-cross
摘要: 回忆增强生成(RAG)通过从外部来源检索相关文档并将它们整合到上下文中,增强了大型语言模型(LLMs)。虽然这通过提供事实性文本提高了可靠性,但随着上下文长度的增加,它显著增加了推理成本,并引入了RAG幻觉的挑战性问题,主要是由于LLMs缺乏相应的参数知识。一个有效的解决方案是在测试时增强LLMs的知识。参数化RAG(PRAG)通过将文档嵌入到LLMs参数中,在离线训练中有效减少推理成本来解决这一问题。然而,PRAG的高训练和存储成本,以及有限的一般化能力,极大地限制了其实用性。为了解决这些挑战,我们提出了一种新颖的框架——动态参数化RAG(DyPRAG),该框架利用一个轻量级参数翻译模型高效地将文档转换为参数化知识。DyPRAG不仅减少了推理、训练和存储成本,还动态生成了参数化知识,在不影响LLMs的知识增强和解决测试时的知识冲突方面表现出无缝的方式。在多个数据集上的广泛实验展示了DyPRAG的有效性和泛化能力,提供了强大的且实用的RAG范式,能够在实际应用中实现优越的知识融合并减轻RAG幻觉。我们的代码可在 https://github.com/Trae1ounG/DyPRAG 获取。
arXiv:2501.13620v5 公告类型: 替换-交叉
摘要:人工智能中一个基本的挑战是理解视觉语言模型(VLMs)等复杂模型背后的认知机制,这些模型在视觉推理中的作用。这些模型是如何将视觉感知与抽象思维结合起来的,尤其是在进行跨多幅图像的推理或需要精细化合成理解时?受到认知科学的启发,本文提出了一种结构化的评估框架,使用多种视觉推理任务-Bongard问题(BPs)和Winoground来剖析VLMs中的感知-推理界面。我们提出了三种不同的评估范式,与人类解决问题策略相对应:直接视觉规则学习(DVRL;全局处理)、演绎规则学习(DRL;规则的提取和应用),以及成分分析(CA;通过任务无关的文本描述进行分析分解)。这些范式系统地变化认知负荷并探索处理阶段。值得注意的是,CA即使对于单幅图像架构也能够评估多图像推理,并通过操作文本描述将推理与感知分离。应用此框架,我们展示了CA能够通过强大的语言模型来进行丰富且独立生成的描述推理,从而在包括Bongard-OpenWorld、Bongard-HOI和Winoground在内的具有挑战性的基准测试中达到新的最新性能(SOTA)。消融研究证实,当感知挑战被缓解时,推理的提升是非常显著的,这揭示了一个关键的感知瓶颈。我们的框架提供了一个有价值的诊断工具,并表明通过丰富且任务无关的描述使感知与推理分离,是一个有助于实现稳健且通用的视觉智能的成功方向。
arXiv:2505.02737v2 类型:交叉
摘要:近期大型语言模型(LLMs)的发展使它们成为自然语言处理任务中的重要解决方案。特别地,它们可以通过零样本或少样本的方式解决这些问题,从而无需训练或微调特定任务的模型。然而,LLMs 面临一些挑战,包括幻觉以及训练数据中特定领域的过时知识或缺失信息。这些问题通过重新训练模型用新数据来解决是行不通的,因为这是一项耗费时间和成本的过程。为了解决这些问题,提出了知识图谱(KGs)作为一种结构化的外部信息来源,以增强LLMs。在此基础上,本文利用知识图谱中实体类别的层次表示逐步修剪候选空间以及实体描述,以提高输入提示的额外事实知识。在流行的实体消歧(ED)数据集上的评估显示,所提出的方法优于未增强和仅描述增强的LLMs,并且具有比特定任务模型更高的适应性。此外,我们进行了错误分析,并讨论了所利用的知识图谱语义表示对实体消歧性能的影响。