arXiv:2502.03482v1 类型:交叉研究
摘要:尽管在人类-人工智能决策方面存在着日益增长的兴趣,但基于领域专家的实验研究仍然很少,主要原因在于与领域专家合作的复杂性以及设置现实实验的挑战。在本项工作中,我们与前列腺癌诊断领域的放射科医生开展了一项深入的合作,基于MRI图像。在此基础上,我们开发了一个接口并进行了两项实验,以研究AI辅助和性能反馈如何影响领域专家的决策过程。在研究1中,临床医生首先提供了初步诊断(人类),然后查看AI的预测,最后确定他们的最终诊断(人类-AI团队)。在研究2(在记忆清除期之后),相同的研究对象首先收到了研究1中的汇总性能统计数据,特别是他们自己、AI以及人类-AI团队各自的性能数据,然后直接查看AI的预测,再进行诊断(即没有独立的初次诊断)。这两项工作流程代表了在实践中临床AI工具可能被使用的现实方式,其中第二项研究模拟了医生根据先前的性能反馈调整对人工智能的依赖和信任的情景。我们的研究结果显示,虽然人类-人工智能团队在整体上总是优于单独的人类,但它们仍受到过度依赖的限制,与之前关于群众工人的研究结果相似。提供给临床医生性能反馈并没有显著提升人类-人工智能团队的性能,尽管提前展示AI决定促使人们更倾向于跟随AI。同时,我们观察到人类-人工智能团队的集合性能可以超越单独的AI,这为人类-人工智能合作提供了有前景的方向。
arXiv:2502.03469v1 类型: cross
摘要: 我们通过能力方法提出了一种AI伦理的概念化和实现方案。我们旨在展示通过能力方法概念化AI伦理作为一门学科的两个主要优势。首先,它有助于澄清AI工具的伦理维度。其次,它为在AI工具设计中实施伦理考虑提供了指导。我们通过展示基于伦理审核的医学AI工具如何从我们的能力方法中受益,来在医学AI工具的背景下说明这些优势。
arXiv:2502.03467v1 安全类型:交叉
摘要:我们总结了在社会重要的系统和软件保障与评估方面的工作经验,概述了传统关键系统(如飞机飞行控制)中的安全工程如何进行。我们分析了这种关键系统视角如何支持AI安全框架的开发和实施。我们将分析分为三个方面:系统工程、安全与风险分析,以及决策分析与支持。
我们考虑了四个关键问题:系统是什么?它需要达到什么样的水平?关键性对系统开发的影响是什么?我们应该对其信任多少?我们识别出值得进一步讨论的主题。特别是,我们担心系统的边界不够广泛,对可容忍度和风险的本质的阐述不够充分,以及保障方法缺乏能够使行为得到充分保障的理论。
我们主张使用基于Assurance 2.0的保障案例来支持决策制定,在这种情况下,关键决策和系统的关键性都会被评估。我们指出,关键系统与日常生活系统相比,所需的信心强度存在数量级的差异,而日常生活中的技术无法在严谨性上进行扩展。
最后,我们将我们的发现详细映射到FAISC组织者提出的问题中的两个,并指出关键系统工程的演变是通过开放和多样化的讨论实现的。我们希望这里识别的主题将支持FAISC之后的讨论。
arXiv:2502.04302v1 通知类型: 新
摘要: 在扩展的因果集编程 (Answer Set Programming, ASP) 与约束框架中,我们研究了强等价性的概念。如果简而言之,两组规则在任何上下文中都具有相同的含义,那么这两组规则被认为是强等价的。我们证明,在某些假设下,这种扩展设置中规则集的强等价性可以通过它们在带约束的Here-and-There逻辑中的等价性来精确地刻画。此外,我们提供了一种从几种基于clingo的处理约束的ASP求解器的语言转换到带约束的Here-and-There逻辑语言的方法。这种转换使我们能够利用Here-and-There逻辑来在这种求解器的上下文中推理强等价性。我们还探讨了在这种情况下确定强等价性的计算复杂性。
arXiv:2502.04249v1 宣讲类型: 新颖
摘要: 我们探讨了自由能量原理作为衡量代理系统和多代理系统中风险基础的可能性。基于这些原则,我们引入了一个累积风险暴露度量标准,该标准在不同情境和需求下具有灵活性。我们将这一方法与依赖大量数据或描述任意复杂世界模型的其他流行的安全AI理论进行了对比。在我们的框架中,利益相关者只需指定其对系统结果的偏好,从而为风险治理和缓解提供简单透明的决策准则。该框架自然地考虑了世界模型和偏好模型中的不确定性,从而使决策具有知识和价值观上的谦逊、简洁,并面向未来。我们通过一个简化了的无人驾驶车辆环境中的多代理车辆示例展示了这一新颖的方法,其中,驾驶策略由充当门卫的实体在线评估各自的邻域中的集体安全风险,并在适当的情况下干预每个车辆的策略。我们证明了即使在无人驾驶车辆车队中低渗透率引入门卫,也能在系统安全性方面产生显著的正外部性。
arXiv:2502.04058v1 宣告类型: 新
摘要: 我们研究了代理人可以战略性地响应决策制定者 (DM) 模型的算法决策问题。决策制定者 (DM) 对 (潜在的) 策略性代理人提供清晰和可操作的解释的需求正在持续上升。虽然先前的研究通常将解释视为完整模型的披露,但在实践中,解释可能仅传达部分信息,这可能导致代理人的误解和有害反应。当全面披露预测模型既不现实也不理想时,一个关键问题是,决策制定者如何通过使用解释来最大化自己的利益而不损害代理人福利。在本文中,我们探讨了广为人知的局部和全局解释方法,并确立了一个必要条件,以防止解释误导代理人为自损行为。此外,通过条件同质性,我们证明了基于行动推荐 (AR) 的解释对于非有害响应是充分的,类似于信息设计中的揭示原则。为了实施基于AR的解释,我们提出了一种简单的算法来同时优化预测模型和AR策略,以平衡决策制定者的收益与代理人的福利。我们的实证结果证明了这种方法作为在算法决策制定中更精细的策略,对安全和有效的部分模型披露的好处。
arXiv:2502.04030v1 提示类型: 新
摘要:推理能力是大型语言模型(LLMs)的关键前沿领域,但开发这些能力需要大量的专有数据集和计算资源。通过模型融合来高效补充这些能力是一种方法,这提供了一种有前途的替代方案,通过结合多个模型而不重新训练。然而,当前的融合方法依赖于手动设计的合并超参数策略,限制了潜在模型组合的探索,并需要大量的人工努力。我们提出了一种自动化模型融合框架,该框架可通过多保真近似方法减少成本,从而实现细粒度的合并策略探索。我们支持单目标和多目标优化,并引入了两个新的搜索空间:层内融合(LFS)和深度融合(DIS)。在多个基准测试上进行评估,我们发现搜索可以自主找到1)进一步提升单目标性能的合并,即使在模型已经微调过这些任务的情况下,以及2)在不同任务上优化多目标前沿的合并。有效的合并可以在有限的计算资源下找到,例如在不到500次搜索步骤内。
arXiv:2502.03948v1 宣传类型: 新
摘要: 有效的在线学习需要无缝访问多样化的资源,如视频、代码仓库、文档和一般网络内容。这篇海报论文介绍了一个多代理检索增强生成(RAG)系统的早期工作,该系统旨在通过整合这些异构资源来提高学习效率。使用针对特定资源类型进行定制的专业代理(例如,YouTube教程、GitHub仓库、文档网站和搜索引擎),该系统自动检索和合成相关信息。通过简化知识查找和整合的过程,这种方法减少了手动工作量并提高了学习体验。初步用户研究确认了该系统的强大易用性和中等至较高的实用性,展示了其提高知识获取效率的潜力。
arXiv:2502.03544v1 Announce Type: 新
摘要: 我们介绍了AlphaGeometry2,这是Trinh等人(2024年)引入的AlphaGeometry的显著改进版本,现在已经超过了平均金牌得主在解答奥林匹克几何问题的能力。为了实现这一点,我们首先扩展了原始的AlphaGeometry语言,以解决涉及物体移动和包含角度、比例和距离线性方程的更难的问题。这,以及其他方面的改进,使得AlphaGeometry语言在2000年至2024年国际数学奥林匹克(IMO)几何问题上的覆盖率从66%提高到88%。AlphaGeometry2的搜索过程也通过使用Gemini架构进行改进,以更好地进行语言建模,并结合多种搜索树的新型知识共享机制。此外,符号引擎和合成数据生成的进一步增强显著提高了AlphaGeometry2在过去的25年中所有几何问题上的整体解题率,达到了84%,而以前的解题率为54%。AlphaGeometry2还参与了在IMO 2024中达到银牌标准的系统 https://dpmd.ai/imo-silver。最后但同样重要的是,我们报告了将AlphaGeometry2作为完全自动化系统的一部分,直接从自然语言输入中可靠地解决几何问题的进展。
arXiv:2502.03512v1 通知类型: 新
摘要: 在文本到图像(T2I)系统中精确对齐至关重要,以确保生成的视觉不仅准确地捕捉用户意图,还能符合严格的伦理和审美标准。比如谷歌Gemini事件中,错误对齐的输出引发了重大公众反对,这强调了具备强大对齐机制的必要性。相比之下,大规模语言模型(LLMs)在对齐方面取得了显著成功。在此基础上,研究人员希望应用类似的对齐技术,如直接偏好优化(DPO),以提高T2I系统的图像生成准确性和可靠性。
我们提出了YinYangAlign,一种先进的基准框架,系统地量化T2I系统的对齐精度,以解决六个基本且固有的矛盾设计目标。每一对都代表图像生成中的基本张力,如在遵循用户提示与创造修改之间保持平衡或在保持多样性的同时维护视觉连贯性。YinYangAlign包括详细的公理数据集,涵盖人类提示、对齐(选择)响应、未对齐(拒绝)的AI生成输出以及潜在矛盾的解释。