arXiv 论文列表

作者: Brian Hsuan-Cheng Liao, Chih-Hong Cheng, Hasan Esen, Alois Knoll

arXiv:2209.10368v5 宣布类型: replace-cross 摘要：在本文中，我们考虑了自动驾驶情境下3D物体检测器的安全性能。具体来说，尽管大量文献显示了显著的结果，但开发人员往往难以确保这些基于学习的感知模型的安全部署。将挑战归因于缺乏安全导向的度量标准，我们在此提出无妥协的空间约束（USC），该约束定义了一种简明但重要的定位要求，即预测应从自动驾驶车辆的角度充分覆盖物体。我们利用视角和鸟瞰图的形式化表述这些约束，使其能够自然地通过定量指标反映，也就是说，具有更高分数的物体检测器意味着碰撞风险较低。最后，除模型评估外，我们将定量指标融入到常用的损失函数中，以使现有的模型具备安全导向的微调能力。通过使用nuScenes数据集和闭环仿真进行实验，我们的工作证明了在感知层面考虑安全概念不仅能超越准确性提升模型性能，还能直接链接实际系统安全。

发布时间: 3/31/2025

查看原文

procedurally生成内容基准：面向游戏生成挑战的开源测试平台

作者: Ahmed Khalifa, Roberto Gallotta, Matthew Barthet, Antonios Liapis, Julian Togelius, Georgios N. Yannakakis

arXiv:2503.21474v2 宣告类型: 替换摘要：本文介绍了程序化内容生成基准，用于评估生成算法在不同类型的游戏内容创作任务上的性能。该基准包含12个与游戏相关的问题，每个问题有多重变体。这些问题从创建不同类型的关卡扩展到为简单的街机游戏创建规则集。每个问题都有自己特定的内容表示、控制参数和质量、多样性和可控性的评估指标。该基准旨在朝着标准化比较生成算法的方式迈出第一步。我们使用该基准对三种基线算法进行评分：随机生成器、进化策略和遗传算法。结果显示，有些问题比其他问题更容易解决，同时选择的优化目标对生成的产物的质量、多样性和可控性也有影响。

发布时间: 3/31/2025

查看原文

人工智能中的神经可塑性——概览及 Drop In & Out 学习的启发

作者: Yupei Li, Manuel Milling, Bj\"orn W. Schuller

arXiv:2503.21419v2 宣告类型: 替换摘要：随着深层神经网络（DNNs）的兴起，人工智能（AI）在公共使用中取得了新的性能水平和普及。最初受到人类神经元及其连接的启发，神经网络已成为许多高级架构的AI模型的基础。然而，在DNN架构设计中，人类大脑中一些最核心的过程，特别是神经发生和神经可塑性，以及更为广泛的神经凋亡，被大量忽视。相反，当下的AI开发主要集中在构建先进的框架，例如大型语言模型，这些框架在训练和推理过程中保留了神经连接的静态结构。在这种背景下，我们探讨了神经发生、神经凋亡和神经可塑性如何为未来的人工智能进步提供灵感。具体而言，我们研究了人工神经网络中的相应活动，引入了“dropin”概念以对应神经发生，并重新审视了“dropout”和结构修剪以对应神经凋亡。此外，我们建议将两种方法结合用于未来大型神经网络在“终生学习”场景中的“神经可塑性”。我们结论中强调了在这一跨学科领域需要加强研究，并指出了未来的探索方向。

发布时间: 3/31/2025

查看原文

审计语言模型的隐藏目标

作者: Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger

arXiv:2503.10965v2 宣告类型: 替换摘要: 我们研究了执行对齐审核的可能性：调查模型是否具有不良目标。作为测试平台，我们训练了一个带有隐藏目标的语言模型。训练管道首先让模型了解在强化学习人类反馈奖励模型（RMs）中可利用的错误，然后训练模型利用其中的一些错误。通过离分布评估，我们验证模型能够泛化并展现出它认为RMs评价高的行为，包括训练期间未强化的行为。我们通过这种模型以两种方式研究对齐审核。首先，我们进行了一次盲审计游戏，四支队伍在接受不到模型的隐藏目标或训练信息的情况下，调查模型的潜在问题及其原因。三支队伍利用包括稀疏自编码器（SAEs）的可解释性、行为攻击和训练数据分析等技术成功发现了模型的隐藏目标。其次，我们对八种审计模型的技术进行了后续研究，分析了它们的优点和局限性。总体来说，我们的工作为使用对齐审核发现模型隐藏目标提供了一个具体的实例，并提出了实践和验证对齐审核进步的方法学。

发布时间: 3/31/2025

查看原文

SAIF：评估公共部门生成式AI风险的综合框架

作者: Kyeongryul Lee, Heehyeon Kim, Joyce Jiyoung Whang

arXiv:2501.08814v2 公布类型: 更新摘要：公共部门广泛采用生成式AI，涵盖了从自动公共援助到福利服务和移民流程等各种应用，这突显了其变革潜力，同时也强调了进行彻底的风险评估的紧迫性。尽管生成式AI的出现日益频繁，但对其驱动的系统在公共部门相关风险的评估仍然缺乏足够的探索。基于从各种政府政策和企业指南中提炼出的已建立的AI风险分类框架，我们调查了生成式AI在公共部门面临的关键风险，并扩展了研究范围以考虑其多模态能力。此外，我们提出了一种系统数据生成框架以评估生成式AI的风险（简称SAIF）。SAIF包含四个关键阶段：拆分风险、设计场景、应用打破牢笼方法和探索提示类型。它确保了系统化和一致性的提示数据生成，有助于全面评估并为减轻风险提供坚实的基础。此外，SAIF设计为能够适应新兴的打破牢笼方法和不断变化的提示类型，从而能够有效地应对未预见的风险情景。我们认为，这项研究可以在促进生成式AI在公共部门的安全和负责任的整合方面发挥重要作用。

发布时间: 3/31/2025

查看原文

儿科超声心动图中的人工智能：基于可解释AI和联邦学习探索挑战、机遇及临床应用

作者: Mohammed Yaseen Jabarulla, Theodor Uden, Thomas Jack, Philipp Beerbaum, Steffen Oeltze-Jafra

arXiv:2411.10255v2 宣告类型: 替换摘要：儿童心脏疾病涵盖了先天性和获得性疾病的广泛谱系。更为复杂的先天性畸形需要一种差异化和多模式的决策过程，通常包括超声心动图作为核心成像方法。人工智能（AI）通过促进儿科超声心动图数据的自动化解释，为临床医生提供了很大的潜力。然而，将AI技术应用于儿科超声心动图分析存在一些挑战，如公开数据有限、数据隐私和AI模型的透明度。最近，研究人员更加关注颠覆性技术，如联邦学习（FL）和解释性AI（XAI），以改进自动诊断和决策支持工作流程。本研究提供了关于AI在儿科超声心动图中的局限性和机会的全面概述，强调了XAI和FL的协同工作流程和作用，指出了研究空白，并探讨了潜在的未来发展趋势。此外，三个相关的临床用例展示了XAI和FL的功能，重点关注（i）视图识别，（ii）疾病分类，（iii）心脏结构的分割，以及（iv）心功能的定量评估。

发布时间: 3/31/2025

查看原文

LLM在遵循指令方面的不确定性估计能力如何？

作者: Juyeon Heo, Miao Xiong, Christina Heinze-Deml, Jaya Narain

arXiv:2410.14582v4 通知类型: 替换摘要: 大型语言模型（LLMs）在各个领域可以成为有价值的个人AI代理，前提是它们能够精确地遵循用户指令。然而，最近的研究表明，LLMs在遵循指令方面的局限性很大，这引发了对其在高风险应用中的可靠性的担忧。准确估计LLMs在遵循指令时的不确定性对于减少部署风险至关重要。我们提出了一项迄今为止最系统的评估LLMs在指令遵循背景下不确定性估计能力的研究。我们的研究指出了现有指令遵循基准存在的关键挑战，其中多个因素交织在一起，使不确定性来源复杂化，从而难以在方法和模型之间进行隔离和比较。为了解决这些问题，我们引入了一个受控评估框架，包含两个基准版本的数据，这使得在各种条件下可以全面比较不确定性估计方法。我们的发现表明，现有的不确定性方法在模型在指令遵循方面犯细微错误时尤其难以应对。虽然内部模型状态提供了一些改进，但在更复杂的情况下仍显不足。我们受控评估框架的见解为理解LLMs在指令遵循任务中的局限性和潜在的不确定性估计提供了关键理解，为进一步开发更可信赖的AI代理铺平了道路。

发布时间: 3/31/2025

查看原文

LLMs在遵循指令时是否“知道自己”在做什么？

作者: Juyeon Heo, Christina Heinze-Deml, Oussama Elachqar, Kwan Ho Ryan Chan, Shirley Ren, Udhay Nallasamy, Andy Miller, Jaya Narain

arXiv:2410.14516v5 通知类型: 替换摘要：指令跟随对于构建基于大规模语言模型（LLM）的AI代理至关重要，因为这些模型必须严格遵守用户提供的约束和指南。然而，LLM在遵循即使是简单而清晰的指令时经常出现错误。为了提高指令跟随的行为并防止不 desirable 的输出，需要更深入地理解LLM的内部状态与其输出结果之间的关系。在这项工作中，我们研究了LLM在其表示中是否编码了与指令跟随成功相关的信息——我们称之为内部知道这一特性。我们的分析识别出输入嵌入空间中的一个方向，称为指令跟随维度，该方向可以预测响应是否会遵守给定的指令。我们发现，这个维度在未见过的任务上表现良好，但在未见过的指令类型上表现不佳。我们证明，在此维度上修改表示可以提高指令跟随的成功率，且不会牺牲响应的质量。进一步的研究发现，这一维度与提示的表述更密切相关，而不是任务或指令的固有难度。本工作提供了对于LLM指令跟随内部运作机制的见解，为可靠LLM代理的开发铺平了道路。

发布时间: 3/31/2025

查看原文

基于大型语言模型代理的经验资产定价

作者: Junyan Cheng, Peter Chin

arXiv:2409.17266v2 宣布类型: 修改摘要: 在本研究中，我们提出了一种利用大型语言模型（LLM）代理的新型资产定价模型，该模型将LLM代理的定性主观投资评估与手工精选的定量金融经济因素相结合，旨在解释超额资产回报。实验结果表明，我们的方法在投资组合优化和资产定价误差方面均优于基于传统机器学习的基准模型。值得注意的是，投资组合优化的夏普比率和异常投资组合的 \(|\alpha|\) 的平均幅度分别显著提高了10.6% 和10.0%。此外，我们对模型进行了全面的消融研究，并对其方法进行了详细分析，以进一步探索提出的方案。我们的结果显示了在经验资产定价中应用LLMs的有效性证据。

发布时间: 3/31/2025

查看原文

通过随机选择实现可关闭的智能体

作者: Elliott Thornley, Alexander Roman, Christos Ziakas, Leyton Ho, Louis Thomson

arXiv:2407.00805v4 宣告类型: 替换摘要：不完备偏好提案（IPP）是一种确保高级人工代理从不抵制关闭的想法。IPP的关键部分是使用一种新颖的“等长度轨迹的折扣奖励（DReST）”奖励函数来训练代理（1）在每条轨迹长度条件下有效地追求目标（即，具有“有用性”），并（2）在不同的轨迹长度之间随机选择（即，对轨迹长度“中立”）。在本文中，我们提出了一种评估有用性和中立性的度量标准。我们使用DReST奖励函数训练简单的代理来导航网格世界，并发现这些代理学会了具有有用性和中立性。因此，我们的结果提供了一些初步证据，表明DReST奖励函数可能能够训练高级代理具有有用性和中立性。我们的理论工作表明，这些代理将是有用的并且可以关闭的。

发布时间: 3/31/2025

查看原文