arXiv 论文列表

作者: Xiangbo Gao, Runsheng Xu, Jiachen Li, Ziran Wang, Zhiwen Fan, Zhengzhong Tu

arXiv:2501.18616v1 交叉类型: cross 摘要：感知对于自动驾驶至关重要，但单个代理的感知常常受到传感器物理限制的约束，导致在严重遮挡、恶劣天气条件下以及检测远距离物体时性能下降。多代理协作感知提供了解决方案，但在整合具有不同模型架构的异构代理时仍存在挑战。为了解决这些挑战，我们提出了STAMP，这是一种针对异构代理的可扩展、任务和模型无关的协作感知管道。STAMP 利用轻量级的适配器-还原器对，在特定代理域和共享协议域之间转换鸟瞰图（BEV）特征，从而实现高效的特征共享和融合。这种方法减少计算开销，增强可扩展性，并保持模型安全。在模拟和真实世界数据集上的实验表明，STAMP 的准确度与最先进的模型相当，但计算成本显著降低。作为首款面向任务和模型无关的框架，STAMP 的目标是推动可扩展和安全的移动系统研究，朝着L5级自主驾驶迈进。我们的项目页面见 https://xiangbogaobarry.github.io/STAMP，代码可在 https://github.com/taco-group/STAMP 获取。

发布时间: 2/3/2025

查看原文

冠内光学相干断层扫描分析中使用人工智能的复习与建议

作者: Xu Chen, Yuan Huang, Benn Jessney, Jason Sangha, Sophie Gu, Carola-Bibiane Sch\"onlieb, Martin Bennett, Michael Roberts

arXiv:2501.18614v1 Announce Type: cross 摘要：人工智能（AI）方法在从血管内光学相干断层扫描（IVOCT）图像快速准确诊断冠状动脉疾病（CAD）方面充满潜力。有大量的论文描述了针对不同诊断任务的基于AI的模型，但对于哪些模型具备临床应用潜力并经过适当验证仍然 unsure。本系统评价考虑了2015年1月到2023年2月期间描述使用IVOCT进行CAD基于AI诊断的已发表文献。我们的搜索确定了5,576项研究，在初步筛选后，有513项被纳入，最终在质量筛选后，有35项研究被纳入系统评价的最终研究。我们的研究结果表明，大多数识别出的模型目前并不适用于临床使用，主要是由于方法论缺陷和潜在的偏差。为解决这些问题，我们提供了一些建议以提高模型质量并改进研究实践，以促进临床有用的人工智能产品的开发。

发布时间: 2/3/2025

查看原文

深度优化SAT求解器以优化IC3算法

作者: Yuheng Su, Qiusong Yang, Yiwei Ci, Yingcheng Li, Tianjun Bu, Ziyu Huang

arXiv:2501.18612v1 声称类型: cross 摘要: IC3 算法，也被称为 PDR，是一种基于 SAT 的模型检查算法，由于其高效性、可扩展性和完整性，在近年来对领域产生了重大影响。该算法利用 SAT 求解器解决了与相对归纳相关的系列 SAT 查询。基于对 IC3 中 SAT 查询的独特特征的观察，本文介绍了 GipSAT，一个针对 IC3 轻量级且专门优化的 SAT 求解器。通过观察到 SAT 查询不一定需要对所有变量进行决策，GipSAT 在每次求解前计算出需要决策的变量子集，同时确保结果不受影响。通过观察到 VSIDS 中二叉堆操作的开销不容忽视，GipSAT 使用桶而不是二叉堆来实现常数时间操作。GipSAT 支持临时子句，无需在每次求解前分配新的激活变量，从而避免了重置求解器的必要性。综合评估显示，GipSAT 实现了显著的性能提升。与 Minisat 相比，GipSAT 在求解时间上平均加速了 3.61 倍。

发布时间: 2/3/2025

查看原文

基于神经网络的双层优先级加速配置性能 bug 测试

作者: Youpeng Ma, Tao Chen, Ke Li

arXiv:2501.15392v1 交叉公告类型摘要：随着软件系统的复杂性和可配置性增加，越来越多的性能问题来源于配置设计。这导致一些配置选项意外地降低了性能，与其开发者设计时的预期相悖。这种差异，即配置性能缺陷（CPBugs），极具破坏性，且可能深藏在源代码中。然而，高效地测试CPBugs是困难的，不仅因为测试参考答案难以设置，而且还因为配置测量成本高，并且待测试的配置种类太多。因此，现有的测试工具要么运行时间过长，要么在预算有限时未能有效检测CPBugs，同时参考答案不准确。本文我们旨在通过神经网络优先级排序，在配置选项和值范围级别上实现显著更快的CPBugs测试，同时自动估计测试参考答案。我们提出的一个工具，称为NDP，是一个通用框架，可以与不同的启发式生成器一起工作。该想法是利用两个神经语言模型：一个用于估计CPBugs类型，作为参考答案，更重要的是，另一个用于根据配置选项是否与CPBugs相关来推断概率，进而优先选择需要搜索的选项和值范围。对不同版本的多个广泛使用的系统进行的实验表明，NDP通常能在87%的情况下更好地预测CPBugs类型，并且在与最先进的工具相比时，最多可提高88.88倍的测试效率。

发布时间: 2/3/2025

查看原文

LLM们是否战略性地揭示、隐瞒和推断信息？一种在变色龙游戏中理论与实证分析的探讨

作者: Mustafa O. Karabag, Ufuk Topcu

arXiv:2501.19398v1 宣布类型：新摘要：基于大型语言模型（LLM）的智能体在包含非合作方的环境中变得常见。在这种环境中，智能体的决策需要隐藏信息给对手，揭示信息给合作者，并推断信息以识别其他智能体的特性。为了调查LLM是否具有这些信息控制和决策能力，我们让LLM智能体玩基于语言的隐藏身份游戏《变色龙》。在游戏中，一组不认识彼此的非变色龙智能体试图识别变色龙智能体而不透露秘密。这个游戏要求变色龙和非变色龙智能体都需要具备上述信息控制能力。实验结果表明，尽管非变色龙LLM智能体能够识别变色龙智能体，但他们无法有效隐藏秘密，其胜率远远低于简单策略的胜率。为了正式解释这种行为，我们对从隐藏到揭示一系列策略进行了理论分析，并提供了非变色龙胜率的界限。基于实验结果和不同策略的理论分析，我们得出结论，基于LLM的非变色龙智能体向未知身份的智能体透露了过多的信息。我们的结果指出了当前LLM，包括GPT-4、GPT-4o、Gemini 1.5和Claude 3.5 Sonnet，在战略性互动中的一个弱点。

发布时间: 2/3/2025

查看原文

基于记忆的神经决策合成：面向任务的嵌体系统强化学习中的记忆引导神经决策合成

作者: Anirudh Chari, Suraj Reddy, Aditya Tiwari, Richard Lian, Brian Zhou

arXiv:2501.19318v1 Announce Type: 新摘要：虽然大型语言模型（LLMs）在作为体感代理的零样本规划者方面显示出令人鼓舞的能力，但它们无法从经验中学习并构建持久的心理模型，这限制了它们在复杂的开放式环境（如Minecraft）中的鲁棒性。我们介绍了MINDSTORES，一种增强规划框架，使体感代理能够在自然与环境交互中构建和利用心理模型。我们的方法从人类如何构建和精炼认知心理模型中汲取灵感，通过维护一个包含过往经验的数据库来扩展现有的零样本LLM规划，这些数据库为未来的规划迭代提供信息。关键创新在于将积累的经验表示为（状态、任务、计划、结果）元组的自然语言嵌入，然后这些嵌入可以高效地被LLM规划者检索和推理，以生成见解并指导针对新状态和任务的计划细化。通过在MineDojo环境中进行广泛的实验，这是一个为Minecraft中的代理提供低级控制的模拟环境，我们发现MINDSTORES在学习和应用知识方面显著优于现有的基于记忆的LLM规划者，同时保持了零样本方法的灵活性和泛化优势，这标志着朝着通过自然体验不断学习的更强大的体感AI系统的重要一步。

发布时间: 2/3/2025

查看原文

主动生活事件服务本体分析

作者: Kuldar Taveter

arXiv:2501.19308v1 宣告类型: 新摘要: 生命事件服务是由几个政府机构联合提供的直接数字公共服务，以便个人能够履行特定生活事件或情况带来的所有义务，并行使所有相关权利。生命事件服务将与同一生活事件相关的多个公共服务整合为一项服务，以便服务消费者使用。本文对生命事件服务进行了本体分析，该分析基于Guarino、Guizzardi、Nardi、Wagner等人的研究成果。本体分析的目的是理解生命事件、基于生活事件的主动公共服务及其他相关概念的意义。这种本体分析至关重要，因为在设计电子政府和数字公共服务的硬件和软件架构时，必须对底层术语的精确意义达成一致。

发布时间: 2/3/2025

查看原文

SETS：利用自我验证和自我校正以提高测试时缩放性能

作者: Jiefeng Chen, Jie Ren, Xinyun Chen, Chengrun Yang, Ruoxi Sun, Sercan \"O Ar{\i}k

arXiv:2501.19306v1 宣布类型: 新颖摘要: 近期大规模语言模型（LLMs）的进步为通过利用测试时计算来增强复杂推理任务的性能创造了新的机会。然而，诸如重复抽样和多数投票或奖励模型评分等传统方法，在测试时计算量增加时往往会面临收益递减的问题，同时还需要进行代价高昂的任务特定奖励模型训练。在本文中，我们提出了自我增强测试时扩展（SETS），这是一种创新方法，利用了最近先进LLMs的自我验证和自我校正能力，以克服这些局限性。SETS将抽样、自我验证和自我校正整合到一个统一框架中，能够实现复杂任务中高效且可扩展的测试时计算，以提高能力。通过在具有挑战性的规划和推理基准测试上的广泛实验，与替代方案相比，我们证明了SETS实现了显著的性能改进和更为有利的测试时扩展规律。

发布时间: 2/3/2025

查看原文

基于大型语言模型的智能家居合成用户行为序列生成

作者: Zhiyao Xu, Dan Zhao, Qingsong Zou, Jingyu Xiao, Yong Jiang, Zhenhui Yuan, Qing Li

arXiv:2501.19298v1 安装类型: 新摘要: 近年来，随着智能家居系统的普及，这些环境中的安全问题已成为日益严重的威胁。目前，大多数智能家居安全解决方案，如异常检测和行为预测模型，都是通过预先收集的固定数据集进行训练的。然而，数据集收集的过程耗时且缺乏适应不断变化的智能家居环境所需的灵活性。此外，收集个人数据引发了用户的重大隐私问题。最近，大型语言模型(LLMs)由于它们在自然语言处理、推理和解决问题方面的强大能力，已成为各种任务和多个应用领域的强大工具。在本文中，我们提出了一种基于大型语言模型的合成数据集生成框架IoTGen，以增强下游智能家居智能模型的一般化能力。通过生成能够反映环境变化的新合成数据集，智能家居智能模型可以重新训练以克服固定且过时数据的局限性，从而更好地适应现实世界家庭环境的动态性。具体而言，我们首先提出了一种针对物联网行为数据的结构模式感知压缩(SPPC)方法，该方法在显著减少标记消耗的同时，保留了数据中的最有信息内容。然后，我们提出了一种系统化的方法来创建提示并实现数据生成，以自动生成具有规范性和合理性的物联网合成数据，辅助任务模型的自适应训练，以提高泛化能力和现实世界性能。

发布时间: 2/3/2025

查看原文

基于概念的可解释人工智能：度量与基准

作者: Halil Ibrahim Aysel, Xiaohao Cai, Adam Prugel-Bennett

arXiv:2501.19271v1 Announce Type: 新发现摘要：概念基础解释方法，如概念瓶颈模型（CBMs），旨在通过将其决策与人类可理解的概念联系起来，提高机器学习模型的可解释性，前提是这些概念可以准确地归因于网络的特征空间。然而，这种基本假设尚未得到严格的验证，主要是因为该领域缺乏用于评估这些概念的存在及其空间对齐的标准化度量和基准。为了解决这个问题，我们提出了三种度量方法：概念全局重要性度量、概念存在度量和概念位置度量，包括一种概念激活可视化技术，即概念激活图。我们用事后CBMs进行基准测试，以展示它们的能力和挑战。通过定性和定量实验，我们证明，在许多情况下，根据事后CBMs确定的最重要概念甚至不存在于输入图像中；此外，当这些概念确实存在时，它们的显著性图也无法与预期的区域对齐，要么激活整个对象，要么错误地标识特定概念的相关区域。我们分析了这些局限性的根本原因，例如概念的自然相关性。我们的发现强调，在空间可解释性至关重要的环境中，更仔细地应用基于概念的解释技术的必要性。

发布时间: 2/3/2025

查看原文