arXiv 论文列表

作者: Shrisha Rao

arXiv:2504.20676v1 介绍类型: 新摘要：本文通过算法信息论为理解人工智能可解释性的基本极限奠定了理论基础。我们将可解释性形式化为通过更简单的模型近似复杂模型，并使用库尔莫哥洛夫复杂性量化近似误差和解释复杂度。我们的主要理论贡献包括：(1) 复杂性缺口定理证明，任何显著简单的解释必定会在某些输入上与原模型有所不同；(2) 精确界展示了解释复杂度随输入维度呈指数增长，但随容差误差呈多项式增长；以及(3) 局部解释与全局解释之间差异的表征，表明局部解释可以显著简单，同时在相关区域保持准确性。我们还建立了监管不可能性定理证明，没有任何监管框架能够同时追求不受限制的人工智能能力、人可理解的解释以及可忽略的误差。这些结果突显了设计、评估和监督可解释人工智能系统时可能需要考虑的考虑因素。

发布时间: 4/30/2025

查看原文

认知地图是生成程序

作者: Marta Kryven, Cole Wyeth, Aidan Curtis, Kevin Ellis

arXiv:2504.20628v1 宣告类型: 新摘要：理解世界并在这个世界中行动依赖于构建简化的精神模型，从而抽象掉现实中的某些方面。这一原则适用于资源有限的代理。无论是生物、人类还是算法，都在面对各种计算限制下形成其世界的功能性表示的问题。在本工作中，我们探索了人类资源高效规划可能是从将世界表示为可预测结构中产生的假说。基于概念作为程序的隐喻，我们提出认知地图可以表现为利用可预测性和冗余性的生成程序，而不是直接编码空间布局。我们通过行为实验展示了在结构化空间中导航的人倾向于与程序化地图表示相一致的模块化规划策略。我们描述了一个计算模型，该模型可以在多种结构化场景中预测人类行为。此模型根据人类对世界的先验知识推断出可能的程序化认知地图的小概率分布，并利用这一分布生成资源高效计划。我们的模型利用大语言模型作为人类先验知识的嵌入，通过大量人类数据的训练隐式学习。此模型表现出改进的计算效率，需要大量减少内存，并在预测人类行为方面优于具有认知限制的无结构规划算法，这表明人类的规划策略依赖于程序化认知地图。

发布时间: 4/30/2025

查看原文

PaRT: 个性化实时检索增强的主动型社会聊天机器人

作者: Zihan Niu, Zheyong Xie, Shaosheng Cao, Chonggang Lu, Zheyu Ye, Tong Xu, Zuozhu Liu, Yan Gao, Jia Chen, Zhe Xu, Yi Wu, Yao Hu

arXiv:2504.20624v1 社交聊天机器人类型：新摘要：社交聊天机器人已成为日常生活场景中不可或缺的智能伴侣，从情感支持到个人互动都有所涵盖。然而，传统的聊天机器人通常依赖用户主动发起或维持对话，比如通过提出新的话题，这导致了参与度降低和对话时间缩短。在这篇论文中，我们提出了PaRT，一种通过个性化实时检索和生成来支持社交聊天机器人进行上下文感知主动对话的新框架。具体而言，PaRT首先将用户资料和对话上下文整合到一个大型语言模型（LLM）中，该模型最初被提示来润色用户查询并识别即将到来的对话中的潜在意图。在润色后的意图的指导下，LLM生成个性化的对话主题，这些主题随后作为目标查询来检索RedNote的相关段落。最后，我们用总结过的段落提示LLM生成基于知识并优化了参与度的响应。我们的方法已在实际生产环境中稳定运行超过30天，并使对话的平均持续时间提高了21.77%。

发布时间: 4/30/2025

查看原文

ReasonIR：训练用于推理任务的检索器

作者: Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer

arXiv:2504.20595v1 Announce Type: 新摘要: 我们展示了ReasonIR-8B，这是首个专门针对一般推理任务的检索器。现有检索器在推理任务上展现的增益有限，部分原因是现有训练数据集专注于与文档直接相关的简短事实查询。我们开发了一种合成数据生成管道，对于每份文档，该管道生成一个具有挑战性和相关性的查询，以及一个可能相关但最终无用的困难负样本。通过使用我们合成数据和现有公开数据的混合数据进行训练，ReasonIR-8B 在 BRIGHT 上实现了新的最佳性能，该基准是一个广泛使用的重推理型信息检索 (IR) 测试平台，在没有重新排名器的情况下达到 29.9 nDCG@10，使用重新排名器时达到 36.9 nDCG@10。当应用于 RAG 任务时，与闭卷基线相比，ReasonIR-8B 分别在 MMLU 和 GPQA 上提高了 6.4% 和 22.6% 的性能，超越了其他检索器和搜索引擎。此外，ReasonIR-8B 在测试时更有效地利用计算资源：在 BRIGHT 上，其性能随着查询更长和信息更丰富而持续提高；即使结合 LLM 重新排名器，它也继续优于其他检索器。我们的训练食谱是通用的，可以很容易地扩展到未来的 LLM；为此，我们开源了我们的代码、数据和模型。

发布时间: 4/30/2025

查看原文

MuRAL：一种标注自然语言用于日常生活活动的多居民环境传感器数据集

arXiv:2504.20505v1 宣言类型: 新摘要: 近期在大型语言模型（LLMs）方面的进展展示了其在使用环境传感器进行人类活动识别（HAR）过程中表现出的有希望的潜力，特别是在自然语言推理和零样本学习方面。然而，现有的数据集，如CASAS、ARAS和MARBLE，最初并不是为了LLMs设计的，因此缺乏充分利用LLMs能力所需的上下文丰富性、复杂性和注释粒度。在本文中，我们介绍了MuRAL，这是一个包含多住户环境中的多用户传感器数据的首个带有自然语言描述的多住户外设传感器数据集，数据涵盖来自21个会话的超过21小时的传感器数据。MuRAL被细粒度地标注以自然语言描述、住户身份和高层次的活动标签，所有这些标签都置于动态的、现实的多住户环境中。我们使用最先进的LLMs对MuRAL进行了三项核心任务的基准测试：主题分配、动作描述和活动分类。我们的结果表明，虽然LLMs能够为环境数据提供丰富的语义解释，但当前的模型仍然面临处理多用户模糊性和传感器上下文不足的挑战。我们推出MuRAL，以支持未来LLM驱动的、可解释的和社会意识强的智能环境中的人类活动理解的研究。要获取数据集，请通过提供的联系方式联系我们。数据集检索的直接链接将在适当时候在此处提供。

发布时间: 4/30/2025

查看原文

GUI代理的基础模型强化学习增强总结

作者: Jiahao Li, Kaer Huang

arXiv:2504.20464v1 通告类型: 新摘要: 由多模态大规模语言模型（MLLMs）驱动的图形用户界面（GUI）代理已经 emergence 作为一种有希望的范式，以使智能与数字系统进行交互。本文提供了 GUI 代理最近进展的结构化摘要，重点关注增强型强化学习（RL）架构。我们首先将 GUI 代理任务形式化为马尔可夫决策过程（MDP），讨论典型的执行环境和评估指标。然后我们回顾了基于（M）LLM 的 GUI 代理的模块化架构，包括感知、规划和执行模块，并通过代表性作品跟踪其演变。此外，我们按提示基础、监督微调（SFT）基础和基于 RL 的方法对 GUI 代理的训练方法进行了分类，突出了从简单的提示工程到通过 RL 实现动态策略学习的进步。我们的摘要展示了最近在多模态感知、决策推理和适应性动作生成方面的创新如何在复杂的现实环境中显著提高了 GUI 代理的一般化能力和鲁棒性。最后，我们确定了构建更强大和可靠的 GUI 代理的关键挑战和未来方向。

发布时间: 4/30/2025

查看原文

TAMO：基于工具辅助LLM代理和多模态观测数据的细粒度根因分析

作者: Qi Wang, Xiao Zhang, Mingyi Li, Yuan Yuan, Mengbai Xiao, Fuzhen Zhuang, Dongxiao Yu

arXiv:2504.20462v1 通知类型: 新摘要: 随着分布式系统的不断发展，微服务和云原生技术已成为现代企业软件开发的核心。尽管这些技术带来了显著的优势，但也增加了系统的复杂性和运维挑战。传统的根本原因分析（RCA）在实现自动化故障响应方面面临困难，严重依赖于人工干预。近年来，大型语言模型（LLMs）在上下文推断和领域知识整合方面取得了突破，为运维人工智能（AIOps）提供了新的解决方案。然而，现有的基于LLM的方法面临三个关键挑战：文本输入约束、动态服务依赖关系的幻觉以及上下文窗口限制。为了解决这些问题，我们提出了一种工具辅助的多模态LLM代理，名为TAMO，用于细粒度的根本原因分析。它将多模态观测数据统一为时间对齐的表示，以提取一致的特征，并采用专门的根本原因定位和故障分类工具来感知上下文环境。这种方法克服了LLM在处理实时变化的服务依赖关系和原始观测数据方面的限制，并通过将关键信息结构化为提示，引导LLM生成与系统上下文一致的修复策略。实验结果表明，当处理具有异构性和常见故障类型的公开数据集时，TAMO在根本原因分析方面表现出色，证明了其有效性。

发布时间: 4/30/2025

查看原文

Head-Tail 意识KL散度在脉冲神经网络的知识精炼中

作者: Tianqing Zhang, Zixin Zhu, Kairong Yu, Hongwei Wang

arXiv:2504.20445v1 公告类型: 新摘要: 神经元脉冲网络(SNNs)已成为一种有前途的方法，用于实现能效高和生物合理性计算。然而，由于现有训练方法的限制和固有的模型约束，SNNs在与人工神经网络(ANNs)的性能对比中经常表现出差距。知识蒸馏(KD)作为一种技术，已被探讨将其应用于将ANN教师模型的知识转移到SNN学生模型上，以弥补这种差距。传统的KD方法通常使用Kullback-Leibler (KL)散度来对准输出分布。然而，传统的基于KL的方法未能充分利用SNNs的独特特性，因为它们往往会过度强调高概率预测而忽视低概率预测，导致不佳的泛化性能。为了解决这个问题，我们提出了一种新颖的KD方法——头部和尾部感知Kullback-Leibler (HTA-KL)散度，专门为SNNs设计。HTA-KL引入了一个基于累积概率的掩码，以动态区分高概率和低概率区域，并分配自适应权重以确保知识转移的平衡，从而增强整体性能。通过结合前向KL (FKL)和逆向KL (RKL)散度，我们的方法有效地对分布的头尾区域进行了对准。我们在CIFAR-10、CIFAR-100和Tiny ImageNet数据集上评估了我们的方法。在大多数数据集上，我们的方法在较少的时步骤中比现有方法表现更好。

发布时间: 4/30/2025

查看原文

RV-Syn：基于结构化函数库的合理可验证数学推理数据合成

作者: Jiapeng Wang, Jinhao Jiang, Zhiqiang Zhang, Jun Zhou, Wayne Xin Zhao

arXiv:2504.20426v1 通告类型: 新增摘要: 在大型语言模型（LLMs）中增强推理能力需要大量的高质量推理数据，尤其是在数学领域。现有的数据合成方法，例如从标注的训练集进行数据增强或基于相关知识点和文档直接生成问题，虽然扩展了数据集，但在生成过程中掌握问题的内在逻辑并确保解决方案的可验证性方面仍面临挑战。为了解决这些问题，我们提出了一种名为RV-Syn的新颖的理性验证数学合成方法。RV-Syn基于初始种子问题构建了一个结构化的数学运算函数库，并通过将该库中的Python格式化函数组合起来生成计算图作为解决方案。然后，这些图被反向翻译成复杂的问题。基于构建的计算图，我们实现了基于解决方案的逻辑感知问题生成。此外，计算图的可执行性确保了解决过程的可验证性。实验结果表明，RV-Syn超越了现有的合成方法，包括那些涉及人工生成问题的方法，实现了更有效的数据扩展。该方法为生成高质量的推理数据集提供了一个可扩展的框架。

发布时间: 4/30/2025

查看原文

通过离线仿真与LLMs进行的软件脚本自动化技能发现

作者: Paiheng Xu, Gang Wu, Xiang Chen, Tong Yu, Chang Xiao, Franck Dernoncourt, Tianyi Zhou, Wei Ai, Viswanathan Swaminathan

arXiv:2504.20406v1 宣告类型: 新摘要：脚本接口使用户能够自动化任务并自定义软件工作流程，但传统上创建脚本需要编程专业知识和对特定API的熟悉，这对许多用户来说是一个障碍。尽管大型语言模型（LLMs）可以从自然语言查询生成代码，但运行时代码生成受到未验证的代码、安全风险、响应时间较长和计算成本较高的限制。为了弥合这一差距，我们提出了一种离线模拟框架，利用LLMs和公开的脚本指南来创建特定于软件的技能集，即一组经过验证的脚本。我们的框架由两个组件组成：(1) 任务创建，使用自顶向下的功能指导和自底向上的API协同探索生成有用的任务；(2) 技能生成，通过执行反馈来完善和验证脚本。为了有效导航庞大的API景观，我们引入了一种基于图神经网络（GNN）的链接预测模型来捕捉API协同效应，这使得能够生成涉及未充分利用的API的技能并扩展技能集的多样性。实验表明，与传统的运行时代码生成相比，我们的框架显著提高了自动化成功率、减少了响应时间，并节省了运行时的令牌成本。这是首次尝试使用软件脚本接口作为基于LLM系统的测试平台，突显了在受控环境中利用执行反馈的优势，并提供了将AI能力与特定软件领域的用户需求对齐的宝贵见解。

发布时间: 4/30/2025

查看原文