arXiv:2505.06464v1 宣告类型: 新
摘要: 人工智能领域的开放性概念至今很大程度上受到了开源软件的定义和社区实践的启发。这将开放性与积极的联想联系在一起,引入了协作创新和透明度等假设的优势。然而,开源软件的实践和益处并不完全适用于人工智能,人工智能有自己的挑战。为了应对人工智能日益增长的社会影响、风险和能力,重新定义符合人工智能特点的开放性概念至关重要。我们认为,考虑不同学科中开放性的基本范围将扩大讨论,引入重要视角,并反思开放性在人工智能中的含义。为此,我们通过对主题建模发现的98个开放性概念进行定性分析,开发了一个开放性的分类体系。利用这一分类体系作为工具,我们将当前关于人工智能开放性的讨论置于背景之中,识别出差距并强调与其它学科的联系。我们的工作促进了对人工智能领域开放性的框架构建,反映了开放性原则和实践超越开源软件的主张,并呼吁从行动、系统属性和伦理目标的全面视角来审视开放性。
arXiv:2505.06438v1 宣布类型: 新
摘要: 随着大型语言模型驱动(LLM驱动)的人工智能(AI)机器人变得流行,人们意识到它们在任务导向对话(TOD)方面的巨大潜力。然而,完全依赖LLM的机器人在知识方面不可靠,它们最终能否正确完成任务无法保证。这些代理之间的协作也是一个挑战,因为需要传达的信息不明确,信息传递依赖于提示,这不可靠,并且容易注入恶意知识。借助逻辑编程工具(如回答集编程(ASP)),可以安全可靠地构建对话代理,并使代理之间的通信更高效和安全。我们提出了一种管理员-助手双代理模式,其中两个由ASP驱动的机器人共享同一个知识库并独立完成任务,信息则通过协作规则集(CRS)传递。传达的知识和信息被封装,对用户不可见,确保了信息传输的安全性。我们构建了一个名为AutoManager的双代理系统,用于管理和操控美国 Taco Bell 快餐店的外带窗口。在AutoManager中,助手机器人负责接收顾客订单,而管理员机器人则管理菜单和食品供应。我们评估了我们的AutoManager,并与实际世界的Taco Bell Drive-Thru AI点餐系统进行了比较,结果显示我们的方法更加可靠。
arXiv:2505.06328v1 类别:新作
摘要:从痴呆症患者的认知辅助到机器人技术等各类代理型AI应用,都要求一个基于现实的稳健记忆系统。在本文中,我们提出了一种由三个组件组成的记忆系统。首先,我们将视觉语言模型用于图像字幕和实体消歧,与大规模语言模型结合,以便在感知过程中进行一致的信息提取。其次,提取的信息在一种知识图谱中表示,并通过向量嵌入增强以高效管理关系信息。第三,我们结合语义搜索和图查询生成,通过检索增强生成进行问答。我们使用一个实际例子来说明该系统的运作以及其潜在应用。
arXiv:2505.06287v1 宣告类型: 新
摘要:数字孪生正在成为一种有价值的工具,不仅在众多领域(包括过程工业、能源、太空、运输和医疗保健)的短期决策制定中发挥作用,还在长期内的战略规划中发挥作用。本文报告了我们关于设计一种增强资源规划的数字孪生的工作,例如在医院中的住院病房需求。通过利用可执行形式模型进行系统探索、本体进行知识表示以及SMT求解器进行约束满足,我们的方法旨在探索假设的“如果-怎么样”情景,以改进战略规划过程,同时解决具体的短期决策任务。我们提出的方法使用可执行形式模型将需要住院的患者流入转化为一系列优化问题,例如捕捉日常住院病房需求,这些问题可以通过SMT技术解决。知识库,它形式化了领域的知识,用于在数字孪生中建模所需的配置,从而使孪生能够支持短期决策制定和长期战略规划生成从平均条件到最坏情况的资源需求场景,这取决于患者的预期治疗以及可用资源的变化,例如不同房间的床位分配。我们通过考虑医院病房中的床位分配问题来阐述我们的数字孪生架构。
arXiv:2505.05423v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)的影响已经扩展到了文学领域。然而,现有的评估指标注重机械准确性而忽视了艺术表达,且倾向于高估机器翻译(MT)的质量,认为其优于经验丰富的人工译者的翻译。从长远来看,这种偏见可能导致翻译质量和文化真实性的永久下降。为应对专门用于文学翻译评估的特殊评估指标的迫切需求,我们引入了LiTransProQA,这是一个基于LLM的新颖、无需参考的问答框架,专为文学翻译评估设计。LiTransProQA独特地结合了专业文学译者和研究人员的见解,重点关注文学质量评估中的关键要素,如文学手法、文化理解以及作者声音。我们广泛的研究表明,尽管经过文学微调的XCOMET-XL实现了微小的改进,但LiTransProQA在当前指标中的表现要明显更好,获得了高达0.07的皮尔逊相关系数和肯德尔τ系数的提升,并在充分性评估中超过了当前最先进指标15分以上。将专业译者的见解作为权重进一步提高了性能,突显了翻译者输入的价值。值得注意的是,LiTransProQA的表现接近受过训练的语言注释者的评估水平。这表明它具有广泛的应用性,适用于诸如LLaMA3.3-70b和Qwen2.5-32b等开源模型,表明其作为无障碍且无需训练的文学评估指标和评价受版权或伦理限制而需要本地处理的文本有价值的工具的潜力。
arXiv:2505.05375v2 宣告类型: replace-cross
摘要:近年来,部署在神经形态芯片上的神经形态神经网络(SNNs)在不同场景下的边缘设备上提供了高效的解决方案。然而,在部署后适应分布转移的能力已成为一个关键挑战。在线测试时适应(OTTA)通过使模型能够动态调整以适应新的数据分布,从而提供了一种有前途的解决方案,无需使用源数据或标记的目标样本。尽管现有的一些OTTA方法主要针对传统的仿神经网络设计,但对于SNNs并不适用。为了解决这一问题,我们提出了一种低功耗、神经形态芯片友好的在线测试时适应框架,旨在在分布转移下增强模型的泛化能力。所提出的方法称为阈值调制(TM),它通过借鉴神经网络动态机制的归一化方法,动态调整发射阈值,从而与神经形态硬件更加兼容。基准数据集上的实验结果表明,该方法在提高SNNs对分布转移的鲁棒性方面具有有效性,同时保持较低的计算成本。所提出的方法为SNNs的在线测试时适应提供了一种实用的解决方案,并为未来神经形态芯片的设计提供了灵感。开源代码可在github.com/NneurotransmitterR/TM-OTTA-SNN获取。
arXiv:2505.05283v2 通知类型: 替换-交叉
摘要:代码大型语言模型(CodeLLMs)和代理在应对复杂软件工程任务方面展现了巨大的潜力。与传统的软件工程方法相比,CodeLLMs 和代理提供了更强的能力,并且可以灵活处理自然语言和代码的输入和输出。基准测试在评估 CodeLLMs 和代理的能力方面发挥着关键作用,指导它们的发展和部署。然而,尽管它们的重要性不断增加,对于 CodeLLMs 和代理的基准测试仍缺乏全面的综述。为了解决这一问题,本文提供了一个对现有 CodeLLMs 和代理基准的全面综述,研究和分析了461篇相关论文中的181个基准,覆盖了软件开发生命周期(SDLC)的不同阶段。我们的发现揭示了当前基准在覆盖方面的不平衡,大约60%的基准专注于 SDLC 的软件开发阶段,而需求工程和软件设计阶段分别仅受到5%和3%的关注。此外,Python 在审查的基准中占据了主导编程语言的地位。最后,本文指出了当前研究的挑战,并提出了未来的研究方向,旨在缩小代码大型语言模型和代理的理论能力与其在实际场景中的应用之间的差距。
arXiv:2505.04852v2 宣告类型: 替换-交叉
摘要:由于 Rust 提供了强大的内存和线程安全保证,对 C 代码进行翻译的兴趣不断增加。工具如 C2RUST 使从 C 到语义等价的 Rust 代码的语法引导重构成为可能。然而,生成的 Rust 程序往往依赖于不安全的构造——特别是原始指针——这削弱了 Rust 的安全性保证。本文旨在通过消除原始指针来提高由 C2RUST 生成的 Rust 程序的内存安全性。具体来说,我们提出了一种窗口内原始指针重写技术,将个体函数中的原始指针提升为合适的 Rust 数据结构。技术上,PR2 使用基于决策树的提示来引导指针提升过程。此外,它利用代码更改分析来引导在重构过程中引入的错误的修复,有效解决了编译和测试用例执行期间遇到的错误。我们实现 PR2 作为原型,并使用 gpt-4o-mini 对 28 个真实世界的 C 项目进行了评估。结果显示,PR2 成功消除了这些项目中 13.22% 的局部原始指针,大幅提升了翻译后的 Rust 代码的安全性。平均而言,PR2 完成一个项目的转换需要 5.44 小时,平均成本为 $1.46。
arXiv:2505.04787v2 宣告类型: replace-cross
摘要:连续学习涉及逐步从新数据中获取知识,同时保留之前获取的知识,从而减轻神经网络中的“灾难性遗忘”。我们的工作提出了一种新颖的以不确定性驱动的无监督连续学习框架,名为“重放以铭记(R2R)”。提出的R2R架构通过聚类级别的不确定性驱动反馈机制和基于VLM的生成性重放模块,高效地使用未标记和合成标记数据,比例平衡。与依赖预训练模型和伪标签的传统记忆缓冲方法不同,我们的R2R框架无需任何先前训练即可运行。它利用未标记数据的视觉特征,并通过基于聚类的不确定性估计结合动态阈值不断进行适应。同时,一种生成性重放机制与使用DeepSeek-R1增强的CLIP VLM结合,产生代表过去经验的标记合成数据,类似于生物视觉思维,通过重放记忆来记住并在新的、未见的任务中采取行动。我们在CIFAR-10、CIFAR-100、CINIC-10、SVHN和TinyImageNet数据集中进行了广泛的经验分析。我们提出的R2R方法提高了知识保留,分别实现了98.13%、73.06%、93.41%、95.18%、59.74%的最佳性能,超过现有最佳性能4.36%以上。
arXiv:2505.03586v2 通告类型: replace-cross
摘要:在现实世界中的多智能体系统(MASs)中,观察延迟是普遍存在的,这阻止了智能体根据环境的真实状态做出决策。单个智能体的局部观察通常由环境中的其他智能体或动态实体的多个组件组成。这些具有不同延迟特性的离散观察组件给多智能体强化学习(MARL)带来了重大挑战。在本文中,我们首先通过扩展标准的Dec-POMDP,提出了分布式随机个体延迟部分可观测马尔可夫决策过程(DSID-POMDP)的形式化模型。然后,我们提出了一种处理随机个体延迟的MARL训练框架——彩虹延迟补偿(RDC),并推荐其组成部分模块的实现方法。我们使用标准的MARL基准测试,包括MPE和SMAC,实现了DSID-POMDP的观察生成模式。实验表明,基线MARL方法在固定和非固定延迟下遭受严重的性能下降。RDC增强的方法解决了这一问题,在某些延迟场景下显著实现了理想的无延迟性能,同时保持了一般性。我们的工作为多智能体延迟观察问题提供了新的视角,并提供了有效的解决方案框架。源代码可在https://anonymous.4open.science/r/RDC-pymarl-4512/获取。