arXiv 论文列表

作者: David Nazareno Campo, Javier Conde, \'Alvaro Alonso, Gabriel Huecas, Joaqu\'in Salvach\'ua, Pedro Reviriego

arXiv:2505.02271v1 通知类型: 新摘要: 生成式人工智能（AI），尤其是大型语言模型，通过城市基础模型为城市应用带来了变革性的机会。然而，基础模型面临着局限性，因为它们仅包含训练时可用的知识，而更新它们既耗时又昂贵。检索增强生成（RAG）在文献中作为将上下文信息注入基础模型的首选方法而出现。它在动态且实时的场景中（例如城市环境中的场景）胜过了如微调等不太有效的技术。然而，传统的RAG架构，基于语义数据库、知识图谱、结构化数据或AI驱动的网络搜索，未能完全满足城市环境的需求。城市环境是复杂的系统，具有大量相互连接的数据、频繁更新、实时处理要求、安全需求以及对物理世界的强烈联系。本文提出了一个实时空间RAG架构，定义了将生成式AI有效集成到城市中的必要组件，并通过联接数据利用时间空间过滤能力。提出的架构使用FIWARE生态系统来开发智慧城市解决方案和数字孪生体，并通过马德里的旅游助手用例展示了其设计和实现。用例用于验证所提出的RAG架构正确地将基础模型集成在一起。

发布时间: 5/6/2025

查看原文

LLM引导的概率程序归纳以估计POMDP模型

作者: Aidan Curtis, Hao Tang, Thiago Veloso, Kevin Ellis, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling

arXiv:2505.02216v1 宣告类型: 新摘要: 部分可观测量马尔可夫决策过程（POMDPs）用于在不确定性条件下建模决策制定过程。虽然有许多方法可以近似求解POMDPs，但我们旨在解决学习此类模型的问题。特别是，我们对POMDPs的一个子类感兴趣，在该子类中，模型的各个组件，包括观测函数、奖励函数、转移函数和初始状态分布函数，可以被建模为短形式的概率程序中的低复杂度概率图形模型。我们学习这些程序的策略使用大规模语言模型（LLM）作为先验，生成候选概率程序，然后测试这些程序与经验分布的一致性，并通过反馈进行调整。我们对一些经典的玩具POMDP问题、模拟的MiniGrid领域以及两个涉及部分可观测性的实际移动基座机器人搜索领域进行了实验。结果显示，使用LLM指导低复杂度POMDP模型的构建比传统的表格POMDP学习、行为克隆或直接LLM规划更为有效。

发布时间: 5/6/2025

查看原文

可解释的 Emergent 语言使用交互智能体变换器

作者: Mannan Bhardwaj

arXiv:2505.02215v1 宣传类型: 新摘要: 本文探讨了使用变压器在多智能体强化学习（MARL）中语言的涌现。现有的方法如RIAL、DIAL和CommNet能够促进智能体间的通信，但缺乏可解释性。我们提出了可微智能体间变压器（DIAT），利用自我注意机制学习符号化的、易于人类理解的通信协议。通过实验，DIAT展示了将观察编码为可解释词汇和有意义嵌入的能力，有效地解决了协同任务。这些结果突显了DIAT在复杂多智能体环境中的可解释通信潜力。

发布时间: 5/6/2025

查看原文

利用大型语言模型自动化并行科学代码的能效优化重构

作者: Matthew T. Dearing, Yiheng Tao, Xingfu Wu, Zhiling Lan, Valerie Taylor

arXiv:2505.02184v1 宣告类型: 新摘要: 尽管大型语言模型（LLMs）越来越多地用于生成并行科学代码，但目前大多数努力主要关注功能正确性，常常忽略了性能和能耗考虑。在本文中，我们提出了一种名为LASSI-EE的自动化LLM基重构框架，该框架可以根据给定的并行代码，在目标并行系统上生成高效的并行代码。通过多阶段、迭代的流水线过程，LASSI-EE在NVIDIA A100 GPU上测试的20个HeCBench基准中，实现了100%的测试代码中有85%的平均能耗降低47%。我们的研究结果表明，除了生成正确的代码外，LLMs还具有更广泛的潜力，能够促进能耗意识编程。我们还探讨了框架内的关键见解和局限性，为未来的改进提供了有价值的指导。

发布时间: 5/6/2025

查看原文

注意力机制视角：探索LLM对图结构数据的处理

作者: Zhong Guan, Likang Wu, Hongke Zhao, Ming He, Jianpin Fan

arXiv:2505.02130v1 宣布类型: 新摘要: 注意机制对于大型语言模型（LLMs）的成功至关重要，推动了多个领域的显著进步。但是，对于需要强调拓扑连接的图结构数据而言，它们在固定链路上使用的消息传递机制（如图神经网络GNNs）相比之下效果更好。这引发了一个问题：“在自然语言场景中，注意机制是否失效？” 为了探索这一观察结果，我们从注意机制的角度出发开展了一项实证研究，以探讨LLM如何处理图结构数据。我们的目标是深入了解LLM在图结构上的注意力行为。我们发现了关于LLM如何应用注意力机制处理图结构数据的独特现象，并分析了这些发现以改进LLM对这类数据的建模。我们的研究主要发现如下：1) 虽然LLM可以识别图数据并捕捉文本节点间交互，但在图结构内部建模节点间关系时由于固有的架构限制而感到困难。2) LLM在图节点上的注意力分布不符合理想的结构模式，表明其未能适应图拓扑细节。3) 完全连接的注意力和固定连接都不是最优的；每种方法在其应用场景中都有特定的局限性。相反，中间状态的注意力窗口可以提高LLM的训练性能，并在推理过程中无缝过渡到完全连接的窗口。源代码: \href{https://github.com/millioniron/LLM_exploration}{LLM4Exploration}

发布时间: 5/6/2025

查看原文

物理奥林匹克考试的AI评分概述

作者: Lachlan McGinness

arXiv:2505.02121v1 通知类型: 新摘要: 自动评估高中物理问题中多种多样的题型是一项挑战，这需要来自不同领域的自动化评分技术。我们报告了一项系统文献综述的结果，探讨了潜在的物理评分技术。我们提出了一种多模态AI评分框架来应对这些挑战，并根据澳大利亚的AI伦理原则审视我们的框架。

发布时间: 5/6/2025

查看原文

对抗协作解释：即使在干净的数据集中也可能存在的虚假相关风险

作者: Wei Liu, Zhongyu Niu, Lang Gao, Zhiying Deng, Jun Wang, Haozhao Wang, Ruixuan Li

arXiv:2505.02118v1 公告类型: 新闻摘要: 本研究探讨了一种基于协作博弈的自我理性化框架，其中生成器最初从原始输入中提取最具信息量的片段，随后的预测器利用选定的子集作为输入。生成器和预测器合作训练以最大化预测准确性。在本文中，我们首先揭示了一个潜在的问题：这种协作博弈可能会无意中在理性化提取过程中引入取样偏差。具体来说，生成器可能无意中在选定的候选理性化与标签之间创建了一个错误的相关性，即使它们在原始数据集中是语义无关的。随后，我们通过详细的理论分析和实验证据阐明了这种偏差的根源。我们的发现提出了通过攻击来检查这些相关性的方向，并在此基础上引入了一项指令以防止预测器学习这些相关性。通过在六个文本分类数据集和两个图分类数据集上使用三种网络架构（GRUs、BERT 和 GCN）进行的实验，我们展示了我们的方法不仅显著优于近期的理性化方法，而且在某些情况下甚至达到了一个代表性的大语言模型（llama3.1-8b-instruct）相当甚至更好的结果。

发布时间: 5/6/2025

查看原文

Eterna已被解决

作者: Tristan Cazenave

arXiv:2505.02110v1 宣告类型: 新增摘要: RNA 设计涉及发现一种核苷酸序列，使其能够折叠成目标二级结构。它在合成生物学、医学和纳米技术中很有用。我们提出了一种名为 Montparnasse 的多目标广义嵌套展开策略适应算法（Multi Objective Generalized Nested Rollout Policy Adaptation with Limited Repetition, MOGNRPALR），它可以解决 Eterna 基准测试。

发布时间: 5/6/2025

查看原文

MemEngine：一种用于开发基于LLM代理的统一可模块化内存库

作者: Zeyu Zhang, Quanyu Dai, Xu Chen, Rui Li, Zhongyang Li, Zhenhua Dong

arXiv:2505.02099v1 通知类型: 新摘要: 近期，基于大型语言模型（LLM）的代理已经在各个领域得到了广泛应用。作为关键部分，它们的记忆能力吸引了工业和学术界的广泛关注。尽管近期的研究提出了许多先进记忆模型，但仍然缺少一个通用框架下的统一实现。为了解决这一问题，我们开发了一个名为MemEngine的统一且模块化的库，用于开发基于LLM的代理的先进记忆模型。基于我们的框架，我们实现了来自近期研究工作的大量记忆模型。此外，我们的库促进了方便且可扩展的记忆开发，并提供了用户友好的可插拔记忆使用方式。为了造福我们的社区，我们已将该项目公开发布在https://github.com/nuster1128/MemEngine。

发布时间: 5/6/2025

查看原文

基于检索增强的上下文学习在疾病分类中的多模态大型语言模型

作者: Zaifu Zhan, Shuang Zhou, Xiaoshan Zhou, Yongkang Xiao, Jun Wang, Jiawen Deng, He Zhu, Yu Hou, Rui Zhang

arXiv:2505.02087v1 信息检索类型：新摘要：目标：我们旨在动态检索具有信息性的演示，以增强多模态大规模语言模型（MLLMs）在疾病分类中的在上下文中学习。方法：我们提出了一种检索增强的在上下文中学习（RAICL）框架，该框架结合了检索增强生成（RAG）和在上下文中学习（ICL），以自适应地选择具有相似疾病模式的演示，从而使MLLMs的ICL更为有效。具体而言，RAICL 检查来自多种编码器的嵌入，包括ResNet、BERT、BioBERT和ClinicalBERT，以检索合适的演示，并构建优化的对话提示，以促进ICL。我们使用两个实际的多模态数据集（TCGA和IU胸部X光片）评估了该框架，并评估了其在多个MLLMs（Qwen、Llava、Gemma）、嵌入策略、相似性度量和不同数量的演示方面的表现。结果：RAICL 一致地提高了分类性能。在TCGA上，准确性从0.7854提高到0.8368；在IU胸部X光片上，准确性从0.7924提高到0.8658。多模态输入优于单模态输入，纯文本输入优于单独使用图像。每种模态中嵌入的信息丰富程度将决定哪种嵌入模型能获得更好的结果。少样本实验显示，增加检索示例的数量进一步提高了性能。在不同的相似性度量中，欧几里得距离取得了最高的准确性，而余弦相似度则获得了更好的宏F1分数。RAICL在各种MLLMs上表现出一致的改进，证实了其鲁棒性和多功能性。结论：RAICL 提供了一种高效且可扩展的方法，以增强MLLMs在多模态疾病分类中的在上下文中学习。

发布时间: 5/6/2025

查看原文