arXiv 论文列表

作者: Songtao Sun, Jingyi Li, Yuanfei Dong, Haoguang Liu, Chenxin Xu, Fuyang Li, Qiang Liu

arXiv:2503.19584v2 通知类型: 重新提交摘要：本文介绍了一种多代理应用系统，旨在提高办公室协作效率和工作质量。该系统集成了人工智能、机器学习和自然语言处理技术，实现了任务分配、进度监控和信息共享等功能。系统内的代理能够根据团队成员的需要提供个性化的协作支持，并整合数据分析工具以提高决策质量。论文还提出了一种智能代理架构，将计划和求解器分离，并通过多轮查询重写和业务工具检索等技术，增强了代理的多意图和多轮对话能力。此外，论文详细描述了在办公室协作场景下工具设计和多轮对话的设计，并通过实验和评估验证了系统的有效性。最终，该系统在实际商业应用中展示了卓越的性能，特别是在查询理解、任务规划和工具调用方面。展望未来，该系统有望在动态环境和大规模多代理系统中更有效地解决复杂交互问题。

发布时间: 3/27/2025

查看原文

超越大纲规划：面向语言模型的异构递归规划以实现适应性长文写作

作者: Ruibin Xiong, Yimeng Chen, Dmitrii Khizbullin, Mingchen Zhuge, J\"urgen Schmidhuber

arXiv:2503.08275v2 通告类型: 替换摘要：长格式写作代理需要在信息检索、推理和组成之间灵活地进行整合和互动。当前的方法依赖于预先确定的工作流和固定的思维模式，在写作之前生成大纲，导致在写作过程中限制了适应性。在本文中，我们提出了一种通用代理框架，通过递归任务分解和动态整合三大基本任务类型（即检索、推理和组成）来实现类人的适应性写作。我们的方法特点包括：1）一种规划机制，该机制将递归任务分解和执行交错进行，消除了对写作工作流的人为限制；2）任务类型之间的整合促进了异构任务分解。我们在虚构写作和技术报告生成方面的评估表明，我们的方法在所有自动评价指标上一致地优于现有最佳方法，这证明了我们提出的框架的有效性和广泛适用性。

发布时间: 3/27/2025

查看原文

人类运动指令调优

作者: Lei Li, Sen Jia, Jianhao Wang, Zhongyu Jiang, Feng Zhou, Ju Dai, Tianfang Zhang, Zongkai Wu, Jenq-Neng Hwang

arXiv:2411.16805v4 公告类型: 替换摘要：本文介绍了LLaMo（大型语言和人体动作助手），这是一种多模态框架，用于人体动作指令调优。与传统的将非语言输入（如视频或动作序列）转换为语言标记的指令调优方法不同，LLaMo 保留了动作的原始形式用于指令调优。这种方法保留了在标记化过程中经常被削弱的动作特定细节，从而提高了模型解释复杂人类行为的能力。通过同时处理视频和动作数据以及文本输入，LLaMo 使灵活的人本分析成为可能。在包括人类行为和专业活动在内的高复杂性领域进行的实验评估表明，LLaMo 有效地捕捉了领域特定知识，增强了在动作密集型场景中的理解和预测能力。我们希望LLaMo 为未来的多模态AI系统提供基础，这些系统具有广泛的应用前景，从体育分析到行为预测。我们的代码和模型可以在项目网站上获得：https://github.com/ILGLJ/LLaMo。

发布时间: 3/27/2025

查看原文

Medical-GAT：利用基于图的残差网络在数据有限场景下的癌症文档分类

作者: Elias Hossain, Tasfia Nuzhat, Shamsul Masum, Shahram Rahimi, Noorbakhsh Amiri Golilarz

arXiv:2410.15198v3 公告类型: 替换摘要：准确分类与癌症相关的医学摘要对于医疗管理和研究至关重要。然而，由于隐私问题和临床数据的复杂性，获得大型标注数据集在医学领域极具挑战性。标注数据的稀缺性阻碍了开发有效的机器学习模型来对癌症文档进行分类。为了解决这一挑战，我们呈现了一个包含1,874篇生物医学摘要的策展数据集，这些摘要被分类为甲状腺癌、结肠癌、肺癌和普通话题。我们的研究重点在于利用此数据集来提高分类性能，尤其是在数据稀缺的情况下。我们引入了一种具有多个图注意力层的残差图注意网络（R-GAT），该网络可以捕捉与癌症相关的文档中的语义信息和结构关系。我们将R-GAT模型与各种技术进行比较，包括基于变换器的模型如双向编码器表示（BERT）、RoBERTa，以及领域特定模型如BioBERT和Bio+ClinicalBERT。我们还评估了深度学习模型（CNNs、LSTMs）和传统机器学习模型（逻辑回归、SVM）。此外，我们探讨了结合深度学习模型的集成方法，以提高分类性能。我们评估了各种特征提取方法，包括Term Frequency-Inverse Document Frequency（TF-IDF）以及uni-gram和bi-gram，Word2Vec，以及BERT和RoBERTa的分词器。R-GAT模型优于其他技术，在甲状腺癌上实现了精度、召回率和F1分数为0.99、0.97和0.98；结肠癌上实现了0.96、0.94和0.95；肺癌上实现了0.96、0.99和0.97；普通话题上实现了0.95、0.96和0.95。

发布时间: 3/27/2025

查看原文

基于多智能体强化学习的全分布式雾计算负载均衡

作者: Maad Ebrahim, Abdelhakim Hafid

arXiv:2405.12236v2 宣告类型: 更新摘要：实时物联网(IoT)应用需要实时支持，以处理不断增长的计算资源需求，以处理IoT工作负载。雾计算能够以分布式方式提供此类资源的高可用性。然而，这些资源必须有效地管理，以在异构雾资源之间分配不可预测的流量需求。本文提出了一种基于多智能体强化学习(MARL)的完全分布式负载均衡解决方案，该解决方案能智能地分配IoT工作负载，以优化等待时间，同时在雾网络中提供公平的资源利用。这些智能体利用迁移学习实现终身自我适应，以动态变化的环境。通过利用分布式决策制定，MARL智能体有效地将等待时间最小化，与单一集中式智能体解决方案和其他基线相比，增强了端到端执行延迟。此外，完全分布式解决方案允许全球规模的实施，其中智能体可以在小协作区域独立工作，利用附近的本地资源。此外，我们分析了实际频率的影响，以观察环境的状态，而文献中常见的假设是从每次需要的动作开始实时观察状态是可获得的。研究结果突出了基于时间段的Gossip多播协议与假设每次生成的工作负载都可实时观察状态之间的现实性和性能之间的权衡。

发布时间: 3/27/2025

查看原文

苏格拉底计划师：基于自提问的零样本规划用于感知指令跟随

作者: Suyeon Shin, Sujin jeon, Junghyun Kim, Gi-Cheon Kang, Byoung-Tak Zhang

arXiv:2404.15190v2 任务类型: 更换摘要: 实体化指令跟随(EIF)是指通过导航和与环境中对象进行互动来执行自然语言指令的任务。在EIF中，关键挑战是组合任务规划，通常通过监督学习或带有标注数据的少样本上下文学习来解决。为了解决这一问题，我们引入了苏菲凯普兰(Socratic Planner)，这是一种基于自我问答的零样本规划方法，可以在没有任何进一步训练的情况下推断出合适的计划。苏菲凯普兰首先通过大型语言模型(LLM)促进自我提问和回答，这反过来有助于生成一系列子目标。在执行子目标时，实体化代理可能会遇到意外情况，例如不可预见的障碍。然后，苏菲凯普兰通过基于视觉的重新规划机制根据密集的视觉反馈调整计划。实验表明，苏菲凯普兰的有效性，在ALFRED基准测试上，所有指标上均优于当前最先进的规划模型，特别是在需要复杂推断的长时距任务中表现出色。我们进一步通过在物理机器人上部署来进行长时距任务，展示了其在现实世界中的应用潜力。

发布时间: 3/27/2025

查看原文

TwoStep：使用经典规划器和大规模语言模型的多智能体任务规划

作者: David Bai, Ishika Singh, David Traum, Jesse Thomason

arXiv:2403.17246v2 宣告类型: 修改摘要: 经典的规划形式化方法，如规划域定义语言（PDDL），在给定一个初始状态的情况下，可以确保实现一个目标状态，前提是任何可能的行动序列都可以实现。然而，在PDDL中定义的推理问题并未捕捉到行动时间方面的细节，例如，在没有冲突条件的情况下，两个代理之间的并发行动，除非进行显著的修改和对现有PDDL域的定义。一个了解这些约束条件的人类专家可以将目标分解为次目标，每个次目标都可以通过单个代理的规划来实现，从而利用同时行动。与经典规划不同，直接用于推断规划步骤的大型语言模型（LLMs）通常不能保证执行成功，但能够利用常识推理来组装行动序列。我们通过近似多代理规划目标分解的人类直觉，结合了经典规划和LLMs的优点。我们证明，基于LLMs的目标分解可以比直接解决多代理PDDL问题更快地进行规划，同时比单代理计划的步骤更少，也比大多数多代理计划更少，同时保证执行成功。此外，我们发现基于LLMs的次目标近似能够产生与人类专家指定的执行长度相似的多代理执行长度。网站和资源详见 https://glamor-usc.github.io/twostep

发布时间: 3/27/2025

查看原文

基于分解图神经网络的卡车停车使用预测

作者: Rei Tamaru, Yang Cheng, Steven Parker, Ernie Perry, Bin Ran, Soyoung Ahn

arXiv:2401.12920v3 公告类型：替换摘要：货运走廊上的卡车停车面临着停车空间不足的重大挑战。这加剧了关于服务时间（HOS）规章的影响，经常会引发未经授权的停车行为，带来安全问题。已有研究表明，提供准确的停车使用预测可以作为一种成本效益高的解决方案，用于减少不安全的停车行为。鉴于此，现有研究开发了各种方法来预测单个卡车停车场的使用情况，并已经展示了满意的准确度。然而，这些研究主要集中于单个停车场，而很少有方法考虑到空间和时间依赖性来预测多个卡车停车场的使用情况，这主要是由于数据的缺乏。本文旨在弥补这一缺口，并提出区域时空图卷积网络（RegT-GCN）来预测整个州的停车使用情况，从而提供更全面的卡车停车信息。该框架利用卡车停车场位置的拓扑结构和历史停车数据，考虑整个州的时空依赖性来预测占用率。为了实现这一目标，我们引入了区域分解方法，该方法有效地捕捉了卡车停车场位置的地理特性和它们的空间相关性。评估结果表明，所提出模型的性能优于其他基准模型，证明了我们区域分解的有效性。相关代码可在 https://github.com/raynbowy23/RegT-GCN 获取。

发布时间: 3/27/2025

查看原文

FREIDA：一种基于定性专家知识开发定量基于代理模型的框架：有组织犯罪的案例研究

作者: Frederike Oetker, Vittorio Nespeca, Rick Quax

arXiv:2308.00505v2 宣告类型: 替换摘要：开发有组织犯罪网络的ABM（代理基础模型）支持执法策略，但常常受限于稀缺的定量数据。这种挑战也扩展到其他心理社会背景，如心理健康和社会系统。尽管从报告和访谈中获取的定性数据更容易获取，但当前的ABM方法学在有效地整合这两种数据类型方面存在困难。为了解决这个问题，我们提出了FREIDA，这是一种混合方法框架，将定性和定量数据结合起来，在数据稀少的背景下开发、训练和验证ABM。FREIDA的四阶段过程包括数据收集、概念建模、计算实施和模型评估。通过主题内容分析（TCA），预期系统行为（ESBs）被翻译成校准声明（TS）和评估声明（VS）。迭代敏感性分析和不确定性量化改进了模型的准确性。我们应用FREIDA对荷兰可卡因网络进行案例研究，产生了犯罪可卡因替代模型（CCRM）以模拟老大的移除动态。FREIDA使在数据有限的情况下开发稳健的ABM成为可能，从而辅助执法决策和资源分配。

发布时间: 3/27/2025

查看原文

移动智能语言理解基准-Mobile-MMLU

作者: Sondos Mahmoud Bsharat, Mukul Ranjan, Aidar Myrzakhan, Jiacheng Liu, Bowei Guo, Shengkun Tang, Zhuang Liu, Yuanzhi Li, Zhiqiang Shen

arXiv:2503.20786v1 交叉验证类型：横跨摘要：大规模语言模型（LLMs）的快速进步增加了将其部署在移动设备上以进行设备端AI应用程序的兴趣。移动用户与LLMs的交互方式不同于桌面用户，这创造了独特的期望和数据偏差。当前的基准数据集主要针对服务器和桌面环境，而专门为移动环境设计的广泛数据集明显不足。此外，移动设备在存储和计算资源方面面临严格的限制，限制了模型大小和能力，从而要求优化效率并优先考虑知识。为应对这些挑战，我们介绍了Mobile-MMLU，这是一个针对移动智能定制的大规模基准数据集。它包含16,186个问题，覆盖80个移动相关领域，旨在评估LLM在实际移动场景中的表现。Mobile-MMLU-Pro是一个具有挑战性的子集，其评估难度显著高于我们的标准全集，但与MMLU-Pro的规模相当。两个基准都使用多项选择、顺序不变的问题，重点是实用性移动交互，如食谱建议、旅行规划和日常任务。该数据集强调关键的移动特定指标，如推断延迟、能耗、内存使用和响应质量，提供了对在移动限制下模型性能的全面洞察。此外，它优先考虑隐私和适应性，评估模型在设备上进行处理、维护用户隐私并适应个性化使用模式的能力。Mobile-MMLU 家族提供了一个标准化框架，用于开发和比较移动优化的LLM，使移动计算环境中生产力和决策的提升成为可能。我们的代码和数据可在以下地址获取：https://github.com/VILA-Lab/Mobile-MMLU。

发布时间: 3/27/2025

查看原文