arXiv 论文列表

作者: Shin'ya Yamaguchi, Sekitoshi Kanai, Atsutoshi Kumagai, Daiki Chijiwa, Hisashi Kashima

arXiv:2204.12833v3 转移学习类型: 替换交叉摘要：在新目标任务上训练深度神经网络时，转移学习至关重要。当前的转移学习方法总是假设至少满足以下之一的前提条件：(i) 源任务和目标任务的标签空间重叠；(ii) 源数据集可用；(iii) 目标网络架构与源网络架构一致。然而，在实际场景中保持这些假设是困难的，因为目标任务很少与源任务具有相同的标签，源数据集由于存储成本和隐私限制而无法访问，并且目标架构往往针对每个任务进行了专门化。为了在不依赖这些假设的情况下转移源知识，我们提出了一种使用深层生成模型的转移学习方法，该方法包括两个阶段：伪预训练（PP）和伪半监督学习（P-SSL）。PP 使用条件源生成模型合成的假数据集来训练目标架构。P-SSL 对带有标签的目标数据和由级联源分类器和生成模型生成的伪样本（这些伪样本是根据目标样本条件化）应用半监督学习算法。我们的实验结果表明，我们的方法可以超过从头开始训练和知识蒸馏的基线方法。

发布时间: 2/21/2025

查看原文

CityEQA：城市空间中层次化LLM代理的 embodied 问答基准

作者: Yong Zhao, Kai Xu, Zhengqiu Zhu, Yue Hu, Zhiheng Zheng, Yingfeng Chen, Yatai Ji, Chen Gao, Yong Li, Jincai Huang

arXiv:2502.12532v2 任务类型: 替换摘要：基于体感的问答（EQA）主要集中在室内环境上，而城市环境中的复杂性，涵盖环境、行为和感知等方面，尚未得到充分探索。为了解决这一缺口，我们引入了CityEQA，这是一种新的任务，其中体感代理通过在动态城市空间中的积极探索来回答开放式词汇的问题。为了支持这一任务，我们介绍了CityEQA-EC，这是第一个基准数据集，其中包含1,412个人注释的任务，涵盖了六类内容，并基于一个现实的3D城市模拟器。此外，我们提出了一种名为Planner-Manager-Actor (PMA)的新代理，适用于CityEQA。PMA 允许进行长期规划和层次任务执行：规划师将问答问题分解成子任务，管理者在过程控制期间维护一个基于对象的认知地图以进行空间推理，而专门的执行者处理导航、探索和收集子任务。实验结果显示，PMA 达到了60.7%的人类水平回答准确率，显著优于基于前沿的基本模型。虽然表现令人鼓舞，但与人类的性能差距突显了在CityEQA中增强视觉推理的需求。这项工作为未来城市空间智能的发展铺平了道路。数据集和代码可在 https://github.com/BiluYong/CityEQA.git 获取。

发布时间: 2/21/2025

查看原文

WorldGUI：综合桌面GUI自动化动态测试

作者: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou

arXiv:2502.08047v2 宣告类型: 替换摘要：当前的GUI代理已经在GUI元素定位方面取得了卓越性能。然而，计划仍然极具挑战性，特别是在对环境初始状态的敏感性方面。具体来说，初始状态的微小差异——例如目标软件没有打开或者界面没有处于默认状态——经常会引发计划错误。这个问题在实际用户场景中普遍存在，但现有的基准测试无法评估这一问题。在本文中，我们提出了WorldGUI，一种新颖的GUI基准测试，该基准测试设计了具有各种初始状态的GUI任务以模拟实际的计算机-用户互动。该基准测试涵盖了包括PowerPoint、VSCode和Adobe Acrobat在内的10个流行软件应用的广泛任务。此外，为了应对动态GUI自动化任务的挑战，我们提出了一种整体框架GUI-Thinker，该框架利用了一种批判机制，有效管理了GUI交互的不可预测性和复杂性。实验结果表明，在WorldGUI任务上，GUI-Thinker在成功率方面显著优于Claude-3.5（计算机使用）14.9%。这一改进突显了我们基于批判思维的框架在提升GUI自动化方面的有效性。代码可在 https://github.com/showlab/WorldGUI 获取。

发布时间: 2/21/2025

查看原文

TeLL-Drive：通过教师大规模语言模型引导的深度强化学习增强自动驾驶

作者: Chengkai Xu, Jiaqi Liu, Shiyu Fang, Yiming Cui, Dong Chen, Peng Hang, Jian Sun

arXiv:2502.01387v3 宣告类型：替代摘要：尽管深度强化学习（DRL）和大型语言模型（LLMs）各有潜力解决自主驾驶中的决策挑战，但DRL通常因其样本复杂性高而受到限制，而LLMs在确保实时决策方面存在困难。为了解决这些限制，我们提出了一种名为TeLL-Drive的混合框架，该框架将教师LLM与基于注意力的学生DRL策略相结合，以进行指导。通过将风险指标、历史场景检索和领域启发式方法整合到丰富的上下文中，LLM通过链式推理生成高层次的驾驶策略。随后，通过自注意力机制将这些策略与DRL代理的探索相结合，加速策略收敛并提升在各种驾驶条件下的鲁棒性。在多个交通场景下进行的实验结果表明，TeLL-Drive在成功率、平均回报以及实时可行性方面优于现有基线方法，包括其他基于LLM的方法。消除实验强调了每个模型组件的重要性，尤其是注意力机制与LLM驱动指导之间的协同作用。最后，我们构建了一个虚拟-现实融合的实验平台，通过车辆在环实验验证了该算法在实际车辆上的实时性能、鲁棒性和可靠性。

发布时间: 2/21/2025

查看原文

MedXpertQA：医疗专家级推理与理解基准测试

作者: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou

arXiv:2501.18362v2 通知类型: 替换摘要: 我们引入了MedXpertQA，这是一个具有挑战性和全面性的基准，用于评估专家级医学知识和高级推理能力。MedXpertQA 包括 4,460 个问题，涵盖了 17 个专科和 11 个身体系统。它包含两个子集：Text 用于文本评估，MM 用于多模态评估。值得注意的是，MM 引入了包含多样化的图像和丰富临床信息（包括病历和检查结果）的专家级考试问题，这使其不同于传统的简单从图像描述生成的问答对的医学多模态基准。MedXpertQA 通过严格的筛选和增强来解决现有基准（如MedQA）难度不足的问题，并纳入了专科考试题目，以提高临床相关性和完整性。我们进行了数据合成以减轻数据泄露风险，并进行了多轮专家审核以确保准确性和可靠性。我们在MedXpertQA 上评估了 16 个领先的模型。此外，医学与现实世界的决策紧密相连，为评估超越数学和代码的推理能力提供了丰富和代表性的环境。为此，我们开发了一个以推理为导向的子集，以促进 o1 类模型的评估。

发布时间: 2/21/2025

查看原文

多元视角的 harnessing：面向知识图谱中错误检测增强的多代理框架

作者: Yu Li, Yi Huang, Guilin Qi, Junlan Feng, Nan Hu, Songlin Zhai, Haohan Xue, Yongrui Chen, Ruoyan Shen, Tongtong Wu

arXiv:2501.15791v2 通知类型: 替换摘要：知识图谱在工业应用中被广泛使用，因此错误检测对于确保下游应用程序的可靠性至关重要。现有的错误检测方法往往无法有效地利用细粒度的子图信息，而是依赖于固定的图结构，同时在决策过程中缺乏透明性，这导致了检测性能欠佳。本文提出了一种名为MAKGED（Multi-Agent框架用于知识图谱错误检测）的新颖方法，该方法在协作环境中利用了多个大型语言模型（LLMs）。通过在训练期间将细粒度的双向子图嵌入与基于LLM的问题嵌入进行连接，我们的框架将这些表示整合为四个专门的代理。这些代理利用来自不同维度的子图信息进行多轮讨论，从而提高错误检测的准确性并确保透明的决策过程。在FB15K和WN18RR上的广泛实验表明，MAKGED优于现有最先进的方法，提高了知识图谱评估的准确性和鲁棒性。对于特定的工业场景，我们的框架可以通过使用特定领域的知识图谱来训练专门用于错误检测的代理，这突显了我们框架的潜在工业应用价值。我们的代码和数据集可在https://github.com/kse-ElEvEn/MAKGED获取。

发布时间: 2/21/2025

查看原文

智能电表数据缺口的填补：统计模型、机器学习模型和时间序列基础模型的基准比较

作者: Amir Sartipi, Joaqu\'in Delgado Fern\'andez, Sergio Potenciano Menci, Alessio Magitteri

arXiv:2501.07276v2 通告类型: 重传摘要：智能电网中时间序列数据的完整性经常因传感器故障、传输错误或中断而受到损害。智能电表数据中的缺失值可能导致消耗分析发生偏差，妨碍可靠的预测，导致技术性和经济性的低效率。随着智能电表数据的体积和复杂性不断增加，传统的技术方法难以应对其非线性和非平稳的模式。在这个背景下，生成型人工智能提供了可能超越传统统计方法的解决方案。在本文中，我们评估了两种通用的大语言模型和五种时间序列基础模型在智能电表数据插补中的性能，并将它们与传统的机器学习和统计模型进行了比较。我们通过在匿名公开数据集中引入人工缺口（30分钟至一天不等）来测试推理能力。结果显示，具有情境理解和模式识别能力的时间序列基础模型在某些情况下能够显著提高插补准确性。然而，计算成本与性能提升之间的权衡仍然是一个关键考虑因素。

发布时间: 2/21/2025

查看原文

MindForge：为 lifelong 协同学习赋能具身代理的理论共情能力

作者: Mircea Lic\u{a}, Ojas Shirekar, Baptiste Colle, Chirag Raman

arXiv:2411.12977v3 宣布类型: 修改摘要: 当代由大规模语言模型（LLMs）驱动的具身代理，如Voyager，在像Minecraft这样的开放环境中的个体学习中展示了有希望的能力。然而，即使经过领域特定的微调，当由开源的LLMs驱动时，它们在基本任务上仍然面临挑战。我们提出了MindForge，这是一种通过明确的视角切换实现协作终身学习的生成性代理框架。我们介绍了三项关键创新：（1）一种结构化的理论思维表示，关联感知、信念、欲望和行为；（2）自然的代理间通信；以及（3）多组件记忆系统。在Minecraft实验中，使用开源权重LLMs的MindForge代理在传统Voyager（在没有GPT-4的情况下）无法完成的基本任务中展现出显著的优势，收集了2.3倍于Voyager的独特物品，并实现了3倍于Voyager的技术里程碑，从基本的木质工具进步到先进的铁制装备。MindForge代理展示了复杂的行为，包括专家-新手知识转移、协同问题解决以及通过累积的合作经验应对脱离分布的任务。MindForge通过开放式的社会学习促进具身AI的民主化发展，从而实现同伴间的知识共享。

发布时间: 2/21/2025

查看原文

通过多智能体模拟为LLMs合成-training数据

作者: Shuo Tang, Xianghe Pang, Zexi Liu, Bohan Tang, Rui Ye, Tian Jin, Xiaowen Dong, Yanfeng Wang, Siheng Chen

arXiv:2410.14251v2 发布类型: 替换摘要：后训练对于使大型语言模型（LLMs）遵循人类指令至关重要。然而，其有效性取决于高质量的指令数据，由于隐私问题、数据稀缺性和注释成本高昂，在实际中获取这些数据颇具挑战。为解决这一问题，借鉴近期使用LLMs模拟人类社会取得的成功，我们提出了一种名为MATRIX的多智能体模拟器，它可以自动生成多种多样的基于文本的场景，以在实际和可扩展的方式中捕捉到广泛的真实世界人类需求。利用这些生成的输出，我们引入了新的场景驱动指令生成器MATRIX-Gen，以实现可控且高度真实的数据合成。广泛的经验表明，我们的框架能够有效生成通用和特定领域的数据。在AlpacaEval 2和Arena-Hard基准测试中，经过MATRIX-Gen合成数据集（仅使用20K指令-响应对）后训练的Llama-3-8B-Base模型，在AlpacaEval 2和Arena-Hard基准测试上超过了Meta的经过超过1000万对指令-响应训练的Llama-3-8B-Instruct模型。

发布时间: 2/21/2025

查看原文

Robin3D：通过稳健的指令调优改进3D大型语言模型

作者: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan

arXiv:2410.00255v2 宣告类型: 替换摘要: 最近在3D大型语言模型（3DLLMs）方面的进展凸显了它们在3D现实世界中构建通用代理的潜力，但由于缺乏高质量的鲁棒指令跟随数据，导致3DLLMs的区分能力和泛化能力受限。在本文中，我们引入了Robin3D，这是一种在我们新颖的数据引擎Robust Instruction Generation (RIG)引擎生成的大规模指令跟随数据上训练的强大的3DLLM。RIG生成了两个关键的指令数据：1) 混合了负样本和正样本的对抗指令跟随数据，旨在增强模型的区分理解能力。2) 包含多种指令风格的多样化指令跟随数据，旨在增强模型的泛化能力。因此，我们构建了100万条指令跟随数据，其中包括344K对抗样本、508K多样化样本和165K基准训练集样本。为了更好地处理这些复杂的指令，Robin3D首先结合了关系增强投射器以增强空间理解能力，然后通过ID特征绑定来加强物体指代和定位能力。Robin3D在五个广泛使用的3D多模态学习基准测试中均优于先前的方法，而无需特定任务的微调。值得注意的是，在定位任务（Multi3DRefer）上我们实现了7.8%的改进，在描述任务（Scan2Cap）上我们实现了6.9%的改进。

发布时间: 2/21/2025

查看原文