arXiv 论文列表

作者: Jing Bi, Yunlong Tang, Luchuan Song, Ali Vosoughi, Nguyen Nguyen, Chenliang Xu

以第一人称视角理解人类活动和意图的自我中心视频分析快速发展，带来了新的见解。尽管取得了进展，但动作识别、程序学习和时刻检索等任务的碎片化，以及不一致的标注和孤立的模型开发，阻碍了对视频内容的整体解读。为了应对这一挑战，我们引入了 EAGLE（自我中心聚合语言-视频引擎）模型和 EAGLE-400K 数据集，以提供一个统一的框架，整合各种自我中心视频理解任务。EAGLE-400K 是第一个针对自我中心视频的大规模指令微调数据集，它包含 400,000 个多样化的样本，以增强从活动识别到程序知识学习的广泛任务。此外，EAGLE 是一款强大的视频多模态大型语言模型 (MLLM)，旨在有效地捕捉空间和时间信息。此外，我们还提出了一套评估指标，旨在促进对自我中心视频理解的 MLLM 进行全面评估。我们广泛的实验表明，EAGLE 的性能优于现有模型，突出了它在平衡特定任务理解和整体视频解读方面的能力。凭借 EAGLE，我们旨在为现实世界场景中的研究机会和实际应用铺平道路。

发布时间: 9/27/2024

查看原文

基于预训练视觉语言模型和黑盒优化的机器人环境状态识别

作者: Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Kei Okada, Masayuki Inaba

为了使机器人能够在各种环境中自主导航和操作，它们必须能够识别环境的状态。然而，传统上，环境状态识别需要针对每个要识别的状态进行定制的独立方法。在本研究中，我们通过预训练的大规模视觉语言模型，利用口语进行统一的环境状态识别。我们应用了视觉问答和图像到文本检索，这些是视觉语言模型的任务。我们证明了，利用我们的方法，不仅可以识别房间门是开还是关，还可以识别透明门是开还是关以及水槽中是否有水流，而无需训练神经网络或进行手动编程。此外，通过基于黑盒优化从准备好的文本集中选择合适的文本，可以提高识别精度。对于每个状态识别，只需要改变文本集及其权重，无需准备多个不同的模型和程序，从而简化了源代码和计算机资源的管理。我们通过实验验证了该方法的有效性，并将其应用于移动机器人 Fetch 上的行为识别。

发布时间: 9/27/2024

查看原文

面向多目标检测的语言模型水印技术

作者: Zhengan Huang, Gongxian Zeng, Xin Mu, Yu Wang, Yue Yu

本文首次研究了大型语言模型（LLM）的**多指定检测器水印技术（MDDW）**。该技术允许模型提供者从LLM生成带有水印的输出，并具有两个关键特性： (i) 只有特定（可能多个）指定检测器可以识别水印，以及 (ii) 对普通用户而言，输出质量没有明显的下降。我们对MDDW的安全定义进行了形式化，并提出了一种使用多指定验证器签名（MDVS）为任何LLM构建MDDW的框架。鉴于LLM输出具有重要的经济价值，我们引入了可申索性作为MDDW的可选安全功能，使模型提供者能够在指定检测器设置中声明对LLM输出的所有权。为了支持可申索的MDDW，我们提出了一种通用转换方法，将任何MDVS转换为可申索的MDVS。我们对MDDW方案的实现突出了其相对于现有方法的先进功能和灵活性，并具有令人满意的性能指标。

发布时间: 9/27/2024

查看原文

基于数据集蒸馏的非独立同分布数据混合联邦学习

作者: Xiufang Shi, Wei Zhang, Mincheng Wu, Guangyi Liu, Zhenyu Wen, Shibo He, Tejal Shah, Rajiv Ranjan

在联邦学习中，客户端数据的异质性对模型训练的性能有很大影响。非独立同分布 (Non-IID) 数据会导致这一过程中出现许多异质性问题。本研究重点关注标签分布倾斜问题。为了解决这个问题，我们提出了一种名为 HFLDD 的混合联邦学习框架，该框架集成了数据集蒸馏，以生成近似独立同分布 (IID) 数据，从而提高模型训练的性能。特别是，我们将客户端划分为异质集群，其中集群内不同客户端的数据标签不平衡，而不同集群之间的数据标签平衡。集群头从相应的集群成员那里收集蒸馏数据，并与服务器协作进行模型训练。这种训练过程类似于 IID 数据上的传统联邦学习，因此有效地减轻了 Non-IID 数据对模型训练的影响。此外，我们在公共数据集上将我们提出的方法与典型的基线方法进行了比较。实验结果表明，当数据标签严重不平衡时，所提出的 HFLDD 在测试准确率和通信成本方面均优于基线方法。

发布时间: 9/27/2024

查看原文

NeuroPath：连接人脑连接组的“神经通路转换器”

作者: Ziquan Wei, Tingting Dan, Jiaqi Ding, Paul J Laurienti, Guorong Wu

尽管现代成像技术使我们能够在体内研究两个不同大脑区域之间的连接，但对解剖结构如何支持大脑功能以及自发功能波动如何产生非凡的认知的深入理解仍然难以捉摸。同时，机器学习领域在建立神经影像数据与表型特征之间的非线性映射方面做出了巨大努力。然而，目前方法中缺乏神经科学洞察力，给从瞬态神经活动中理解认知行为带来了重大挑战。为了应对这一挑战，我们通过将这种网络神经科学问题转化为高阶拓扑的表达图表示学习问题，将重点放在结构连接 (SC) 和功能连接 (FC) 的耦合机制上。具体而言，我们引入了拓扑绕行的概念，以描述 FC 的普遍实例（直接链接）如何通过 SC 物理连接的神经通路（绕行）得到支持，从而形成大脑结构和功能相互作用的循环回路。在机器学习的陈词滥调中，SC-FC 耦合背后的多跳绕行路径使我们能够在 Transformer 中设计一种新颖的多头自注意力机制，以从 SC 和 FC 的配对图中捕获多模态特征表示。综上所述，我们提出了一种受生物学启发的深度模型，称为 NeuroPath，以从前所未有的神经影像数据中找到推定的连接组特征表示，这些表示可以插入各种下游应用中，例如任务识别和疾病诊断。我们已经在包括 HCP 和 UK Biobank 在内的大规模公共数据集上对 NeuroPath 进行了评估，在监督学习和零样本学习下，NeuroPath 的最先进性能表明其在网络神经科学中具有巨大潜力。

发布时间: 9/27/2024

查看原文

Uni-Med：一种基于连接器-MoE 的多任务学习统一医疗通用基础模型

作者: Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu

多模态大型语言模型 (MLLMs) 在各种视觉和语言任务中展现出令人印象深刻的通用接口能力。然而，构建一个用于医学领域多任务学习的统一 MLLM 仍然是一个棘手的挑战。为了缓解多模态多任务优化中的“拉锯战”问题，最近的进展主要集中在改进 LLM 组件上，而忽略了连接不同模态的桥梁。本文介绍了 Uni-Med，这是一种新颖的医学通用基础模型，它包含一个通用视觉特征提取模块、一个连接器混合专家 (CMoE) 模块和一个 LLM。得益于提出的 CMoE，它利用了在连接器处具有混合投影专家的精心设计的路由器，Uni-Med 为“拉锯战”问题提供了有效的解决方案，并且可以执行六种不同的医学任务，包括问答、视觉问答、报告生成、指代表达理解、指代表达生成和图像分类。据我们所知，Uni-Med 是首次尝试在连接器处解决多任务干扰问题。广泛的消融实验验证了在任何配置下引入 CMoE 的有效性，平均性能提升高达 8%。我们还从梯度优化和参数统计的角度提供了对“拉锯战”问题的解释分析。与之前的最先进的医学 MLLM 相比，Uni-Med 在各种任务上取得了具有竞争力或更优的评估指标。代码、数据和模型将很快在 GitHub 上提供。

发布时间: 9/27/2024

查看原文

基于强化学习的自动回归多特征作文评分方法：评分感知多奖励机制

作者: Heejin Do, Sangwon Ryu, Gary Geunbae Lee

近年来，自动作文评分（AES）的进展已转向评估多个特征以提供更丰富的反馈。与典型的 AES 系统一样，多特征 AES 使用二次加权卡帕 (QWK) 来衡量与人工评分者的一致性，与评分方案紧密一致；然而，其不可微分性质使其无法直接用于神经网络训练。在本文中，我们提出了评分感知多奖励强化学习 (SaMRL)，它通过设计基于 QWK 的奖励并对多特征 AES 的均方误差进行惩罚，将实际评估方案整合到训练过程中。现有的 AES 中的强化学习 (RL) 应用仅限于分类模型，尽管与之相关的性能下降，因为 RL 需要概率分布；相反，我们采用了一种自回归评分生成框架，利用标记生成概率进行稳健的多特征评分预测。实证分析表明，SaMRL 有助于模型训练，显着增强了先前较差提示的评分。

发布时间: 9/27/2024

查看原文

针对条件不确定性校准的回归模型调整

作者: Ruijiang Gao, Mingzhang Yin, James McInerney, Nathan Kallus

一致性预测方法具有有限样本分布无关的边际覆盖保证。然而，它们通常不提供条件覆盖保证，而这对于高风险决策至关重要。本文提出了一种新的算法，用于训练回归函数，以在应用分割一致性预测程序后提高条件覆盖率。我们为条件覆盖率和名义覆盖率之间的误差率建立了一个上限，并提出了一种端到端的算法来控制这个上限。我们通过合成数据集和真实数据集的实验证明了该方法的有效性。

发布时间: 9/27/2024

查看原文

CadVLM：连接语言与视觉，生成参数化 CAD 草图

作者: Sifan Wu, Amir Khasahmadi, Mor Katz, Pradeep Kumar Jayaraman, Yewen Pu, Karl Willis, Bang Liu

参数化计算机辅助设计 (CAD) 是现代机械设计中的核心。然而，它在实现精确的参数化草图建模方面遇到了挑战，并且缺乏适用于机械设计的实用评估指标。我们利用预训练的基础模型的能力，这些模型以其在自然语言处理和计算机视觉方面的成功而闻名，来开发专门用于 CAD 的生成模型。这些模型擅长理解复杂的几何形状和设计推理，这是 CAD 技术的一项重要进步。在本文中，我们提出了 CadVLM，一种用于 CAD 生成的端到端视觉语言模型。我们的方法涉及调整预训练的基础模型以有效地操作工程草图，整合草图基本体序列和草图图像。大量的实验表明，在多个 CAD 草图生成任务（例如 CAD 自动补全、CAD 自动约束和图像条件生成）上，该模型具有优越的性能。据我们所知，这是首个将多模态大型语言模型 (LLM) 成功应用于参数化 CAD 生成的实例，代表了计算机辅助机械设计领域的一项开创性成果。

发布时间: 9/27/2024

查看原文

HDFlow：通过混合思维和动态工作流增强大型语言模型的复杂问题解决能力

作者: Wenlin Yao, Haitao Mi, Dong Yu

尽管大型语言模型（LLMs）最近取得了进展，但它们在需要多步思考和结合多种技能的复杂推理问题上的表现仍然有限。为了解决这个问题，我们提出了一种名为 HDFlow 的新框架，用于使用 LLMs 进行复杂推理，该框架以自适应的方式结合了快速和慢速思维模式。我们的方法包含两个关键组成部分：1) 一种用于缓慢、深思熟虑的推理的新方法，称为动态工作流，它可以自动将复杂问题分解成更易于管理的子任务，并动态设计一个工作流来组装专门的 LLM 或符号推理工具来解决子任务；2) 混合思维，一个根据问题复杂性动态结合快速和慢速思维的通用框架。最后，我们提出了一种易于扩展的方法，用于自动合成一个包含 27K 个具有挑战性的推理问题的复杂推理大规模数据集，以及一种混合思维调整方法，该方法在该数据集上训练更小的 LLM 以将快速/慢速混合推理策略内化。在四个推理基准数据集上的实验表明，我们使用动态工作流的慢速思维显著优于思维链，而混合思维在提供计算效率和性能之间的有效平衡的同时，实现了最高的准确率。使用我们的混合思维方法进行微调也显著提高了开源语言模型的复杂推理能力。结果展示了慢速思维、动态工作流和混合思维在扩展使用 LLMs 解决复杂问题的领域方面的潜力。\footnote{代码和数据将在 \url{https://github.com/wenlinyao/HDFlow} 上发布。}

发布时间: 9/27/2024

查看原文