arXiv 论文列表

作者: Hyojin Bae, Bongsu Kang, Chang-Eop Kim

本研究通过降维视角重新解读辨证论治，探讨了传统东亚医学（TEAM）的临床决策过程。以八纲辨证（EPPI）体系为研究对象，利用《伤寒论》中的实证数据，探讨了在诊断和治疗选择中优先考虑表里辨证的必要性和意义。我们验证了三个假设：表里辨证是否包含了关于患者症状的最多的信息，是否代表了最抽象和最具泛化性的症状信息，以及是否有助于选择合适的草药处方。通过抽象指数、交叉条件泛化性能和决策树回归等量化指标，我们的结果表明，表里辨证代表了最抽象和最具泛化性的症状信息，有助于实现症状和草药处方空间之间的有效映射。本研究为理解TEAM背后的认知过程提供了客观框架，将传统医学实践与现代计算方法联系起来。研究结果为开发TEAM和常规医学中的AI驱动诊断工具提供了见解，有可能推动临床实践、教育和研究的发展。

发布时间: 10/1/2024

查看原文

多模态对比学习中的高效后门防御：一种针对威胁的令牌级遗忘方法

作者: Kuanrong Liu, Siyuan Liang, Jiawei Liang, Pengwen Dai, Xiaochun Cao

多模态对比学习利用各种数据模态来创建高质量的特征，但其对互联网上大量数据源的依赖使其容易受到后门攻击。这些攻击在训练过程中插入恶意行为，这些行为在推理过程中被特定触发器激活，构成重大的安全风险。尽管通过微调来减少此类攻击的恶意影响的现有对策，但这些防御措施通常需要大量的训练时间并降低干净的准确性。在本研究中，我们提出了一种使用机器遗忘概念来防御后门威胁的有效防御机制。这包括战略性地创建一小部分中毒样本，以帮助模型快速遗忘后门漏洞，称为遗忘后门威胁 (UBT)。我们专门使用过拟合训练来改进后门捷径并准确地检测潜在中毒数据集中可疑样本。然后，我们从可疑样本中选择较少的遗忘样本以进行快速遗忘，以消除后门效应，从而提高后门防御效率。在后门遗忘过程中，我们提出了一种新颖的基于令牌的部分遗忘训练机制。这种技术侧重于模型受损的元素，分离后门相关性，同时保持模型的整体完整性。大量的实验结果表明，我们的方法有效地防御了 CLIP 模型中的各种后门攻击方法。与 SoTA 后门防御方法相比，UBT 实现了最低的攻击成功率，同时保持了模型的高干净准确率（攻击成功率降低了 19%，而干净准确率提高了 2.57%）。

发布时间: 10/1/2024

查看原文

KODA：一种基于数据驱动的递归模型，用于使用库普曼算子进行时间序列预测和数据同化

作者: Ashutosh Singh, Ashish Singh, Tales Imbiriba, Deniz Erdogmus, Ricardo Borsoi

基于 Koopman 算子的方法在预测复杂非线性动力系统 (NLDS) 生成的时序数据方面展现出巨大潜力。尽管此类方法能够捕获 NLDS 的潜在状态表示，但在应用于现实世界数据时，它们在长期预测方面仍然面临困难。具体来说，许多现实世界的 NLDS 表现出随时间变化的行为，导致非平稳性，而此类模型难以捕捉。此外，它们缺乏系统性的数据驱动方法来执行数据同化，即在预测任务中实时利用噪声测量值。为了缓解上述问题，我们提出了一种基于 Koopman 算子的方法（称为 KODA - 带数据同化的 Koopman 算子），该方法将 NLDS 中的预测和数据同化整合在一起。特别是，我们使用傅里叶域滤波器将数据分解为物理分量，其动力学可以通过 Koopman 算子准确表示，以及残差动力学，该动力学代表由灵活且可学习的递归模型捕获的局部或随时间变化的行为。我们精心设计了架构和训练标准，确保这种分解能够实现稳定且长期的预测。此外，我们引入了一种航向修正策略，以便在推理时使用新的测量值执行数据同化。所提出的方法完全由数据驱动，可以端到端地学习。通过广泛的实验比较，我们表明 KODA 在多个时序基准测试（如电力、温度、天气、Lorenz 63 和 Duffing 振荡器）上优于现有的最先进方法，证明了其在以下三个任务中的优越性能和有效性：a) 预测，b) 数据同化和 c) 状态预测。

发布时间: 10/1/2024

查看原文

一人一节点：面向图神经网络的节点级联邦学习

作者: Zhidong Gao, Yuanxiong Guo, Yanmin Gong

图神经网络 (GNN) 的训练通常需要在中央服务器上收集原始用户数据，这引发了重大的隐私问题。联邦学习作为一种解决方案出现，它能够在用户不直接共享其原始数据的情况下进行协作模型训练。然而，将联邦学习与 GNN 集成带来了独特的挑战，尤其是在客户端代表一个图节点并只持有单个特征向量的情况下。在本文中，我们提出了一种用于节点级联邦图学习的新框架。具体来说，我们解耦了第一层 GNN 的消息传递和特征向量转换过程，使它们能够分别在用户设备和云服务器上执行。此外，我们引入了基于特征向量潜在表示的图拉普拉斯项来规范用户端模型的更新。在多个数据集上的实验结果表明，我们的方法与基线相比取得了更好的性能。

发布时间: 10/1/2024

查看原文

异构感知资源分配和分层联邦边缘学习拓扑设计

作者: Zhidong Gao, Yu Zhang, Yanmin Gong, Yuanxiong Guo

联邦学习 (FL) 为在移动边缘设备上训练机器学习模型提供了一个保护隐私的框架。传统的 FL 算法，例如 FedAvg，给这些设备带来了沉重的通信工作量。为了缓解这个问题，人们提出了分层联邦边缘学习 (HFEL)，利用边缘服务器作为模型聚合的中介。尽管 HFEL 非常有效，但它遇到了诸如收敛速度慢和资源消耗高的问题，尤其是在存在系统和数据异构的情况下。然而，现有工作主要集中在提高传统 FL 的训练效率，而对 HFEL 的效率却鲜有研究。在本文中，我们考虑一个两层 HFEL 系统，其中边缘设备连接到边缘服务器，而边缘服务器通过点对点 (P2P) 边缘回程互连。我们的目标是通过战略性资源分配和拓扑设计来提高 HFEL 系统的训练效率。具体来说，我们制定了一个优化问题，通过分配计算和通信资源以及调整 P2P 连接来最小化总训练延迟。为了确保在动态拓扑下收敛，我们分析了收敛误差界限，并将模型一致性约束引入优化问题。然后将提出的问题分解成几个子问题，使我们能够在线地交替求解它。我们的方法促进了在数据和系统异构下边缘网络中大规模 FL 的有效实施。在基准数据集上的综合实验评估验证了所提方法的有效性，表明与各种基线相比，训练延迟显着降低，同时保持模型精度。

发布时间: 10/1/2024

查看原文

音频驱动说话头生成中的帧级情感强度学习

作者: Jingyi Xu, Hieu Le, Zhixin Shu, Yang Wang, Yi-Hsuan Tsai, Dimitris Samaras

人类的情感表达天生具有动态性、复杂性和流动性，其特点是在言语交流过程中强度平滑过渡。然而，以往的音频驱动说话头像生成方法在很大程度上忽略了这种强度波动的建模，这往往会导致静态的情感输出。在本文中，我们探讨了情感强度如何在语音中波动，提出了一种捕获和生成这些细微变化以用于说话头像生成的方法。具体来说，我们开发了一个说话头像框架，该框架能够生成各种情感，并对强度水平进行精确控制。这是通过学习一个连续的情感潜在空间来实现的，其中情感类型被编码在潜在方向内，情感强度反映在潜在规范中。此外，为了捕获动态的强度波动，我们通过考虑反映强度的说话语气，采用了一种音频到强度预测器。该预测器的训练信号是通过我们无情感的强度伪标签方法获得的，无需帧级强度标签。大量的实验和分析验证了我们提出的方法在准确捕获和再现说话头像生成中情感强度波动的有效性，从而显着增强了生成输出的表达力和真实感。

发布时间: 10/1/2024

查看原文

MedHalu：大型语言模型在医疗查询响应中的幻觉现象

作者: Vibhor Agarwal, Yiqiao Jin, Mohit Chandra, Munmun De Choudhury, Srijan Kumar, Nishanth Sastry

大型语言模型（LLMs）在语言理解和生成方面展现出非凡的能力，但这并不意味着它们不会产生幻觉。LLMs 仍然可能生成听起来合理但事实上不正确或虚构的信息。随着 LLM 驱动的聊天机器人的普及，普通人可能会经常询问与健康相关的问题，并可能成为这些 LLM 幻觉的受害者，从而导致各种社会和医疗保健影响。在本研究中，我们对 LLM 生成的对患者真实世界医疗保健查询的响应中的幻觉进行了开创性的研究。我们提出了 MedHalu，这是一个精心制作的、首创的医疗幻觉数据集，涵盖各种与健康相关的主题，以及 LLM 生成的相应幻觉响应，并对幻觉类型和幻觉文本范围进行了标记。我们还介绍了 MedHaluDetect 框架，用于评估各种 LLM 在检测幻觉方面的能力。我们还招募了三组评估者——医疗专家、LLM 和普通人——来研究谁更容易受到这些医疗幻觉的影响。我们发现，LLMs 比专家差得多。它们在检测幻觉方面也没有比普通人好，甚至在少数情况下表现更差。为了填补这一差距，我们提出了一种专家参与回路方法，通过注入专家推理来提高 LLM 的幻觉检测能力。我们观察到所有 LLM 的性能都有显著提高，GPT-4 的平均宏观 F1 提升了 6.3 个百分点。

发布时间: 10/1/2024

查看原文

深度具身智能体中的空间推理与规划

作者: Shu Ishida

人类可以通过计划、推理和预测行动结果来执行具有长期目标的复杂任务。为了使具身智能体获得类似的能力，它们必须获得可转移到新场景的环境知识，同时限制额外的试错成本。基于学习的方法，如深度强化学习，可以从数据中发现并利用应用领域的固有规律和特征，并不断提高其性能，但代价是需要大量训练数据。本论文探讨了用于空间推理和规划任务的数据驱动技术的发展，重点是提高学习效率、可解释性和跨新场景的可转移性。本论文做出了四个主要贡献：1）CALVIN，一种微分规划器，它学习世界可解释模型以进行长期规划。它通过从专家演示中学习奖励和状态转换，成功地在部分可观察的 3D 环境（如迷宫和室内房间）中导航。2）SOAP，一种强化学习算法，它为长时程任务无监督地发现选项。选项将任务分割成子任务，并能够一致地执行子任务。SOAP 在历史条件走廊任务以及 Atari 等经典基准测试中表现出稳健的性能。3）LangProp，一个使用大型语言模型进行代码优化的框架，用于解决需要推理的具身智能体问题，将代码视为可学习的策略。该框架在 CARLA 自动驾驶基准测试中成功生成了可解释的代码，其性能与人类编写的专家代码相当或优于后者。4）Voggite，一个具身智能体，其视觉到动作转换器后端可以在 Minecraft 中解决复杂的任务。它通过识别动作触发器将任务分割成多个阶段，在 MineRL BASALT 竞赛中取得了第三名。

发布时间: 10/1/2024

查看原文

公平PIVARA：减少和评估基于CLIP的多模态模型中的偏差

作者: Diego A. B. Moreira, Alef Iury Ferreira, Gabriel Oliveira dos Santos, Luiz Pereira, Jo\~ao Medrado Gondim, Gustavo Bonil, Helena Maia, N\'adia da Silva, Simone Tiemi Hashiguti, Jefersson A. dos Santos, Helio Pedrini, Sandra Avila

尽管视觉语言模型取得了重大进展并得到广泛应用，但很少有研究关注其伦理影响。这些模型通常需要大量训练数据，这些数据往往来自仓促审查的文本和图像数据集，导致数据集高度不平衡，并引发伦理问题。此外，最初用英语训练的模型经常被微调用于其他语言，例如 CLIP 模型，该模型可以通过更多数据进行扩展以增强功能，但可能会引入新的偏差。CAPIVARA 是一个基于 CLIP 的模型，已适应葡萄牙语，在零样本任务中表现出色。在本文中，我们评估了视觉语言模型中的四种不同类型的歧视性做法，并引入了 FairPIVARA，这是一种通过去除特征嵌入中最受影响的维度来减少歧视性做法的方法。FairPIVARA 的应用导致观察到的偏差显著减少，最高可达 98%，同时促进了模型中更平衡的词语分布。我们的模型和代码可在以下地址获得：https://github.com/hiaac-nlp/FairPIVARA。

发布时间: 10/1/2024

查看原文

SELP：利用大型语言模型生成机器人代理的安全高效任务计划

作者: Yi Wu, Zikang Xiong, Yiran Hu, Shreyash S. Iyengar, Nan Jiang, Aniket Bera, Lin Tan, Suresh Jagannathan

尽管大型语言模型（LLM）取得了重大进展，增强了机器人代理对自然语言（NL）命令的理解和执行能力，但确保代理遵守用户指定的约束仍然具有挑战性，特别是对于复杂命令和长时程任务。为了解决这一挑战，我们提出了三个关键见解：等价投票、约束解码和领域特定微调，这些见解显著增强了 LLM 规划器处理复杂任务的能力。等价投票通过从 NL 命令生成和采样多个线性时序逻辑（LTL）公式，对等价 LTL 公式进行分组，并选择多数组公式作为最终 LTL 公式来确保一致性。然后，约束解码使用生成的 LTL 公式强制执行计划的自回归推理，确保生成的计划符合 LTL。领域特定微调定制 LLM 以在特定任务领域内生成安全高效的计划。我们的方法，安全高效 LLM 规划器（SELP），将这些见解相结合，创建 LLM 规划器以生成符合用户命令且置信度高的计划。我们证明了 SELP 在不同机器人代理和任务（包括无人机导航和机器人操作）中的有效性和通用性。对于无人机导航任务，SELP 在安全率（即完成符合 NL 命令的任务）方面比最先进的规划器高出 10.8%，在计划效率方面高出 19.8%。对于机器人操作任务，SELP 在安全率方面提高了 20.4%。我们用于评估 NL 到 LTL 和机器人任务规划的数据集将在 github.com/lt-asset/selp 中发布。

发布时间: 10/1/2024

查看原文