arXiv 论文列表

作者: Ljubomir Rokvic, Panayiotis Danassis, Sai Praneeth Karimireddy, Boi Faltings

联邦学习中，处理低质量、损坏或恶意数据至关重要。然而，由于隐私问题，传统的数据评估方法并不适用。为了解决这个问题，我们提出了一种简单有效的方法，该方法利用一种称为“惰性影响”的新型影响近似方法来过滤和评分数据，同时保护隐私。为此，每个参与者使用自己的数据来估计其他参与者批次的影响，并将一个差分隐私模糊化的分数发送给中央协调器。我们的方法已在各种模拟和真实环境中成功地过滤掉偏差和损坏的数据，实现了超过90%（有时高达100%）的召回率，同时保持了ε≤1的强差分隐私保证。

发布时间: 11/27/2024

查看原文

面向方向的图神经网络用于蛋白质结构表示学习

作者: Jiahan Li, Shitong Luo, Congyue Deng, Chaoran Cheng, Jiaqi Guan, Leonidas Guibas, Jian Peng, Jianzhu Ma

通过折叠成特定的三维结构，蛋白质在生命体中扮演着关键角色。为了从蛋白质结构中学习有意义的表示以用于下游任务，不仅要考虑全局主链拓扑结构，还要考虑氨基酸之间局部细粒度的方向关系。在这项工作中，我们提出了面向方向的图神经网络（OAGNNs），以更好地感知蛋白质结构中的几何特征（例如，残基内扭转角、残基间方向）。我们将单个权重从标量扩展到三维向量，构建了一套丰富的几何意义操作来处理给定结构的经典表示和SO(3)表示。为了将我们设计的感知器单元插入现有的图神经网络，我们进一步引入了一种等变消息传递范式，在保持全局尺度上的SO(3)等变性方面显示出优越的通用性。实验表明，与经典网络相比，我们的OAGNNs具有显著感知几何方向特征的能力。OAGNNs还在与蛋白质三维结构相关的各种计算生物学应用中取得了最先进的性能。

发布时间: 11/27/2024

查看原文

从目标条件代理到语言条件代理：基于视觉语言模型的方法

作者: Theo Cachet, Christopher R. Dance, Olivier Sigaud

视觉语言模型 (VLMs) 在语言落地方面具有巨大潜力，因此能够使基于语言的智能体 (LCAs) 执行用文本指定的各种任务。这推动了基于强化学习 (RL) 的 LCAs 的研究，其奖励通过渲染环境图像并用 VLMs 评估这些图像来给出。如果采用单任务 RL，则此类方法受到为每个新任务训练策略所需成本和时间的限制。多任务 RL (MTRL) 是一种自然的替代方法，但需要精心设计的训练任务语料库，并且并不总是能够可靠地泛化到新任务。因此，本文介绍了一种构建 LCA 的新颖分解方法：首先找到一个环境配置，该配置对描述任务的文本具有较高的 VLM 分数；然后使用（预训练的）目标条件策略来达到该配置。我们还探索了几种提高基于 VLM 的 LCAs 速度和质量的方法，特别是使用蒸馏模型，以及从多个视角评估配置以解决单个二维视图中固有的歧义。我们在类人机器人环境中演示了我们的方法，结果表明它产生的 LCAs 在零样本泛化方面优于 MTRL 基线，而无需在训练期间使用任何文本任务描述或其他形式的环境特定注释。视频和交互式演示可在 https://europe.naverlabs.com/text2control 找到。

发布时间: 11/27/2024

查看原文

EVINCE：基于条件统计和信息论优化对抗性大型语言模型对话

作者: Edward Y. Chang

本文介绍了 EVINCE（条件交换中的熵和变异）框架，该框架利用条件统计和信息论优化多大型语言模型 (LLM) 对话。EVINCE 引入双熵优化来平衡观点多样性和先验知识，为调节 LLM 交互提供定量指标。通过信息论度量和互信息优化，该框架在从疾病诊断到新闻去偏见的各种应用中均展现出比单一 LLM 性能的持续改进。我们对这种结构化的 LLM 协作方法进行了理论基础和实证验证。

发布时间: 11/27/2024

查看原文

人工智能决策应如何解释？从欧洲法律视角看对解释的要求

作者: Benjamin Fresz, Elena Dubovitskaya, Danilo Brajovic, Marco Huber, Christian Horz

本文研究了法律与可解释人工智能 (XAI) 之间的关系。尽管关于人工智能法案（欧洲议会、理事会和委员会的三方对话近期已结束）的讨论很多，但其他法律领域似乎尚未得到充分探索。本文侧重于欧洲（部分涉及德国）法律，但也涉及国际概念和法规，例如受信责任可信度检查、通用数据保护条例 (GDPR) 以及产品安全和责任。基于 XAI 分类法，从每个法律依据中推导出对 XAI 方法的要求，得出的结论是，每个法律依据都需要不同的 XAI 属性，而现有技术水平并不能完全令人满意地满足这些要求，尤其是在 XAI 方法的正确性（有时称为保真度）和置信度估计方面。

发布时间: 11/27/2024

查看原文

利用大型语言模型攻击大型语言模型保护的文本到图像模型

作者: Yimo Deng, Huangxun Chen

为防止文本到图像 (T2I) 模型生成不道德的图像，人们部署了安全过滤器来阻止不合适的绘图提示。先前的工作采用令牌替换来搜索试图绕过这些过滤器的对抗性提示，但由于无意义的令牌未能通过语义逻辑检查，这些方法已变得无效。在本文中，我们从不同的角度来看待对抗性提示。我们证明，将绘画意图改述为多个良性描述的单个视觉组件可以获得有效的对抗性提示。我们提出了一种名为 DACA 的由大型语言模型 (LLM) 驱动的多智能体方法来自动完成预期的改述。我们的方法成功绕过了 DALL-E 3 和 Midjourney 的安全过滤器，生成了预期的图像，一次性攻击的成功率分别高达 76.7% 和 64%，重复攻击的成功率分别高达 98% 和 84%。我们已将我们的代码和数据集开源至 [此链接](https://github.com/researchcode003/DACA)。

发布时间: 11/27/2024

查看原文

迈向因果GPT：一种通过促进大型语言模型中的因果一致性来实现忠实知识推理的多智能体方法

作者: Ziyi Tang, Ruilin Wang, Weixing Chen, Keze Wang, Yang Liu, Tianshui Chen, Liang Lin

尽管基础模型取得了进展，但知识推理仍然是一个持续的挑战，因为它们在知识回忆和推理方面的能力有限。现有方法主要集中于鼓励这些模型规划和解决问题，或独立地广泛采样推理链。然而，这些方法往往忽略了概念性错误和推理谬误，不可避免地导致一系列臭名昭著的问题，例如结论误导、认知偏差和决策质量下降。虽然人们认为对因果关系的显式建模在解决这些问题方面很有前景，但当代研究工作迄今为止未能实现基于因果关系的基础模型。受各种专业代理协同解决复杂任务的启发，我们提出了一种名为因果一致性思维链（CaCo-CoT）的框架，该框架利用多代理协作来增强基础模型的忠实性和因果关系，其中包括一组推理器和评估器。这些智能体在一个推理与共识范式中协同工作以提高忠实度。推理器的任务是通过模拟人类因果推理来生成知识密集型问题的推理链。同时，评估器从非因果和反事实的角度审查推理器推理链的因果一致性。我们的框架通过对基于文本和多模态知识推理任务（例如，科学问题解答和常识推理）的广泛而全面的评估，证明了其优于现有最先进方法的显著优势。

发布时间: 11/27/2024

查看原文

StableAnimator：高质量身份保持型人体图像动画

作者: Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu

当前用于人体图像动画的扩散模型难以保证身份（ID）一致性。本文提出了StableAnimator，这是一个首个端到端身份保持视频扩散框架，它无需任何后处理即可合成高质量视频，其条件是参考图像和一系列姿态。StableAnimator建立在一个视频扩散模型的基础上，包含精心设计的训练和推理模块，力求身份一致性。具体来说，StableAnimator首先分别使用现成的提取器计算图像和面部嵌入，并使用全局内容感知的面部编码器通过与图像嵌入交互来进一步细化面部嵌入。然后，StableAnimator引入了一种新颖的分布感知ID适配器，通过对齐来防止时间层造成的干扰，同时保留ID。在推理过程中，我们提出了一种基于汉密尔顿-雅各比-贝尔曼（HJB）方程的新型优化方法，以进一步提高面部质量。我们证明了解HJB方程可以集成到扩散去噪过程中，所得解约束了去噪路径，从而有利于身份保持。在多个基准测试上的实验结果定性和定量地证明了StableAnimator的有效性。

发布时间: 11/27/2024

查看原文

RealSeal：基于实时真实性评分的媒体认证革命

作者: Bhaktipriya Radharapu, Harish Krishna

日益增长的深度伪造和媒体操纵威胁迫使我们彻底重新思考媒体认证。现有的合成数据水印方法存在不足，因为它们很容易被移除或更改，而且当前的深度伪造检测算法无法达到完美的准确性。依赖元数据来验证内容来源的溯源技术无法解决虚假或伪造媒体的根本问题。本文通过主张在源头对真实内容进行水印处理，而不是对合成数据进行水印处理，从而在媒体认证方面引入了一种具有突破性的范式转变。我们的创新方法采用多感官输入和机器学习来实时以及在不同环境中评估内容的真实性。我们建议将稳健的真实性评分嵌入图像元数据中，从而从根本上改变图像的信任和传播方式。通过将根植于固件和硬件安全的关于现实的人类推理既有原则与当代机器学习系统的复杂推理能力相结合，我们开发了一种从多个角度分析信息的整体方法。这种雄心勃勃的、具有前瞻性的方法代表了该领域的一项重大进步，突破了媒体真实性和信任的界限。通过采用技术和跨学科研究的最新进展，我们旨在建立一个验证数字媒体真实性的新标准。

发布时间: 11/27/2024

查看原文

基于真实世界关联电子健康记录和病理实验室数据集的可解释人工智能尿路感染风险分组分类

作者: Yujie Dai, Brian Sullivan, Axel Montout, Amy Dillon, Chris Waller, Peter Acs, Rachel Denholm, Philip Williams, Alastair D Hay, Raul Santos-Rodriguez, Andrew Dowsey

机器学习和人工智能在电子健康记录（EHR）上的应用具有巨大的临床洞察力潜力。然而，这种方法面临着数据异质性、稀疏性、时间错位和标记结果有限等重大挑战。在此背景下，我们利用来自英国布里斯托尔、北萨默塞特郡和南格洛斯特郡约一百万名去标识个人的链接EHR数据集，来描述尿路感染（UTI）并开发专注于数据质量、公平性和透明度的预测模型。一个全面的数据预处理和整理流程将原始EHR数据转换为适合AI建模的结构化格式。鉴于地面实况UTI结果的可用性和偏差有限，我们引入了一个由临床专业知识指导的UTI风险评估框架，以估计各个患者时间线上的UTI风险。使用此框架，我们构建了成对的XGBoost模型来区分UTI风险类别，并使用可解释的人工智能技术来识别关键预测因子，同时确保可解释性。我们的研究结果揭示了各风险群体之间临床和人口统计学因素的差异，为UTI风险分层和进展提供了见解。这项研究证明了人工智能驱动的见解对UTI临床决策的附加值，同时优先考虑可解释性、透明度和公平性，强调了健全数据实践在促进健康结果方面的重要性。

发布时间: 11/27/2024

查看原文