arXiv 论文列表

基于逻辑求解器的隐私增强、抗幻觉合成数据生成

作者: Mark A. Burgess, Brendan Hosking, Roc Reguant, Anubhav Kaphle, Mitchell J. O'Brien, Letitia M. F. Sng, Yatish Jain, Denis C. Bauer

机器生成数据是训练人工智能算法、评估罕见工作流程以及在更严格的数据法规下共享数据的宝贵资源。挑战在于生成准确且私密的数据。当前的统计和深度学习方法难以处理海量数据，容易产生与现实不相符的虚假场景，并且很少有意义地量化隐私。在这里，我们介绍 Genomator，一种逻辑求解方法（SAT 求解），它可以高效地生成原始数据的私密且真实的表示。我们用基因组数据（可以说是最复杂和最私密的信息）证明了该方法。合成基因组在平衡医学研究中代表性不足的群体和促进全球数据交换方面具有巨大潜力。我们将 Genomator 与最先进的方法（马尔可夫生成、受限玻尔兹曼机、生成对抗网络和条件受限玻尔兹曼机）进行了基准测试，结果表明其准确性提高了 84-93%，隐私性提高了 95-98%。Genomator 的效率也提高了 1000-1600 倍，使其成为唯一能够扩展到整个基因组的测试方法。我们展示了隐私和准确性之间的普遍权衡，并利用 Genomator 的调整能力来满足从敏感队列的可证明私密表示到具有无法区分的药理基因组特征的数据集等各种应用的需求。展示可调合成数据的生产规模生成可以增强信任，并为临床应用铺平道路。

发布时间: 10/23/2024

查看原文

AskBeacon：基于自然语言的基因组数据交换与分析

作者: Anuradha Wickramarachchi, Shakila Tonni, Sonali Majumdar, Sarvnaz Karimi, Sulev K\~oks, Brendan Hosking, Jordi Rambla, Natalie A. Twine, Yatish Jain, Denis C. Bauer

使临床医生和研究人员能够通过消除技术障碍直接与全球基因组数据资源交互，对于医学基因组学至关重要。AskBeacon 允许将大型语言模型应用于通过 GA4GH Beacon 协议安全共享的队列。只需“询问”Beacon，即可获得、分析和准备发表可行的见解。

发布时间: 10/23/2024

查看原文

大型语言模型因果推理能力的改进：综述

作者: Siheng Xiong, Delin Chen, Qingyang Wu, Longxuan Yu, Qingzhen Liu, Dawei Li, Zhikai Chen, Xiaoze Liu, Liangming Pan

因果推理（CR）是智能的关键方面，对于解决问题、决策和理解世界至关重要。虽然大型语言模型 (LLM) 可以为其输出生成理由，但它们可靠地进行因果推理的能力仍然不确定，在需要深入理解因果关系的任务中往往表现不足。在本综述中，我们对旨在增强 LLM 进行因果推理的研究进行了全面回顾。我们根据 LLM 的作用对现有方法进行分类：将其作为推理引擎或作为为传统 CR 方法提供知识或数据的辅助工具，然后详细讨论每一类中的方法。然后，我们评估 LLM 在各种因果推理任务上的性能，提供关键发现和深入分析。最后，我们提供了当前研究的见解，并突出了未来研究的有前景的方向。我们的目标是使这项工作成为一种全面的资源，促进 LLM 因果推理的进一步发展。资源可在 https://github.com/chendl02/Awesome-LLM-causal-reasoning 获取。

发布时间: 10/23/2024

查看原文

DEAN：通过停用耦合神经元来缓解大型语言模型中的公平性-隐私冲突

作者: Chen Qian, Dongrui Liu, Jie Zhang, Yong Liu, Jing Shao

确保大型语言模型（LLM）的公平性和隐私性至关重要。有趣的是，我们发现了一个反直觉的权衡现象：通过监督微调（SFT）方法增强LLM的隐私意识会显著降低其公平意识，即使样本数量达到数千个。为了解决这个问题，受信息论的启发，我们引入了一种免训练的方法来停用公平性和隐私耦合神经元（DEAN），该方法在理论上和经验上都降低了公平性和隐私意识之间的互信息。大量的实验结果表明，DEAN消除了这种权衡现象，并显著提高了LLM的公平性和隐私意识，例如，将Qwen-2-7B-Instruct的公平意识提高了12.2%，隐私意识提高了14.0%。更重要的是，DEAN在标注数据有限甚至只有恶意微调数据可用时仍然保持稳健和有效，而SFT方法在这种情况下可能无法正常工作。我们希望这项研究能够为同时解决LLM中的公平性和隐私问题提供宝贵的见解，并可以集成到全面的框架中，以开发更道德和负责任的AI系统。我们的代码可在\url{https://github.com/ChnQ/DEAN}获取。

发布时间: 10/23/2024

查看原文

跨物种知识共享与保留用于通用动物活动识别

作者: Axiu Mao, Meilu Zhu, Zhaojin Guo, Zheng He, Tomas Norton, Kai Liu

深度学习技术凭借其在大型标记数据上的高性能，正在主导基于可穿戴传感器的自动化动物活动识别 (AAR) 任务。然而，当前基于深度学习的 AAR 模型仅在单个动物物种的数据集上进行训练，这限制了其在实践中的适用性，并在训练数据有限时表现不佳。在本研究中，我们提出了一种名为跨物种知识共享和保留 (CKSP) 的多对一框架，该框架基于不同动物物种的传感器数据。鉴于不同物种之间存在通用和物种特异性行为模式，我们设计了一个共享保留卷积 (SPConv) 模块。该模块为每个物种分配一个单独的低秩卷积层以提取物种特异性特征，并使用一个共享的全秩卷积层来学习通用特征，使 CKSP 框架能够学习物种间的互补性，并通过增加数据多样性来缓解数据限制。考虑到物种间数据分布差异导致的训练冲突，我们设计了一个物种特异性批量归一化 (SBN) 模块，该模块包含多个 BN 层，以分别拟合不同物种的分布。为了验证 CKSP 的有效性，我们分别在来自马、羊和牛的三个公共数据集上进行了实验。结果表明，与仅在单个物种数据上训练的基线方法（一对一框架）相比，我们的方法显著提高了分类性能，马、羊和牛数据集的准确率分别提高了 6.04%、2.06% 和 3.66%，F1 分数分别提高了 10.33%、3.67% 和 7.90%。这证明了我们的方法在利用多物种数据提高分类性能方面的良好潜力。

发布时间: 10/23/2024

查看原文

LLMScan：用于检测大型语言模型错误行为的因果扫描

作者: Mengdi Zhang, Kai Kiat Goh, Peixin Zhang, Jun Sun

尽管大型语言模型 (LLM) 在各个领域都取得了成功，但它们生成不真实、有偏见和有害回应的可能性构成了重大风险，尤其是在关键应用中。这突显了系统性检测和预防此类错误行为的迫切需要。虽然现有方法针对有害回应等特定问题，但这项工作引入了 LLMScan，这是一种基于因果分析的创新型 LLM 监控技术，提供了一种全面的解决方案。LLMScan 通过因果推理的视角系统地监控 LLM 的内部运作，其前提是 LLM 的“大脑”在出现错误行为时表现不同。通过分析 LLM 输入标记和 Transformer 层的因果贡献，LLMScan 有效地检测错误行为。在各种任务和模型上的大量实验揭示了正常行为和错误行为之间因果分布的明显区别，从而能够开发出用于各种错误行为检测任务的准确、轻量级检测器。

发布时间: 10/23/2024

查看原文

基于直接偏好优化大型语言模型：数据效率视角

作者: Pietro Bernardelle, Gianluca Demartini

大型语言模型 (LLM) 与人类偏好（例如，通过基于人类反馈的强化学习或 RLHF）保持一致，对于确保其在现实场景中的有效性至关重要。尽管 LLM 对齐技术取得了重大进展，但不同类型偏好数据对模型性能的影响尚未得到系统性探索。本研究调查了直接偏好优化 (DPO) 在微调预训练 LLM 中的可扩展性、数据效率和有效性，旨在降低其对大量（且昂贵）偏好数据的依赖。我们 (1) 系统地比较了使用不同比例的组合偏好判断数据集微调的模型的性能，以定义 DPO 的改进曲线并评估其在数据受限环境中的有效性；以及 (2) 为开发选择性偏好数据使用的最佳方法提供见解。我们的研究表明，增加用于训练的数据量通常会增强和稳定模型性能。此外，使用多种不同类型的数据集的组合会显著提高模型的有效性。此外，当使用不同类型的提示分别训练模型时，使用对话式提示训练的模型优于使用问答式提示训练的模型。

发布时间: 10/23/2024

查看原文

如何诊断和治疗用于临床决策的大型语言模型中的偏差？

作者: Kenza Benkirane, Jackie Kay, Maria Perez-Ortiz

大型语言模型 (LLM) 的最新进展已使其成为强大的临床决策工具，并在医疗保健领域得到迅速应用。然而，关于偏见的担忧仍然是 LLM 在临床应用中的一个重大挑战，尤其是在性别和种族方面。本研究调查了应用于复杂临床案例的 LLM 中偏见的评估和缓解，重点关注性别和种族偏见。我们介绍了一个新的反事实病人变异 (CPV) 数据集，该数据集源自 JAMA 临床挑战赛。利用该数据集，我们构建了一个偏见评估框架，采用多项选择题 (MCQ) 及其相应的解释。我们探索了使用八个 LLM 进行提示和微调作为去偏方法。我们的研究结果表明，解决 LLM 中的社会偏见需要多维方法，因为减轻性别偏见可能会引入种族偏见，并且 LLM 嵌入中的性别偏见在不同医学专业之间差异很大。我们证明了评估 MCQ 回答和解释过程至关重要，因为正确的回答可能基于有偏见的 *推理*。我们提供了一个用于评估 LLM 在现实世界临床案例中偏见的框架，深入了解了这些模型中偏见的复杂性，并提出了偏见缓解策略。

发布时间: 10/23/2024

查看原文

基于大型语言模型的高效电子健康记录数据标注的多智能体集成方法

作者: Jingwei Huang, Kuroush Nezafati, Ismael Villanueva-Miranda, Zifan Gu, Ann Marie Navar, Tingyi Wanyan, Qin Zhou, Bo Yao, Ruichen Rong, Xiaowei Zhan, Guanghua Xiao, Eric D. Peterson, Donghan M. Yang, Yang Xie

本研究提出一种新颖的多智能体集成方法，该方法由大型语言模型 (LLM) 驱动，旨在解决机器学习 (ML) 中的一个关键挑战——数据标注，尤其是在大规模电子健康记录 (EHR) 数据集中的数据标注。此类数据集的手动标注需要专业领域知识，且费力、耗时、昂贵且容易出错。为了克服这一瓶颈，我们开发了一种集成 LLM 方法，并在两个实际任务中证明了其有效性：(1) 对 MIMIC-IV 中大规模未标注心电图 (ECG) 数据集进行标注；(2) 从 EHR 的临床记录中识别社会决定因素 (SDOH)。在权衡效益和成本后，我们选择了一组性能令人满意的多样化开源 LLM。我们将每个 LLM 的预测视为一票，并应用具有最小获胜阈值的多数投票机制进行集成。我们实现了一个用于 EHR 数据标注任务的集成 LLM 应用程序。通过使用集成 LLM 和自然语言处理，我们对 MIMIC-IV ECG 数据集的 623,566 份 ECG 报告进行了标注，估计准确率为 98.2%。我们将集成 LLM 方法应用于从 1,405 份 EHR 临床记录的病史部分识别 SDOH，也取得了具有竞争力的性能。我们的实验表明，集成 LLM 可以胜过单个 LLM（甚至包括最好的商业 LLM），并且该方法减少了幻觉错误。研究发现：(1) 集成 LLM 方法显著减少了对大规模 EHR 数据进行标注所需的时间和精力，以高精度和高质量实现了自动化流程；(2) 如其在 SDOH 识别中的应用所示，该方法可以很好地推广到其他文本数据标注任务；(3) 一组多样化 LLM 的集成可以超越或匹配最佳单个 LLM 的性能；(4) 集成方法大大减少了幻觉错误。这种方法为数据标注挑战提供了一种可扩展且高效的解决方案。

发布时间: 10/23/2024

查看原文

QIXAI：一种用于增强经典和量子模型透明度和理解的量子启发式框架

作者: John M. Willis

深度学习模型，特别是卷积神经网络（CNN），其令人印象深刻的性能往往受到其缺乏可解释性的阻碍，使其成为“黑箱”。这种不透明性在医疗保健、金融和自主系统等关键领域引发了担忧，因为在这些领域，信任和问责制至关重要。本文介绍了QIXAI框架（量子启发可解释AI），这是一种通过量子启发技术增强神经网络可解释性的新方法。通过利用量子力学的原理，如希尔伯特空间、叠加、纠缠和特征值分解，QIXAI框架揭示了神经网络的不同层如何处理和组合特征以做出决策。我们批判性地评估了诸如SHAP和LIME之类的模型无关方法，以及诸如逐层相关传播（LRP）之类的技术，突出了它们在提供神经网络操作全面视图方面的局限性。QIXAI框架通过提供对特征重要性、层间依赖性和信息传播的更深入见解来克服这些局限性。以用于疟疾寄生虫检测的CNN为例，展示了如何利用奇异值分解（SVD）、主成分分析（PCA）和互信息（MI）等量子启发方法来解释模型行为。此外，我们还探讨了将QIXAI扩展到其他架构，包括循环神经网络（RNN）、长短期记忆（LSTM）网络、Transformer和自然语言处理（NLP）模型，以及其在生成模型和时间序列分析中的应用。该框架适用于量子和经典系统，展示了其在改进各种模型的可解释性和透明度方面的潜力，从而推动了开发值得信赖的AI系统的更广泛目标。

发布时间: 10/23/2024

查看原文