arXiv 论文列表

3D-CT-GPT：基于大型视觉语言模型的 3D 放射学报告生成

作者: Hao Chen, Wei Zhao, Yingli Li, Tianyang Zhong, Yisong Wang, Youlan Shang, Lei Guo, Junwei Han, Tianming Liu, Jun Liu, Tuo Zhang

医学影像分析在现代放射学诊断中至关重要，尤其是在医学影像数据呈指数级增长的情况下。对自动生成报告系统的需求日益迫切。虽然以往的研究主要集中于利用机器学习和多模态语言模型处理二维医学图像，但由于数据稀缺和计算复杂性，三维医学图像报告生成的研究还比较少。本文介绍了 3D-CT-GPT，这是一种基于视觉问答 (VQA) 的医学视觉语言模型，专门设计用于从三维 CT 扫描（尤其是胸部 CT）生成放射学报告。在公共和私有数据集上的大量实验表明，3D-CT-GPT 在报告准确性和质量方面明显优于现有方法。虽然目前的方法很少，包括部分开源的 CT2Rep 和开源的 M3D，但我们通过适当的数据转换和评估方法确保了公平比较。实验结果表明，3D-CT-GPT 提高了诊断准确性和报告连贯性，成为临床放射学报告生成的一种可靠解决方案。未来的工作将集中在扩展数据集和进一步优化模型，以提高其性能和适用性。

发布时间: 10/1/2024

查看原文

多维不及物动词的广义模型

作者: Jiuding Duan, Jiyi Li, Yukino Baba, Hisashi Kashima

在成对偏好建模中，非传递性是一个关键问题。它指的是一组玩家或对象之间可能形成循环偏好链的非传递性成对偏好，并且长期以来在社会选择理论中被讨论为支配关系的背景。然而，这种玩家之间的多方面非传递性以及高维中相应的玩家表示很难捕捉。在本文中，我们提出了一种概率模型，该模型联合学习每个玩家的 d 维表示（d>1）和一个特定于数据集的度量空间，该空间系统地捕获嵌入空间中 Rd 上的距离度量。有趣的是，通过在度量空间中施加额外的约束，我们提出的模型退化为以前用于非传递性表示学习的模型。此外，我们对各种真实世界基准数据集中的对象之间非传递性关系的大量存在进行了广泛的定量研究。据我们所知，这是此类研究的首次尝试。我们提出的方法在不同的真实世界数据集（包括社会选择、选举和在线游戏数据集）上的预测性能表明，我们提出的方法在预测精度方面优于几种竞争方法。

发布时间: 10/1/2024

查看原文

基于云的原生可扩展管道，用于从单目智能手机图像高效重建三维模型

作者: Potito Aghilar, Vito Walter Anelli, Michelantonio Trizio, Tommaso Di Noia

近年来，3D 模型在娱乐、制造和仿真等各个领域越来越受欢迎。然而，手动创建这些模型可能是一个耗时且资源密集的过程，对于大规模工业应用来说不切实际。为了解决这个问题，研究人员正在利用人工智能和机器学习算法来轻松自动生成 3D 模型。在本文中，我们提出了一种新颖的云原生管道，可以从使用智能手机摄像头拍摄的单目 2D 图像自动重建 3D 模型。我们的目标是提供一种高效且易于采用的解决方案，以满足工业 4.0 标准，创建数字孪生模型，从而通过加速培训来增强人员专业知识。我们利用 NVIDIA 研究实验室开发的机器学习模型，以及一个定制设计的姿态记录器，该记录器具有基于 Google 的 ARCore 框架的独特姿态补偿组件。我们的解决方案生成一个可重复使用的 3D 模型，其中包含嵌入的材质和纹理，可在任何外部 3D 建模软件或 3D 引擎中导出和自定义。此外，整个工作流程通过采用微服务架构标准来实现，使管道中的每个组件都可以作为独立的可替换模块运行。

发布时间: 10/1/2024

查看原文

模拟内存计算注意力机制，用于快速节能的大型语言模型

作者: Nathan Leroux, Paul-Philipp Manea, Chirag Sudarshan, Jan Finkbeiner, Sebastian Siegel, John Paul Strachan, Emre Neftci

基于增益单元内存的模拟内存计算用于加速大型语言模型中的自注意力机制。

发布时间: 10/1/2024

查看原文

模型X射线：使用小样本学习检测AI模型权重中隐藏的恶意软件

作者: Daniel Gilkarov, Ran Dubin

由于人工智能（AI）的快速发展以及像模型动物园这样的平台被广泛用于共享 AI 模型，AI 模型被利用的可能性也随之增加。攻击者可以通过隐写术在 AI 模型中嵌入恶意软件，利用这些模型的庞大规模来隐藏恶意数据并将其用于不法目的，例如远程代码执行。确保 AI 模型的安全是新兴的研究领域，对于保护依赖 AI 技术的众多组织和用户至关重要。本研究利用经过充分研究的图像少样本学习技术，通过使用一种新颖的图像表示将 AI 模型转移到图像领域。在这种领域中应用少样本学习使我们能够创建实用的模型，这是以前作品所缺乏的。我们的方法解决了最先进的检测技术中的关键局限性，这些局限性阻碍了它们的实用性。这种方法将所需的训练数据集大小从 40000 个模型减少到只有 6 个。此外，我们的方法始终如一地检测到高达 25% 嵌入率的微妙攻击，在某些情况下甚至高达 6%，而以前的作品只显示出对 100%-50% 嵌入率有效。我们采用严格的评估策略来确保训练后的模型对各种因素具有通用性。此外，我们还表明，我们训练后的模型成功地检测到新颖的扩频隐写攻击，证明了这些模型仅通过学习一种类型的攻击就表现出令人印象深刻的鲁棒性。我们开源了我们的代码以支持可重复性并增强该新领域的研究。

发布时间: 10/1/2024

查看原文

设计领域特定的大型语言模型：微调在公众舆论模拟中的关键作用

作者: Haocheng Lin

大型语言模型 (LLM) 已经改变了各个领域的自然语言处理，但其通用设计限制了它们在专门领域（如模拟环境政策方面的意见）的有效性。本文提出了一种使用来自英国家庭纵向研究的数据微调 LLM 的方法，通过根据年龄、收入、教育和地区等社会人口因素对模型进行条件化，提高了意见生成的准确性。通过模拟不同的合成个人资料，微调后的模型比预训练版本更有效地捕捉了不同人口群体之间的细微差异。卡方检验、余弦相似度、Jaccard 指数和 KL 散度等指标表明，合成意见数据与现实世界意见数据之间存在很强的一致性。这种方法突出了微调 LLM 的潜力，可以为环境问题上的公众情绪提供更明智、更具代表性和更合乎道德的见解。研究结果强调了为特定社会环境定制 LLM 的重要性，以便更准确和合乎道德地进行政策模拟。

发布时间: 10/1/2024

查看原文

因果VE：基于因果视频预测的人脸视频隐私加密

作者: Yubo Huang, Wenhao Feng, Xin Lai, Zixi Wang, Jingzehua Xu, Shuai Zhang, Hongjie He, Fan Chen

先进的面部识别技术和推荐系统缺乏足够的隐私技术和政策来保障面部交互的隐私，加剧了人们对生物隐私侵犯的担忧。随着视频和直播网站的激增，公众面部视频的传播和交互带来了更大的隐私风险。现有的技术通常通过各种隐私增强方法来解决敏感生物信息泄露的风险，但会通过破坏交互数据所传达的信息或保留某些生物特征来提高安全风险，攻击者可以从中推断出敏感生物信息。为了解决这些缺陷，本文提出了一种神经网络框架，CausalVE。我们通过采用扩散模型实现面部引导的面部交换来获得覆盖图像，并使用秘密视频的语音序列特征和时空序列特征进行动态视频推理和预测，以获得与秘密视频帧数相同的覆盖视频。此外，我们使用可逆神经网络进行视频隐藏，以隐藏秘密视频，使视频也能传播秘密数据。大量实验表明，我们的 CausalVE 在公共视频传播中具有良好的安全性，并且从定性、定量和视觉的角度来看，它优于最先进的方法。

发布时间: 10/1/2024

查看原文

联邦学习中的隐私攻击并非易事：一项实验研究

作者: Hangyu Zhu, Liyuan Huang, Zhenping Xie

联邦学习 (FL) 是一种新兴的分布式机器学习范式，旨在保护隐私。与传统的集中式学习方法不同，FL 允许多个用户协作训练共享的全局模型，而无需公开自己的数据，从而显著降低隐私泄露的风险。然而，最近的研究表明，FL 无法完全保证隐私保护，攻击者可能仍然能够通过通信的模型梯度提取用户的私有数据。尽管已经开发出许多针对 FL 的隐私攻击算法，但大多数算法都是为了从计算出的梯度的一步中重建私有数据而设计的。这些方法在现实的联邦环境中是否有效，或者是否存在其他局限性，目前尚不清楚。在本文中，我们旨在帮助研究人员更好地理解和评估针对 FL 的隐私攻击的有效性。我们分析并讨论了关于此主题的最新研究论文，并在真实的 FL 环境中进行实验，以比较各种攻击方法的性能。我们的实验结果表明，即使在没有防御策略的情况下，现有的最先进的隐私攻击算法也无法在现实的 FL 设置中有效地破坏私有客户端数据。这表明 FL 中的隐私攻击比最初预期的更具挑战性。

发布时间: 10/1/2024

查看原文

基于动态音频数据维持新冠肺炎检测模型性能：一个全面的漂移自适应框架的开发与评估

作者: Theofanis Ganitidis, Maria Athanasiou, Konstantinos Mitsis, Konstantia Zarkogianni, Konstantina S. Nikita

**背景：**新冠肺炎疫情突显了开发能够从多种不断演变的数据源中检测疾病的强大诊断工具的必要性。机器学习模型，尤其是卷积神经网络 (CNN)，已展现出巨大潜力。然而，现实世界数据的动态特性会导致模型漂移，即随着底层数据分布的变化，模型性能会随着时间的推移而下降。解决这一挑战对于在诊断应用中保持准确性和可靠性至关重要。 **目标：**本研究旨在开发一个框架，该框架可以监控模型漂移并采用适应机制来减轻在动态音频数据上训练的 COVID-19 检测模型的性能波动。 **方法：**使用了两个众包的 COVID-19 音频数据集，COVID-19 Sounds 和 COSWARA。每个数据集都被分为开发阶段和开发后阶段。使用来自开发阶段的咳嗽录音训练和评估了一个基线 CNN 模型。最大平均差异 (MMD) 用于检测数据分布和模型性能在不同阶段之间的变化。在检测到漂移后，会触发重新训练以更新基线模型。比较了两种适应方法：无监督域适应 (UDA) 和主动学习 (AL)。 **结果：**UDA 使 COVID-19 Sounds 和 COSWARA 数据集的平衡准确率分别提高了 22% 和 24%。AL 产生了更大的改进，分别提高了 30% 和 60%。 **结论：**提出的框架解决了 COVID-19 检测中的模型漂移问题，使模型能够持续适应不断演变的数据。这种方法确保了模型的持续性能，有助于为 COVID-19 以及其他传染病开发强大的诊断工具。

发布时间: 10/1/2024

查看原文

CLIP-MoE：构建具有多样化多重上采样的 CLIP 专家混合模型

作者: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng

近年来，对比语言-图像预训练（CLIP）已成为多模态智能的基石。然而，最近的研究表明，CLIP编码过程中的信息损失非常大，CLIP倾向于只从输入中捕捉粗粒度的特征。这种缺陷严重限制了单个CLIP模型处理富含视觉细节的图像的能力。在这项工作中，我们针对CLIP提出了一种简单而有效的模型无关策略，即多元多重上采样（DMU）。DMU有效地微调了一系列CLIP模型，这些模型从一个密集的预训练CLIP检查点中捕获不同的特征空间，除了前馈网络（FFN）之外，共享参数。然后，这些模型可以被转换为具有更大模型容量的CLIP-MoE，从而在计算开销最小的前提下显著提高性能。据我们所知，多元多重上采样是第一个将稀疏激活的MoE引入CLIP基础模型的方法。大量的实验表明，CLIP-MoE在各种零样本检索、零样本图像分类任务以及作为视觉编码器的下游多模态大型语言模型（MLLM）基准上都表现出显著的性能。此外，多元多重上采样能够将任何密集的CLIP模型转换为CLIP-MoE，这些模型可以无缝地以即插即用方式替换CLIP，而无需在下游框架中进行进一步的适应。通过多元多重上采样，我们旨在为未来开发更有效率、更有效的多模态学习系统提供有价值的见解。

发布时间: 10/1/2024

查看原文