arXiv 论文列表

作者: Quyen Tran, Nguyen Xuan Thanh, Nguyen Hoang Anh, Nam Le Hai, Trung Le, Linh Van Ngo, Thien Huu Nguyen

少样本持续关系抽取 (FCRE) 是一种新兴且充满活力的研究领域，其中模型可以从有限的标注数据中顺序整合新关系的知识，同时规避灾难性遗忘并保留来自预训练主干网络的先验知识。在本研究中，我们提出了一种利用经常被丢弃的语言模型头的创新方法。通过利用这些组件，并采用互信息最大化策略，我们的方法有助于维护来自预训练主干网络的先验知识，并战略性地对齐主要分类头，从而提高模型性能。此外，我们探讨了大型语言模型 (LLMs) 在解决 FCRE 挑战方面的潜力，它们以其丰富的知识而闻名。我们全面的实验结果强调了所提出方法的有效性，并为未来工作提供了宝贵的见解。

发布时间: 10/2/2024

查看原文

酶流：通过流匹配和协同进化动力学生成反应特异性酶催化口袋

作者: Chenqing Hua, Yong Liu, Dinghuai Zhang, Odin Zhang, Sitao Luan, Kevin K. Yang, Guy Wolf, Doina Precup, Shuangjia Zheng

酶设计是生物技术领域的关键领域，其应用范围涵盖药物开发到合成生物学。传统方法用于预测酶的功能或设计蛋白质结合口袋，往往难以捕捉酶-底物相互作用的动态和复杂性，尤其是在催化过程中。为了解决这些挑战，我们引入了 EnzymeFlow，这是一种生成模型，它利用流匹配与分层预训练和酶-反应共同进化来为特定的底物和催化反应生成催化口袋。此外，我们引入了一个大规模、经过精心整理和验证的酶-反应对数据集，专门用于催化口袋生成任务，包含总计 $328,192$ 对。通过整合进化动力学和反应特异性适应，EnzymeFlow 成为一种强大的酶口袋设计模型，能够催化广泛的生化反应。在新数据集上的实验表明，该模型在设计高质量、功能性酶催化口袋方面非常有效，为酶工程和合成生物学领域的进步铺平了道路。我们提供 EnzymeFlow 代码，网址为 https://github.com/WillHua127/EnzymeFlow，并提供笔记本演示，网址为 https://github.com/WillHua127/EnzymeFlow/blob/main/enzymeflow_demo.ipynb。

发布时间: 10/2/2024

查看原文

EmoKnob：通过细粒度情感控制增强语音克隆

作者: Haozhe Chen, Run Chen, Julia Hirschberg

尽管最近的文本转语音 (TTS) 技术取得了进展，能够生成自然而富有表现力的语音，但它们缺乏用户选择情感和控制强度的选项。我们提出了 EmoKnob，一个框架，它允许在语音合成中使用少量任意情感的示范样本进行细粒度的情感控制。我们的框架利用了近年来基础语音克隆模型取得的进展，实现了富有表现力的说话者表示空间。基于我们情感控制框架的小样本能力，我们提出了两种方法来将情感控制应用于由开放式文本描述的情感，从而为控制各种细微情感提供直观的界面。为了促进更系统的情感语音合成领域，我们引入了一套评估指标，旨在严格评估情感控制框架的忠实度和可识别性。通过客观和主观评估，我们表明，我们的情感控制框架有效地将情感嵌入到语音中，并且超越了商业 TTS 服务的情感表达能力。

发布时间: 10/2/2024

查看原文

基于对比表征学习的极度不平衡多元时间序列数据太阳耀斑预测

作者: Onur Vural, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi

大型太阳耀斑是太阳磁通量的突然激增，对技术基础设施构成重大风险。鉴于此，利用机器学习方法从太阳活动区磁场数据中有效预测重大耀斑在空间天气研究中变得至关重要。磁场数据可以用多元时间序列模态表示，由于重大耀斑事件的罕见性，数据显示出极端类别不平衡。在基于时间序列分类的耀斑预测中，对比表示学习方法的使用相对有限。在本文中，我们介绍了 CONTREX，一种针对多元时间序列数据的新型对比表示学习方法，解决了时间依赖性和极端类别不平衡的挑战。我们的方法包括从多元时间序列实例中提取动态特征，从正负类特征向量中推导出两个极端，它们提供了最大的分离能力，并使用我们新颖的对比重建损失，在原始多元时间序列数据引导下训练一个序列表示嵌入模块，以生成与极值点对齐的嵌入。这些嵌入捕获了基本的时间序列特征，并增强了判别能力。我们的方法在针对基线方法的空间天气分析太阳耀斑（SWAN-SF）多元时间序列基准数据集上显示出有希望的太阳耀斑预测结果。

发布时间: 10/2/2024

查看原文

问、提、聚：为与视觉语言模型的紧密交互扩展数据采集

作者: Laura Bravo-S\'anchez, Jaewoo Heo, Zhenzhen Weng, Kuan-Chieh Wang, Serena Yeung-Levy

在紧密的人际互动中，社会动态对人体网格估计 (HME) 构成了重大挑战，特别是由于物理接触的复杂性和训练数据的稀缺。为了应对这些挑战，我们提出了一种新颖的数据生成方法，该方法利用大型视觉语言模型 (LVLMs) 来标注接触图，这些接触图指导测试时优化，以生成配对的图像和伪地面真实网格。这种方法不仅减轻了标注负担，而且还能够构建专门针对 HME 中紧密互动场景的综合数据集。我们的 Ask Pose Unite (APU) 数据集包含超过 6.2k 对接触的人体网格，涵盖各种互动类型，这些数据是从描绘自然人与人场景的图像中整理出来的。我们通过实验证明，使用我们的数据集训练基于扩散的接触先验，在优化过程中作为指导，可以改善对未见互动场景的网格估计。我们的工作解决了 HME 中紧密互动数据稀缺的长期挑战，增强了该领域处理复杂互动场景的能力。

发布时间: 10/2/2024

查看原文

基于大型单模态和多模态模型的社交媒体图像无监督分类：以“自然对人类的贡献”为例

作者: Rohaifa Khaldi, Domingo Alcaraz-Segura, Ignacio S\'anchez-Herrera, Javier Martinez-Lopez, Carlos Javier Navarro, Siham Tabik

社交媒体图片已成为理解人类与重要主题（如文化遗产、生物多样性和自然等）互动的重要信息来源。由于这些图片的视觉内容高度多样且复杂，再加上其数量庞大，因此将这些图片分组到若干语义上有意义的集群中而无需标签是一项具有挑战性的任务。另一方面，大型视觉模型 (LVM)、大型语言模型 (LLM) 和大型视觉语言模型 (LVLM) 的最新进展为探索新的高效且可扩展的解决方案提供了重要机会。本研究提出、分析并比较了基于一个或多个最先进的 LVM、LLM 和 LVLM 的各种方法，用于将社交媒体图片映射到若干预定义类别中。作为案例研究，我们考虑了理解人类与自然之间互动的问题，也称为自然对人类的贡献或文化生态系统服务 (CES)。我们的实验表明，表现最佳的方法（提供高度竞争性的结果）是在小型标记数据集上微调的 LVM DINOv2 和使用简单提示的 LVLM 模型（如专有 GPT-4 (gpt-4o-mini)）。

发布时间: 10/2/2024

查看原文

社会魔法：多人协作式 AI 在虚拟 3D 世界构建中的应用

作者: Cyan DeVeaux, Amina Kobenova, Samyak Parajuli, Andrzej Banburski-Fahey, Judith Amores Fernandez, Jaron Lanier

生成式人工智能在推动虚拟世界生成方面展现出巨大潜力，但对于这一过程如何随着社会互动而展开的研究却很少。我们提出了“社会魔术师”框架，这是一种用于人工智能增强动态3D场景协同创作的框架，在该框架中，多个用户可以实时协作构建和修改虚拟世界。通过扩展的交互集，包括社交和工具驱动的互动以及空间推理，我们的框架促进了丰富多样虚拟环境的创建。一项初步用户研究（N=12）的结果为这种方法的用户体验提供了见解，揭示了社会环境如何塑造空间环境的提示，并对基于提示的3D协同创作的社会应用进行了展望。除了强调人工智能支持的多用户世界创建的潜力，并为VR中人工智能增强的创造性流程提供新途径之外，本文还提出了一组设计以人为本的界面的启示，这些界面将人工智能模型融入3D内容生成。

发布时间: 10/2/2024

查看原文

基于核主成分分析的可视化深度计算机视觉模型解释方法

作者: Sachin Karmani, Thanushon Sivakaran, Gaurav Prasad, Mehmet Ali, Wenbo Yang, Sheyang Tang

深度学习模型通常如同黑盒，无法直接解释其预测的推理过程。这在计算机视觉模型中尤为明显，这类模型处理像素值张量以生成图像分类和目标检测等任务的结果。为了阐明这些模型的推理过程，类激活图（CAM）被用来突出影响模型输出的显著区域。本研究引入了 KPCA-CAM，这是一种旨在通过改进的类激活图来增强卷积神经网络（CNN）可解释性的技术。KPCA-CAM 利用主成分分析（PCA）结合核技巧，更有效地捕获 CNN 激活中的非线性关系。通过使用核函数将数据映射到更高维的空间并从这个变换后的超平面中提取主成分，KPCA-CAM 提供了对潜在数据流形的更准确表示。这使得能够更深入地理解影响 CNN 决策的特征。在不同 CNN 模型的 ILSVRC 数据集上的实证评估表明，与现有的 CAM 算法相比，KPCA-CAM 生成了更精确的激活图，提供了对模型推理过程的更清晰见解。本研究推动了 CAM 技术的发展，为研究人员和从业者提供了一个强大的工具，以更深入地了解 CNN 决策过程和整体行为。

发布时间: 10/2/2024

查看原文

基于层次知识增强的过程感知手术视频-语言预训练

作者: Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy

手术视频-语言预训练 (VLP) 由于知识领域差距和多模态数据稀缺而面临着独特的挑战。本研究旨在通过解决手术讲座视频中文本信息丢失问题以及手术 VLP 的时空挑战来弥合这一差距。我们提出了一种分层知识增强方法和一种新颖的程序编码手术知识增强视频-语言预训练 (PeskaVLP) 框架来解决这些问题。知识增强利用大型语言模型 (LLM) 来细化和丰富手术概念，从而提供全面的语言监督并降低过度拟合的风险。PeskaVLP 将语言监督与视觉自监督相结合，构建硬负样本并采用基于动态时间规整 (DTW) 的损失函数来有效地理解跨模态程序对齐。在多个公共手术场景理解和跨模态检索数据集上的大量实验表明，我们提出的方法显着提高了零样本迁移性能，并为手术场景理解的进一步发展提供了通用的视觉表示。

发布时间: 10/2/2024

查看原文

DoPAMine：基于种子引导数据挖掘的领域特定预训练自适应

作者: Vinayak Arannil, Sourav Sanjukta Bhabesh, Neha Narwal, Sai Nikhil Thirandas, Darren Yow-Bang Wang, Graham Horwood, Alex Anto Chirayath, Gouri Pandeshwar

大型语言模型 (LLM) 在执行各种任务的同时，已展现出在众多行业领域中有效泛化的非凡能力。这些能力中的许多都源于语言模型 (LM) 预训练阶段使用的数据。然而，当这些模型被要求在专门的或资源匮乏的行业领域中执行任务时，它们表现出局限性。最近的方法使用 LLM 生成特定领域的合成数据，但它们通常缺乏真实性和复杂性。或者，在医疗保健和金融等领域存在领域数据的情况下，大多数 LM 都是专有的，因此需要一种可扩展的方法来整理真实世界行业特定的预训练数据。在这项工作中，我们提出了一种自动且可扩展的框架 - DoPAMine：从种子引导的数据挖掘中进行特定领域的预训练适应，从大型数据语料库中挖掘特定领域的训练数据，以适应 LM 的领域。该框架利用 LLM 的参数知识来生成针对特定领域的多样化和具有代表性的种子数据，然后使用这些数据从大型数据语料库（如 Common Crawl）中挖掘真实世界数据。我们通过使用 DoPAMine 挖掘的数据训练两个特定领域的 70 亿参数 LLM（医疗保健和金融）来评估我们框架在持续预训练 (CPT) 设置中的性能。我们的实验表明，与基线相比，DoPAMine 在 MMLU、MedQA、MedMCQA 和 PubMedQA 数据集上的医疗保健任务中，在零样本和 5 样本设置中分别将预训练 LLM 的性能平均提高了 4.9% 和 5.1%，在 FiQA-SA、FPB 和 Headlines 数据集上的金融任务中，在零样本和 5 样本设置中分别提高了 2.9% 和 6.7%。

发布时间: 10/2/2024

查看原文