arXiv 论文列表

作者: Bolun (Namir), Xia, Mohammed J. Zaki, Aparna Gupta

大型语言模型 (LLM) 的出现引发了对其在金融领域的各种应用的大量研究。然而，在将 LLM 应用于长文档时，语义关系没有被明确地纳入，并且采用了完全或任意稀疏的注意力机制。近年来，抽象意义表示 (AMR) 取得了进展，它是一种基于图的文本表示，用于保留其语义关系。由于 AMR 可以更深入地表示语义关系，因此图神经网络 (GNN) 可以利用它来构建基于 LLM 嵌入的有效文档级图表示，以预测金融领域的指标。我们提出了 FLAG：基于 AMR 的 GNN 的金融长文档分类，这是一个基于 AMR 图的框架，用于生成长金融文档分类的文档级嵌入。我们从句子级 AMR 图构建文档级图，在金融领域赋予它们专门的 LLM 词嵌入，应用利用 GNN 的深度学习机制，并检查我们基于 AMR 的方法在预测来自长金融文档的标记目标数据方面的有效性。我们对不同经济部门公司季度财报电话会议记录数据集以及对 S&P 1500 综合指数公司最近财报电话会议语料库进行了广泛的实验。我们发现，在预测两个数据集不同时间范围内股价走势趋势方面，我们基于 AMR 的方法优于直接对文本进行微调的 LLM。我们的工作也优于之前利用文档图和 GNN 进行文本分类的工作。

发布时间: 10/4/2024

查看原文

DeepProtein：蛋白质序列学习的深度学习库与基准测试

作者: Jiaqing Xie, Yue Zhao, Tianfan Fu

近年来，深度学习彻底改变了蛋白质科学领域，推动了预测蛋白质性质、结构折叠和相互作用方面的进步。本文介绍了DeepProtein，一个专门为蛋白质相关任务设计的综合且用户友好的深度学习库。DeepProtein集成了几种最先进的神经网络架构，包括卷积神经网络（CNN）、循环神经网络（RNN）、Transformer、图神经网络（GNN）和图Transformer（GT）。它提供了用户友好的界面，方便领域研究人员将深度学习技术应用于蛋白质数据。此外，我们整理了一个基准，评估了这些神经架构在各种蛋白质任务上的表现，包括蛋白质功能预测、蛋白质定位预测和蛋白质-蛋白质相互作用预测，展示了其优越的性能和可扩展性。此外，我们提供了详细的文档和教程，以促进可访问性并鼓励可重复研究。该库扩展自一个著名的药物发现库DeepPurpose，并可在https://github.com/jiaqingxie/DeepProtein/tree/main公开获取。

发布时间: 10/4/2024

查看原文

机器学习中的非凸优化方法综述

作者: Greg B Fotopoulos, Paul Popovich, Nicholas Hall Papadopoulos

非凸优化是推动机器学习发展的重要工具，尤其对于深度神经网络和支持向量机等复杂模型而言。尽管存在多个局部最小值和鞍点等挑战，非凸技术仍提供了多种途径来降低计算成本。这些途径包括通过正则化来促进稀疏性、有效地逃离鞍点，以及采用随机梯度下降等子采样和近似策略。此外，非凸方法能够实现模型剪枝和压缩，从而在保持性能的同时减小模型大小。通过关注良好的局部最小值而不是精确的全局最小值，非凸优化确保了在更快收敛和更低计算开销的情况下获得具有竞争力的精度。本文考察了非凸优化在机器学习中的关键方法和应用，探讨了它如何在提高模型性能的同时降低计算成本。此外，本文还概述了未来研究方向和挑战，包括可扩展性和泛化能力，这些挑战将塑造机器学习中非凸优化的下一阶段发展。

发布时间: 10/4/2024

查看原文

基于自适应无归一化特征重校准的联邦学习数据异构性问题解决方法

作者: Vasilis Siomos, Sergio Naval-Marimont, Jonathan Passerat-Palmbach, Giacomo Tarroni

联邦学习是一种去中心化的协作训练范式，它在提升性能和泛化能力的同时，保护了利益相关者对数据的拥有权。然而，客户端数据集之间的统计异质性构成了一个基本挑战，会降低系统性能。为了解决这个问题，我们提出了自适应无归一化特征重新校准（ANFR），这是一种架构级方法，它结合了权重标准化和通道注意力。权重标准化对层的权重进行归一化，而不是对激活值进行归一化。这使得它不太容易受到客户端统计信息不匹配和不一致平均的影响，从而在异质性下更加稳健。通道注意力为特征图生成可学习的缩放因子，抑制那些由于异质性而在客户端之间不一致的特征图。我们证明，通过增强类别选择性和优化通道注意力权重分布，将这些技术结合起来可以将模型性能提升到超越其各自贡献的水平。ANFR独立于聚合方法运行，在全局和个性化联邦学习环境中均有效，且计算开销极小。此外，在使用差分隐私进行训练时，ANFR 在隐私和效用之间取得了令人满意的平衡，能够在不牺牲性能的情况下提供强大的隐私保证。通过在主干模型中整合权重标准化和通道注意力，ANFR 为解决统计异质性挑战提供了一种新颖且通用的方法。我们通过大量实验表明，ANFR 在各种聚合方法、数据集和异质性条件下始终优于已建立的基线。

发布时间: 10/4/2024

查看原文

基于正则化流的图像生成度量

作者: Pranav Jeevan, Neeraj Nixon, Amit Sethi

我们提出了两种新的评估指标，用于基于归一化流来评估生成图像的真实性：一种更简单、更高效的基于流的似然距离 (FLD) 和一种更精确的双流基于似然距离 (D-FLD)。由于归一化流可以用来计算精确的似然，因此所提出的指标评估了生成图像与给定域中真实图像分布的匹配程度。这种特性使所提出的指标比广泛使用的 Fr\'echet inception distance (FID) 和其他最近的指标具有几个优势。首先，所提出的指标只需要几百张图像就能稳定（平均收敛），而 FID 需要数万张，其他指标至少需要几千张。这使得即使是对少量生成的图像集，例如训练循环中的验证批次，也能进行可靠的评估。其次，与用来计算 FID 的 Inception-V3 相比，用来计算所提出指标的网络的参数数量减少了一个数量级以上，使其在计算上更有效。为了评估新领域（例如，X 射线图像）中生成图像的真实性，理想情况下，这些网络应该在真实图像上重新训练，以模拟它们独特的分布。因此，我们较小的网络对于新领域来说将更有优势。大量的实验表明，所提出的指标与各种类型的图像退化程度具有期望的单调关系。

发布时间: 10/4/2024

查看原文

溃疡GPT：利用大型语言模型和视觉模型进行糖尿病足溃疡图像转录的多模态方法

作者: Reza Basiri, Ali Abedi, Chau Nguyen, Milos R. Popovic, Shehroz S. Khan

糖尿病足溃疡（DFUs）是导致住院和下肢截肢的主要原因，给患者和医疗保健系统带来了沉重的负担。DFUs 的早期检测和准确分类对于预防严重并发症至关重要，但由于缺乏专业服务的途径，许多患者在接受治疗方面存在延误。远程医疗已成为一种很有前途的解决方案，它可以改善医疗服务的可及性，减少面对面就诊的需要。人工智能和模式识别在远程医疗中的整合进一步增强了 DFU 管理，使图像能够自动检测、分类和监测。尽管人工智能驱动的 DFU 图像分析方法取得了进展，但大型语言模型在 DFU 图像转录中的应用尚未得到探索。为了解决这一差距，我们介绍了 UlcerGPT，这是一种新颖的多模态方法，它利用大型语言和视觉模型来进行 DFU 图像转录。该框架结合了先进的视觉和语言模型，例如大型语言和视觉助手以及聊天生成预训练变压器，通过联合检测、分类和定位感兴趣区域来转录 DFU 图像。通过对公共数据集进行详细的实验，并由专家临床医生进行评估，UlcerGPT 在 DFU 转录的准确性和效率方面展示了可喜的结果，为临床医生通过远程医疗提供及时护理提供了潜在的支持。

发布时间: 10/4/2024

查看原文

LLM+KG@VLDB'24 研讨会摘要

作者: Arijit Khan, Tianxing Wu, Xi Chen

大型语言模型 (LLMs) 与知识图谱 (KGs) 的融合已成为一个热门话题。在 2024 年中国广州举办的 VLDB 2024 会议上，LLM+KG'24 研讨会探讨了由于 LLMs 和 KGs 之间有效交互而带来的重要数据管理挑战和机遇。本报告概述了 LLM+KG'24 研讨会上各演讲者提出的主要方向和方法。

发布时间: 10/4/2024

查看原文

基于多视角视觉语言模型和屏幕时间追踪器的儿童屏幕时间识别增强

作者: Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan

准确监测幼儿的屏幕使用时间对于研究与屏幕使用相关的现象至关重要，例如儿童肥胖、身体活动和社交互动。大多数现有研究依赖于自我报告或来自笨重的可穿戴传感器的手动测量，因此在捕获定量屏幕曝光数据方面缺乏效率和准确性。在这项工作中，我们开发了一个新颖的传感器信息学框架，该框架利用来自可穿戴传感器的以自我为中心的图像，称为屏幕时间跟踪器（STT），以及一个视觉语言模型（VLM）。特别是，我们设计了一个多视图 VLM，它从以自我为中心的图像序列中获取多个视图，并动态地解释屏幕曝光。我们使用儿童自由活动数据集验证了我们的方法，证明了在普通视觉语言模型和目标检测模型中比现有方法有显著的改进。结果证实了这种监测方法的潜力，它可以优化对儿童自然环境中屏幕曝光的行为研究。

发布时间: 10/4/2024

查看原文

一步噪声标签缓解

作者: Hao Li, Jiayang Gu, Jingkuan Song, An Zhang, Lianli Gao

在大型预训练任务中，获得完全干净或人工标注的样本往往不切实际，因此减轻噪声标签对训练过程的负面影响变得越来越重要。然而，现有的噪声缓解方法由于其任务特定的设计、模型依赖性和显著的计算开销，在实际应用中往往会遇到局限性。在这项工作中，我们利用高维正交性的特性，在锥空间中识别出一个稳健且有效的边界，用于分离干净样本和噪声样本。在此基础上，我们提出了一种模型无关的噪声标签缓解范式，称为一步反噪声 (OSA)，该范式采用一个估计模型和一个评分函数，通过一步推理（一个成本效益高的过程）来评估输入对的噪声水平。我们通过实验证明了 OSA 的优越性，突出了其增强的训练鲁棒性、改进的任务可迁移性、易于部署以及在各种基准、模型和任务中降低的计算成本。我们的代码已发布在 https://github.com/leolee99/OSA。

发布时间: 10/4/2024

查看原文

CHASE-SQL：基于多路径推理和偏好优化的文本到SQL候选选择

作者: Mohammadreza Pourreza, Hailong Li, Ruoxi Sun, Yeounoh Chung, Shayan Talaei, Gaurav Tarlok Kakkar, Yu Gan, Amin Saberi, Fatma Ozcan, Sercan O. Arik

为了解决大型语言模型 (LLM) 在文本到 SQL 任务中的性能挑战，我们提出了 CHASE-SQL，一个全新的框架，它采用创新的策略，利用多智能体建模中的测试时计算来改进候选生成和选择。CHASE-SQL 利用 LLM 的内在知识，使用不同的 LLM 生成器来生成多样化且高质量的 SQL 候选，这些生成器具有以下特点：（1）一种分而治之的方法，将复杂查询分解成可管理的子查询，在一个 LLM 调用中完成；（2）基于查询执行计划的链式思维推理，反映了数据库引擎在执行过程中的步骤；（3）一种独特的实例感知合成示例生成技术，为测试问题提供特定的少样本演示。为了识别最佳候选，我们使用一个选择代理通过与微调的二元候选选择 LLM 进行成对比较来对候选进行排名。这种选择方法已被证明比其他方法更稳健。所提出的生成器-选择器框架不仅提高了 SQL 查询的质量和多样性，而且优于以前的方法。总的来说，我们提出的 CHASE-SQL 在著名的 BIRD 文本到 SQL 数据集基准的测试集和开发集上实现了 73.0% 和 73.01% 的最先进的执行精度，使 CHASE-SQL 成为排行榜上的最高提交结果（在论文提交时）。

发布时间: 10/4/2024

查看原文