arXiv 论文列表

基于知识引导的关键区域检索的开放式病理视觉问答

作者: Awais Naeem, Tianhao Li, Huang-Ru Liao, Jiawei Xu, Aby M. Mathew, Zehao Zhu, Zhen Tan, Ajay Kumar Jaiswal, Raffi A. Salibian, Ziniu Hu, Tianlong Chen, Ying Ding

基于病理图像的准确诊断和预后预测对于癌症治疗方案的选择和制定至关重要。尽管近年来分析复杂病理图像的深度学习方法发展迅速，但这些方法往往忽略了领域专家对组织结构和细胞组成的理解。本研究针对一项具有挑战性的开放式病理视觉问答 (PathVQA-Open) 任务，提出了一种名为 Path-RAG 的新型框架，该框架利用组织图谱技术从病理图像中检索相关的领域知识，并显著提高了 PathVQA-Open 任务的性能。鉴于病理图像分析的复杂性，Path-RAG 采用以人为中心的 AI 方法，利用组织图谱技术检索领域知识，从而从病理图像中选择相关的图像块。我们的实验表明，领域指导可以显著提高 LLaVA-Med 的准确率，从 38% 提高到 47%，在 PathVQA-Open 数据集中，苏木精-伊红 (H&E) 染色病理图像的准确率提升显著，达 28%。对于长篇问答对，我们的模型在 ARCH-Open PubMed 和 ARCH-Open Books 数据集上针对 H&E 图像的性能分别提高了 32.5% 和 30.6%。我们的代码和数据集已公开发布 (https://github.com/embedded-robotics/path-rag)。

发布时间: 11/27/2024

查看原文

创意智能体：利用生成式智能体模拟创造力系统模型

作者: Naomi Imasato, Kazuki Miyazawa, Takayuki Nagai, Takato Horii

随着图像、视频和音乐生成式AI的日益普及，我们见证了模型在质量和性能上得到了快速提升。然而，人们并没有过多关注如何提升AI的“创造力”。在本研究中，我们利用大型语言模型（LLM）和文本提示，通过虚拟代理实现了并模拟了创造力系统模型（由Csikszentmihalyi提出）。为了进行比较，模拟实验分别在“虚拟艺术家”处于1）孤立状态和2）多智能体系统中两种情况下进行。通过分析生成的制品（通过用户研究和LLM进行测量）的变化和整体“创造力”，比较了这两种场景。我们的结果表明，生成式智能体在创造力系统模型框架下可能表现更好。

发布时间: 11/27/2024

查看原文

基于双层优化的图结构学习

作者: Nan Yin

目前，大多数图结构学习 (GSL) 方法作为学习图结构的一种手段，仅仅从局部视角出发，通过考虑与每条边相关的局部信息，并对所有边不加区分地应用机制来提高 GNN 的鲁棒性，这可能会受到图的局部结构异质性（即节点间类别连接分布不均）的影响。为了克服这些缺点，我们提取图结构作为可学习参数，并从全局视角联合学习 GNN 的结构和公共参数。令人兴奋的是，公共参数包含节点特征映射的全局信息，这对于结构优化也至关重要（即结构优化依赖于全局映射信息）。在数学上，我们应用一个通用的结构提取器来抽象图结构，并将 GNN 转化为学习结构和公共参数的形式。然后，我们将学习过程建模为一种新颖的双层优化，即 *基于双层优化的通用结构提取图结构学习 (GSEBO)*，该方法在上层优化 GNN 参数以获得全局映射信息，并在下层利用从上层学习到的全局信息优化图结构。我们将提出的 GSEBO 应用于经典 GNN，并将其与最先进的 GSL 方法进行比较。大量的实验验证了所提出的 GSEBO 在四个真实世界数据集上的有效性。

发布时间: 11/27/2024

查看原文

威胁建模-LLM：利用大型语言模型自动化银行系统威胁建模

作者: Shuiqiao Yang, Tingmin Wu, Shigang Liu, David Nguyen, Seung Jang, Alsharif Abuadbba

威胁建模是网络安全的重要组成部分，尤其是在银行等金融数据安全至关重要的行业。传统的威胁建模方法需要专家介入和大量人工操作，常常导致效率低下和人为错误。大型语言模型 (LLM) 的出现为自动化这些流程、提高效率和效力提供了一条有前景的途径。然而，这种转变并非易事，主要面临三大挑战：(1) 缺乏公开可用的特定领域数据集；(2) 需要定制化模型来处理复杂的银行系统架构；(3) 需要符合 NIST 800-53 等合规标准的实时自适应缓解策略。本文介绍了 ThreatModeling-LLM，这是一个新颖且适应性强的框架，它使用 LLM 自动化银行系统的威胁建模。ThreatModeling-LLM 分三个阶段运行：1) 数据集创建，2) 提示工程和 3) 模型微调。我们首先使用 Microsoft Threat Modeling Tool (TMT) 生成基准数据集。然后，我们在预训练的 LLM 上应用思维链 (CoT) 和通过提示优化 (OPRO) 来优化初始提示。最后，我们基于基准数据集和优化的提示，使用低秩自适应 (LoRA) 对 LLM 进行微调，以提高预训练 LLM 的威胁识别和缓解策略生成能力。

发布时间: 11/27/2024

查看原文

Free$^2$Guide：基于无梯度路径积分控制的增强型大视觉语言模型文本到视频生成方法

作者: Jaemin Kim, Bryan S Kim, Jong Chul Ye

扩散模型在文本到图像 (T2I) 和文本到视频 (T2V) 合成等生成任务中取得了令人瞩目的成果。然而，由于帧间的复杂时间依赖性，在 T2V 生成中实现精确的文本对齐仍然具有挑战性。现有的基于强化学习 (RL) 的方法虽然可以增强文本对齐，但往往需要可微分的奖励函数或仅限于有限的提示词，从而限制了其可扩展性和适用性。在本文中，我们提出了一种新颖的无梯度框架 Free$^2$Guide，该框架无需额外的模型训练即可将生成的视频与文本提示词对齐。利用路径积分控制的原理，Free$^2$Guide 使用不可微分的奖励函数来逼近扩散模型的引导，从而能够将强大的黑盒大型视觉语言模型 (LVLMs) 集成作为奖励模型。此外，我们的框架支持灵活地集成多个奖励模型，包括大规模基于图像的模型，以协同增强对齐，而不会产生大量的计算开销。我们证明了 Free$^2$Guide 显著改善了各个维度的文本对齐，并提高了生成视频的整体质量。

发布时间: 11/27/2024

查看原文

g3D-LF：用于具身任务的通用三维语言特征场

作者: Zihan Wang, Gim Hee Lee

我们提出了一种可泛化的三维语言特征场（g3D-LF），这是一种在大型三维语言数据集上预训练的三维表示模型，用于具身任务。我们的g3D-LF处理来自智能体的姿态RGB-D图像，以编码用于以下方面的特征场：1）从三维场景中的任何位置预测新颖的视图表示；2）生成以智能体为中心的BEV地图；3）使用上述表示中的多粒度语言查询目标。我们的表示可以泛化到未见过的环境，从而实现实时构建和动态更新。通过沿采样光线体绘制潜在特征，并通过多尺度编码器整合语义和空间关系，我们的g3D-LF通过多层次对比学习生成不同尺度和视角的表示，与多粒度语言对齐。此外，我们准备了一个大型三维语言数据集，以使特征场的表示与语言对齐。在全景和单目设置下的视觉和语言导航、零样本目标导航和情境问答任务上的大量实验，突出了我们的g3D-LF对于具身任务的显著优势和有效性。

发布时间: 11/27/2024

查看原文

一棵树能胜过整片森林吗？

作者: Qiangqiang Mao, Yankai Cao

普遍认为，单个决策树的测试精度不如经典的随机森林，尽管它在可解释性和轻量级结构方面具有优势。本研究通过我们基于梯度的整个树优化框架显著提高了斜回归树的测试精度，使其性能与经典的随机森林相当。我们的方法将树训练重新定义为一个可微分的无约束优化任务，采用了一种缩放的 sigmoid 近似策略。为了改善数值不稳定性，我们提出了一种算法方案，该方案求解一系列越来越精确的近似值。此外，还实施了一种子树优化策略，以减少在树中累积的近似误差。在 16 个数据集上的大量实验表明，我们优化的树在测试精度方面平均提高了 2.03%。

发布时间: 11/27/2024

查看原文

SatVision-TOA：一种用于粗分辨率全天空遥感影像的地理空间基础模型

作者: Caleb S. Spradlin, Jordan A. Caraballo-Vega, Jian Li, Mark L. Carroll, Jie Gong, Paul M. Montesano

基础模型有潜力通过使大型计算机视觉模型能够在大规模遥感数据上进行预训练来改变遥感数据分析的格局。这些模型随后可以用少量标记的训练数据进行微调，并应用于各种应用。大多数现有的基础模型都是针对高空间分辨率、无云卫星图像或照片设计的，这限制了它们在需要频繁时间监测或广泛光谱特征的场景中的适用性。因此，仅在无云图像上训练的基础模型对于涉及大气变量或需要大气校正的应用来说效用有限。我们引入了SatVision-TOA，这是一个在14波段MODIS L1B大气顶部（TOA）辐射图像上进行预训练的新型基础模型，它满足了对处理中等和粗分辨率全天候遥感数据的预训练模型的需求。SatVision-TOA模型使用掩码图像建模（MIM）框架和SwinV2架构进行预训练，并通过自监督学习学习详细的上下文表示，而无需标签。这是一个拥有30亿个参数的模型，在1亿张图像上进行训练。据我们所知，这是仅在卫星遥感图像上训练的最大的基础模型。结果表明，SatVision-TOA在3D云检索等下游任务上的性能优于基线方法。值得注意的是，该模型的平均交并比（mIOU）达到0.46，比基线mIOU 0.22有了实质性的提高。此外，与基线相比，微调任务中假阴性结果的比率降低了50%以上。我们的工作通过学习各种大气和气溶胶条件来改进云和地表监测，从而推动了多光谱遥感预训练视觉建模的发展。

发布时间: 11/27/2024

查看原文

教小型语言模型泛化到未见过的组合式问题（全文）

作者: Tim Hartill

预训练大型语言模型 (LLM) 能够回答在训练过程中不太可能遇到的问题。然而，在推理系统这一广泛领域中存在着各种潜在的应用，并且诸如延迟、成本、可用计算资源和互联网连接等因素与确定合适的方法相关。我们考虑在推理时可利用一些本地计算能力但没有互联网连接的场景。类似于通用 LLM，我们假设我们更小的推理模型可能会被问及来自未知分布的任意问题，因此我们专注于在未见过的场景中进行评估。我们通过灌输在检索到的上下文上进行推理的能力来训练我们的模型以回答各种问题。我们从两个知识来源获取上下文：使用具有新颖扩展的多跳密集检索系统查询的维基百科语料库，以及从针对在低资源环境中运行进行了优化的更大语言模型生成的理由。我们的主要贡献：我们提出了新颖的方法来证明我们的模型能够在不进行记忆的情况下回答情境化问题。我们在未见过的评估数据集上建立了一套全面的基线结果。我们表明，在推理模型的训练方案中添加新颖的检索增强训练数据集 (RATD) 会显著改善结果。我们通过应用结合来自两个来源的知识的方法进一步证明了显著的改进。第一种方法 (RR) 涉及训练一个新颖的理由排序模型，以根据相关性和真实性对生成的理由和检索到的上下文进行评分。我们使用这些分数来导出组合上下文。我们还表明，利用 RATD 数据集使我们的模型能够熟练地利用组合的噪声上下文。

发布时间: 11/27/2024

查看原文

ExpTest：基于线性化神经网络洞见的自动学习率搜索与调整

作者: Zan Chaudhry, Naoko Mizuno

深度神经网络（DNN）的训练中，超参数调整仍然是一个重大挑战，需要手动和/或耗时的网格搜索，从而增加了资源成本，并阻碍了机器学习的普及。DNN训练的全局初始学习率尤其重要。虽然已经提出了一些用于在训练过程中自动调整学习率的技术，但它们仍然需要手动搜索全局初始学习率。尽管存在一些不需要此初始选择的方法，但它们的性能较差。在这里，我们提出ExpTest，这是一种用于DNN训练的初始学习率搜索和后续学习率调整的复杂方法。ExpTest借鉴了线性化神经网络和损失曲线形式的见解，我们将损失曲线视为一个实时信号，在其上进行假设检验。我们从数学上论证了ExpTest，并提供了经验证据。ExpTest所需的额外开销极少，对超参数的选择具有鲁棒性，并且在各种任务和架构上实现了最先进的性能，无需初始学习率选择或学习率调度。

发布时间: 11/27/2024

查看原文