arXiv 论文列表

多视角超声心动图解释的Video CLIP模型

作者: Ryo Takizawa, Satoshi Kodera, Tempei Kabayama, Ryo Matsuoka, Yuta Ando, Yuto Nakamura, Haruki Settai, Norihiko Takeda

arXiv:2504.18800v1 交叉公告类型摘要：心脏超声涉及使用超声波记录心脏的视频，使临床医生能够评估其状况。近年来，大规模的视觉语言模型（VLMs）因能够自动化心脏超声视频的解释而引起了关注。然而，迄今为止，用于医疗解释的大多数现有的VLMs主要依赖于单帧（即图像）输入。因此，这些基于图像的模型在通过心脏运动识别的情况诊断准确性方面较低。此外，心脏超声视频是从不同的视角录制的，这些视角依赖于超声波的发射方向，某些视角对于解释特定状况更为合适。整合多种视角可能进一步提高准确性。在此研究中，我们开发了一种视频语言模型，该模型以五种不同的视角和完整的视频序列作为输入，并在来自60,747个病例的配对心脏超声视频和临床报告上进行了训练。我们的实验表明，这种方法在解释准确性方面优于仅使用单视角视频或静态图像进行训练的模型。

发布时间: 4/29/2025

查看原文

物联网僵尸网络检测：视觉变换器在网络流 traffi 分类中的应用

作者: Hassan Wasswa, Timothy Lynar, Aziida Nanyonga, Hussein Abbass

arXiv:2504.18781v1 计算机视觉：交叉摘要：尽管 transformer 模型在自然语言处理、图像分类和视频分类方面已被证明是有效的，但是现有的用于从捕获的物联网网络流数据包中提取特征的工具未能捕捉到序贯模式，从而限制了 transformer 模型的应用。本工作提出了一种新的预处理方法，以适应 transformer 模型，尤其是用于使用网络流数据包检测物联网恶意软件攻击的视觉 transformer (ViT)。该方法涉及从 .pcap 文件中提取特征，并将每个实例转换为单通道二维图像形状，从而使得基于 ViT 的分类成为可能。此外，ViT 模型得以增强，以便除了初始 ViT 论文中的多层感知机 (MLP) 之外，还可以使用任何分类器。包括传统前馈深度神经网络 (DNN)、长短期记忆 (LSTM) 和双向长期短期记忆 (BLSTM) 的模型，在两个物联网攻击数据集上进行评估时，在多分类攻击检测方面展示了竞争力的性能，具体表现在精确率、召回率和 F1 分数方面。

发布时间: 4/29/2025

查看原文

PyViT-FUSE：多传感器地球观测数据的基础模型

作者: Manuel Weber, Carly Beneke

arXiv:2504.18770v1 交叉公告类型：基础模型摘要：我们提出了一种名为PyViT-FUSE的基础模型，这是一种专门为处理多模态影像而设计的模型，通过注意力机制学习将任意数量的混合分辨率输入波段融合为单个表示。学习到的 patch 嵌入进一步通过具有新颖分层结构的视觉变换器堆栈进行处理。我们采用一种自监督方式在采样的全球数据集上训练该模型，利用SwAV算法的核心概念。通过可视化注意力分数，我们展示了融合机制的可解释性，并展示了该模型在下游任务中的适用性。

发布时间: 4/29/2025

查看原文

动态动作插值：一种借助专家指导加速 reinforcement learning 的通用方法

作者: Wenjun Cao

arXiv:2504.18766v1 标题类型: cross 摘要: 强化学习（RL）遭受严重的样本效率低下问题，尤其是在早期训练阶段，需要大量的环境交互才能表现出色。现有的方法通常通过引入先验知识来解决这个问题，但这种方法增加了架构和实现上的复杂性。我们提出了一种动态动作插值（Dynamic Action Interpolation，DAI）方法，这是一种通用且简单的框架，通过时间变化的权重α(t)来插值专家和RL的动作，仅通过几行代码将其集成到任何Actor-Critic算法中，无需辅助网络或额外损失函数。我们的理论分析表明，DAI重塑了状态访问分布，以加速价值函数的学习，同时保持收敛性保证。在MuJoCo连续控制任务上的实证评估表明，DAI在早期阶段的性能平均提高了160%以上，在最终性能上提高了超过50%，其中Humanoid任务在早期阶段的性能提高了4倍，在收敛时的性能提高了2倍。这些结果挑战了复杂架构修改是实现样本高效强化学习所必需的观点。

发布时间: 4/29/2025

查看原文

TLoRA: 大语言模型的三矩阵低秩适应

作者: Tanvir Islam

arXiv:2504.18735v1 交叉公告类型摘要：我们提出了一种名为 TLoRA 的新颖三维低秩适应方法，将权重更新分解为三个矩阵：两个固定的随机矩阵和一个可训练矩阵，并结合了一个可学习的、逐层的缩放因子。这种三维矩阵设计使得 TLoRA 能够在引入最少额外计算开销的情况下实现高效的参数适应。通过在 GLUE 基准上的广泛实验，我们展示了 TLoRA 在性能上与现有的低秩方法（如 LoRA 和 Adapter 基础技术）相当，同时需要显著减少的可训练参数数量。通过对适应动态的分析，我们观察到 TLoRA 具有类似于高斯分布的权重分布、稳定的参数范数以及各层间的缩放因子变化性，进一步突显了其表达能力和适应性。此外，我们还表明，TLoRA 在特征值分布、参数范数和更新的余弦相似度方面与 LoRA 的相似性较高，这进一步证明了其有效地近似 LoRA 的适应行为的能力。我们的结果确立了 TLoRA 作为大语言模型高效且有效的微调方法的地位，并为资源高效模型适应提供了重要的一步。

发布时间: 4/29/2025

查看原文

世界食物图谱项目

作者: Ali Rostami, Z Xie, A Ishino, Y Yamakata, K Aizawa, Ramesh Jain

arXiv:2504.18727v1 交叉公告类型：摘要：冠状病毒 pandemic 引发了一场全球性的居家生活。在几乎不出门的生活方式下，我们意识到我们吃的食物是如何影响我们的身体的。我们能做些什么来更好地了解我们的食物并控制它？为了给我们提供一些线索，我们正在尝试构建一个全球食物图谱（WFA），以收集全球所有关于食物的知识。在本文中，我们介绍了我们尝试的两个案例。第一个是食物知识图谱（FKG），这是一个从食谱和食物营养数据中提取的食物及其成分关系的图形表示。第二个是FoodLog Athl和RecipeLog，它们是用于收集人们关于饮食习惯详细记录的应用程序。我们还讨论了通过整合这两个想法来构建WFA时遇到的一些问题。

发布时间: 4/29/2025

查看原文

多目标方向性提示

作者: Aashutosh Nema, Samaksh Gulati, Evangelos Giakoumakis, Bipana Thapaliya

arXiv:2504.18722v1 建议类型: cross 摘要：大型语言模型（LLMs）的 recent 进展已经在多个应用场景中引起了它们的流行。然而，prompt 工程，用于优化利用这些模型的过程，仍然基于近似和主观方法。目前关于 prompt 工程的研究大多集中在任务特定的优化上，而忽视了在 prompt 开发过程中考虑所关注的 LLM 的行为。本文介绍了 MODP —— 多目标导向 prompt（Multi Objective Directional Prompting），这是一个基于两个关键概念的框架：1）多目标性：考虑 LLM 内在行为作为 prompt 开发中额外目标的重要性，2）导向 prompt：一种基于度量的方法，用于 prompt 工程，以确保开发出稳健和高精度的 prompt。我们使用合成创建的数据集在总结任务上证明了我们提出的想法的有效性，相对于初始 prompt 实现了 26% 的性能提升。最后，我们将 MODP 应用于开发 Dell 下一步最佳行动支持工具的 prompt，该工具现在处于生产状态，并被全球超过 10,000 名内部支持人员使用，服务于数百万客户。

发布时间: 4/29/2025

查看原文

非分离数据的显式神经网络分类器

作者: Patr\'icia Mu\~noz Ewald

arXiv:2504.18710v1 宣告类型: cross 摘要: 我们通过截断映射全面-characterize 一类前馈神经网络。作为应用，我们展示了如何使用 ReLU 神经网络实现一个特征映射，该映射能够区分同心数据。

发布时间: 4/29/2025

查看原文

使用大型语言模型维护税务准备软件的技术挑战

作者: Sina Gogani-Khiabani, Varsha Dewangan, Nina Olson, Ashutosh Trivedi, Saeid Tizpaz-Niari

arXiv:2504.18693v1 宣布类型：交叉摘要：随着美国税法为了适应不断变化的政治和经济现实而演变，税务准备软件在帮助纳税人应对这些复杂性方面发挥着重要作用。税法规则的动态性给准确及时维护税务软件带来了重大挑战。目前在维护税务准备软件方面的尖端技术耗费时间且容易出错，因为它涉及到结合专家对税法修正案的解释进行手动代码分析。我们认为，联邦税务局（IRS）出版物中税法修正案语言的严谨性和形式性，使这些修正案易于自动翻译为可执行规范（代码）。我们研究工作的重点在于识别、理解和解决利用大型语言模型（LLMs），如ChatGPT和Llama，从IRS出版物中忠实提取代码差异并自动与之前的代码版本集成以自动化税务准备软件维护的技术挑战。

发布时间: 4/29/2025

查看原文

从指令到命题：一种基于逻辑的视角看学生与大型语言模型的交互

作者: Ali Alfageeh, Sadegh AlMahdi Kazemi Zarkouei, Daye Nam, Daniel Prol, Matin Amoozadeh, Souti Chattopadhyay, James Prather, Paul Denny, Juho Leinonen, Michael Hilton, Sruti Srinivasa Ragavan, Mohammad Amin Alipour

arXiv:2504.18691v1 类别: cross 摘要：背景与研究环境。随着大规模语言模型（LLMs）在计算机教育中的整合，理解学生如何使用LLMs并构建提示以解决计算任务变得越来越具有挑战性。此前的研究采用了定性和定量的方法来分析提示行为，但这些方法缺乏可扩展性或无法有效捕捉提示的语义演化。目标。在本文中，我们研究是否可以系统地使用命题逻辑约束来分析学生提示。我们分析这种方法能否识别提示演化中的模式，检测表现不佳的学生，并提供有效和无效策略的见解。方法。我们引入了Prompt2Constraints，这是一种新颖的方法，将学生的提示转化为逻辑约束。这些约束能够以简洁且可量化的方式来表示提示的意图。我们使用这种方法分析了203名学生解决入门级编程任务时产生的1,872个提示的数据集。发现。我们发现，尽管成功和不成功的尝试总体上使用了相似数量的约束，但在学生失败时，他们往往会更显著地修改提示，中途改变解决问题的策略。我们还确定了可以对学生最有帮助的具体干预点，用于细化他们的提示。意义。这项工作提供了一种新的和可扩展的方式来检测在解决自然语言编程任务中遇到困难的学生。这项工作可以扩展以研究更复杂的任务，并融入编程工具以提供实时支持。

发布时间: 4/29/2025

查看原文