arXiv 论文列表

作者: Yassine Machta, Omar Ali, Kevin Hakkakian, Ana Vlascenau, Amaury Facque, Nicolas Golse, Irene Vignon-Clementel

肝癌患者的手术评估需要从医学影像中识别血管树。具体而言，门静脉（灌注）树和肝静脉（引流）树对于理解肝脏解剖结构和疾病状态以及进行手术计划至关重要。本研究旨在通过创建基于深度学习和图像处理技术的自动化流程来改进血管树的 3D 分割、骨架化和后续分析。这项工作的第一部分探讨了可微骨架化方法（如 ClDice 和形态骨架化损失）对整体肝血管分割性能的影响。为此，它研究了如何改善血管树的连通性。本研究的第二部分将单类血管分割转换为多类分割，从而分离两棵静脉树。它建立在之前的两类血管分割模型的基础上，该模型的血管树输出可能纠缠在一起，并建立在树的连通分量和骨架分析的基础上。在对每棵静脉树的特定解剖分支进行子标记后，这些算法还可以通过提取各种几何标记来实现血管树的形态学分析。总之，我们提出了一种方法，成功地改进了当前的骨架化方法，用于包含不同口径血管的广泛血管树。分离算法创建了经过外科医生验证的、具有低误差的清晰的多类血管分割。因此，创建了一个新的、公开共享的高质量肝血管数据集，包含 77 个病例。最后，提供了一种根据解剖结构注释血管树的方法，从而实现了独特的肝血管形态测量分析。

发布时间: 11/26/2024

查看原文

超越数据稀缺：一种基于频率驱动的零样本预测框架

作者: Liran Nochumsohn, Michal Moshkovitz, Orly Avner, Dotan Di Castro, Omri Azencot

时间序列预测在许多现实世界应用中至关重要，需要根据观察到的模式准确预测未来的值。虽然传统的预测技术在数据充足的领域内场景中效果良好，但在数据稀缺或根本不可用时却难以奏效，这促使了零样本和少样本学习环境的出现。最近的进展经常利用大型基础模型来完成此类任务，但这些方法需要大量的数据和计算资源，其性能可能会因无法有效地从可用训练集中学习而受到影响。这就提出了一个根本性的问题：哪些因素会影响时间序列预测中从数据中有效学习？为了解决这个问题，我们建议使用傅里叶分析来研究模型如何从合成和现实世界的时间序列数据中学习。我们的研究结果表明，预测模型通常难以有效学习包含多个频率的数据，并且难以泛化到未见过的频率，这阻碍了它们的预测性能。为了缓解这些问题，我们提出了一种新颖的合成数据生成框架，旨在增强真实数据或通过创建特定于任务的频率信息来完全替换真实数据，只需目标数据的采样率即可。我们的方法 Freq-Synth 提高了基础模型和非基础模型在零样本和少样本设置下的鲁棒性，促进了在数据有限的情况下更可靠的时间序列预测。

发布时间: 11/26/2024

查看原文

PEnG：姿态增强型地理定位

作者: Tavis Shore, Oscar Mendez, Simon Hadfield

跨视角地理定位通常以较粗的粒度进行，因为密集采样的卫星图像块重叠严重，这使得图像块的消歧非常具有挑战性。然而，先前的工作通过选择稀疏采样的图像块，人为地限制了定位精度。即使是完美的预言系统，其精度也不能超过瓦片平均间距。为了解决这一限制，我们提出将跨视角地理定位和相对位姿估计相结合，以提高精度，使其达到实际应用的水平。我们开发了PEnG，这是一个两阶段系统，首先预测查询图像所在的城市规模图表示中最可能的边缘，然后在这些边缘内进行相对位姿估计以确定精确位置。PEnG是首个利用跨视角地理定位数据集中两种视角来提高精度至亚米级（一些例子达到厘米级精度）的技术。我们提出的集成方法实现了最先进的精度——相较于先前工作，Top-5米检索的相对改进率达到213%。在使用90度水平视场图像进行评估时，中位欧氏距离误差从之前的734米减少到22.77米，下降了96.90%。代码将公开发布：tavisshore.co.uk/PEnG

发布时间: 11/26/2024

查看原文

LTCF-Net：一种用于低光图像恢复的增强型双通道傅里叶变换框架

作者: Gaojing Zhang, Jinglun Feng

我们提出了一种用于增强低光照图像的新型网络架构LTCF-Net。与基于Retinex的方法不同，我们的方法利用LAB和YUV两种色彩空间来有效地分离和处理颜色信息，利用彩色图像中亮度与色度成分的分离。此外，我们的模型结合了Transformer架构，以全面理解图像内容，同时保持计算效率。为了动态平衡输出图像的亮度，我们还引入了一个傅里叶变换模块，用于在频域调整亮度通道。这种机制可以均匀地平衡不同区域的亮度，同时消除背景噪声，从而增强视觉质量。通过结合这些创新组件，LTCF-Net有效地提高了低光照图像质量，同时保持模型轻量级。实验结果表明，我们的方法在多个评估指标和数据集上优于现有的最先进方法，实现了更自然的颜色恢复和均衡的亮度分布。

发布时间: 11/26/2024

查看原文

融合至关重要：深度点击率预测模型中的融合学习

作者: Kexin Zhang, Fuyuan Lyu, Xing Tang, Dugang Liu, Chen Ma, Kaize Ding, Xiuqiang He, Xue Liu

以往点击率 (CTR) 模型的演进主要集中于提出复杂的组件（浅层或深层）来建模特征交互。然而，人们较少关注融合设计本身的改进。相反，常用的方法是两种简单的融合方案：堆叠式和并行式融合。这两种方案都依赖于预先确定的融合连接和固定的融合操作。反复观察表明，融合设计的变化可能会导致性能差异，这突显了融合在 CTR 模型中起到的关键作用。虽然已有一些尝试来改进这些基本的融合策略，但这些努力往往局限于特定的设置或依赖于特定的组件。神经架构搜索也被引入来部分解决融合设计问题，但它也存在局限性。搜索空间的复杂性可能导致低效且无效的结果。为了弥合这一差距，我们引入了 OptFusion，这是一种自动化学习融合的方法，它包含连接学习和操作选择。我们提出了一种一举解决这些任务的单次学习算法。我们在三个大型数据集上进行了实验。大量的实验结果证明了 OptFusion 在提高 CTR 模型性能方面的有效性和效率。我们的代码实现可在此处获取\url{https://github.com/kexin-kxzhang/OptFusion}。

发布时间: 11/26/2024

查看原文

基于人工智能生成图像的教育应用：学生接受度、信任度和态度研究

作者: Aung Pyae

近年来人工智能（AI）的进步扩展了AI生成图像在各个领域的应用，包括创意产业和设计领域。然而，它们在教育环境中的应用，尤其是在计算机科学和软件工程专业的本科生中，仍然未被充分探索。本研究采用探索性方法，运用问卷调查和访谈，评估学生对AI生成图像用于演示文稿、报告和网页设计等教育任务的接受度、信任度和积极态度。结果显示，学生对AI生成图像的接受度、信任度和积极态度很高，他们重视其易用性和潜在的学术益处。然而，对AI未能根据提示准确生成图像的技术精度不足的担忧，中等程度地影响了其在注重细节的教育任务中的实际应用。这些发现表明，需要制定全面的指导方针，以解决伦理问题和知识产权问题，同时为AI生成图像设定质量标准，以增强其在教育中的使用。增强AI工具的能力以满足精确的用户规范，可以培养创造力并改善技术学科的教育成果。

发布时间: 11/26/2024

查看原文

Nimbus：用于Transformer的安全高效两方推理

作者: Zhengyi Li, Kang Yang, Jin Tan, Wen-jie Lu, Haoqi Wu, Xiao Wang, Yu Yu, Derun Zhao, Yancheng Zheng, Minyi Guo, Jingwen Leng

Transformer模型因其在机器学习任务中的强大能力而备受关注。其广泛部署引发了人们对推理过程中敏感信息泄露的担忧。然而，当应用于Transformer时，现有的基于安全两方计算（2PC）的方法存在两方面的效率限制：（1）线性层中资源密集型矩阵乘法，以及（2）复杂的非线性激活函数，如$\mathsf{GELU}$和$\mathsf{Softmax}$。这项工作提出了一种新的用于Transformer模型的两方推理框架$\mathsf{Nimbus}$。对于线性层，我们提出了一种新的2PC范式以及一种基于外积思想的安全计算矩阵乘法的编码方法，与最先进（SOTA）协议相比，其性能提高了$2.9\times \sim 12.5\times$。对于非线性层，通过对利用输入分布的新观察，我们提出了一种用于$\mathsf{GELU}$和$\mathsf{Softmax}$的低阶多项式逼近方法，其性能比SOTA多项式逼近提高了$2.9\times \sim 4.0\times$，而我们的方法与没有隐私保护的非2PC推理相比，平均精度损失为0.08%。与最先进的两方推理相比，$\mathsf{Nimbus}$将\bert{}推理的端到端性能提高了$2.7\times \sim 4.7\times$（跨不同的网络设置）。

发布时间: 11/26/2024

查看原文

RAMIE：基于大型语言模型的检索增强型多任务膳食补充剂信息提取

作者: Zaifu Zhan, Shuang Zhou, Mingchen Li, Rui Zhang

目标：我们旨在开发一个先进的多任务大型语言模型 (LLM) 框架，用于从临床记录中提取多种类型的膳食补充剂 (DS) 信息。方法：我们使用了四个核心 DS 信息提取任务作为我们的多任务：命名实体识别 (NER：2949 个临床句子)、关系提取 (RE：4892 个句子)、三元组提取 (TE：2949 个句子) 和使用分类 (UC：2460 个句子)。我们引入了一种新颖的检索增强型多任务信息提取 (RAMIE) 框架，包括：1) 使用特定于任务的提示进行指令微调技术；2) 训练具有改进的存储效率和更低训练成本的多任务 LLM；3) 通过从训练集中检索类似的示例来整合检索增强生成 (RAG) 技术。我们将 RAMIE 的性能与仅进行指令微调的 LLM 进行了比较，并进行了消融研究以评估多任务学习和 RAG 对改进多任务性能的贡献。结果：借助 RAMIE 框架，Llama2-13B 在 NER 任务上实现了 87.39 的 F1 分数（提高了 3.51%），并在 RE 任务上表现出色，F1 分数为 93.74（提高了 1.15%）。对于 TE 任务，Llama2-7B 得分 79.45（提高了 14.26%），而 MedAlpaca-7B 在 UC 任务上取得了最高的 F1 分数 93.45（提高了 0.94%）。消融研究表明，虽然 MTL 提高了效率，但性能略有下降，但 RAG 显着提高了整体准确性。结论：本研究提出了一种新颖的 RAMIE 框架，该框架在从临床记录中提取与 DS 相关的多任务信息方面取得了实质性改进。我们的框架可以潜在地应用于其他领域。

发布时间: 11/26/2024

查看原文

状态空间大型音频语言模型

作者: Saurabhchand Bhati, Yuan Gong, Leonid Karlinsky, Hilde Kuehne, Rogerio Feris, James Glass

大型音频语言模型 (LALM) 结合了音频感知模型和大型语言模型 (LLM)，展现出对输入音频进行推理、推断含义和理解意图的显著能力。然而，这些系统依赖于 Transformer，其计算复杂度随输入序列长度二次增长，这在内存和时间受限的场景中部署这些系统时带来了计算挑战。最近，状态空间模型 (SSM) 已成为 Transformer 网络的替代方案。虽然已成功尝试用状态空间模型替换基于 Transformer 的音频感知模型，但基于状态空间的 LALM 仍未得到探索。首先，我们尝试替换基于 Transformer 的音频感知模块，然后替换基于 Transformer 的 LLM，并提出了第一个基于状态空间的 LALM。实验结果表明，基于状态空间的 LALM 尽管参数数量明显减少，但在各种数据集上的封闭式任务中，其性能与基于 Transformer 的 LALM 相当。

发布时间: 11/26/2024

查看原文

用于多步提前时间序列预测的分位数深度学习模型

作者: Jimmy Cheung, Smruthi Rangarajan, Amelia Maddocks, Xizhe Chen, Rohitash Chandra

不确定性量化在时间序列预测中至关重要，分位数回归提供了一种有价值的不确定性量化机制，可用于极值预测。尽管深度学习模型在多步预测中占据主导地位，但分位数深度学习模型的开发和评估仍然有限。我们提出了一种用于多步时间序列预测的新型分位数回归深度学习框架。通过这种方式，我们通过结合分位数回归来提升深度学习模型的能力，从而提供对预测值的更细致的理解。我们提供了用于多步超前时间序列预测的突出深度学习模型的实现，并在高波动性和极端条件下评估其性能。我们包括多元和单变量建模策略，并与文献中的传统深度学习模型进行比较。我们的模型在两种加密货币（比特币和以太坊）上进行了测试，使用了每日收盘价数据和选定的基准时间序列数据集。结果表明，与文献中的方法相比，将分位数损失函数与深度学习相结合，可以在不损失预测精度的情况下，为选定的分位数提供额外的预测。与传统的深度学习模型相比，我们的分位数模型能够更有效地处理波动性，并通过使用分位数为决策和不确定性量化提供更多信息。

发布时间: 11/26/2024

查看原文