arXiv 论文列表

作者: Jef Jonkers, Luc Duchateau, Glenn Van Wallendael, Sofie Van Hoecke

arXiv:2501.10098v2 更新类型: 替换-交叉摘要：2D/3D 图像中的解剖标志定位是医学成像中的一个关键任务。尽管在经典计算机视觉任务中存在许多通用工具，如姿态估计，但这些工具缺乏医学领域中解剖标志定位应用所需的专业特性和模块化特性。因此，我们引入了 landmarker，一个基于 PyTorch 的 Python 包。该包提供了全面且灵活的工具包，用于开发和评估解剖标志定位算法，支持多种方法，包括静态和自适应热图回归。landmarker 提高了标志点识别的准确性，简化了研究和开发过程，并支持各种图像格式和预处理管道。其模块化设计允许用户根据特定的数据集和应用自定义和扩展该工具包，加速医学成像领域的创新。landmarker 满足了解剖标志定位任务在现有通用姿态估计工具中无法充分满足的精准性和自定义需求。

发布时间: 5/6/2025

查看原文

CryptoMamba：利用状态空间模型进行准确的比特币价格预测

作者: Mohammad Shahab Sepehri, Asal Mehradfar, Mahdi Soltanolkotabi, Salman Avestimehr

arXiv:2501.01010v2 消息类型: replace-cross 摘要：预测比特币价格仍然是一个具有挑战性的问题，这归因于加密货币市场的高波动性和复杂非线性动态。传统的时序模型，如ARIMA和GARCH，以及如LSTMs的循环神经网络，在此任务上得到了广泛应用，但难以捕捉数据中固有的制度转换和长期依赖关系。在本文中，我们提出了一种名为CryptoMamba的新型Mamba基础上的状态空间模型（SSM）架构，专门设计用于有效捕捉金融时序数据中的长期依赖关系。我们的实验表明，CryptoMamba不仅提供了更准确的预测，还增强了在不同市场条件下的泛化能力，超越了之前模型的限制。与适用于实际场景的交易算法结合，CryptoMamba通过将准确的预测转化为财务结果展示了其实用性。我们的研究结果表明，SSM在股票和加密货币价格预测任务中具有巨大优势。

发布时间: 5/6/2025

查看原文

ELECTRA 和 GPT-4o：低成本的情感分析合作伙伴

作者: James P. Beno

arXiv:2501.00062v2 通告类型: replace-cross 摘要：双向变压器在情感分析方面表现出色，而大型语言模型（LLM）是有效的零样本学习者。它们作为团队可能表现得更好吗？本文探索了ELECTRA和GPT-4o在三分类情感分类方面的协作方法。我们使用斯坦福情感树库（SST）和DynaSent中的混合评论对四个模型（ELECTRA Base/Large、GPT-4o/4o-mini）进行了微调（FT）。我们将ELECTRA的输入提供给GPT，包括预测标签、概率以及检索的示例。向GPT-4o-mini共享ELECTRA Base FT预测显著提高了性能（宏F1得分为82.50，高于仅使用ELECTRA Base FT的79.14和仅使用GPT-4o-mini的79.41），并提供了最低的成本/性能比（每0.12美元/F1点）。然而，当GPT模型进行微调时，包括预测反而降低了性能。GPT-4o FT-M表现出色（得分为86.99），而GPT-4o-mini FT紧随其后（得分为86.70），成本更低得多（每0.38美元/F1点比每1.59美元/F1点）。我们的结果表明，与微调编码器预测一起增强提示是一种有效的方法，以提高性能，并且微调后的GPT-4o-mini在成本降低76%的情况下几乎与GPT-4o FT表现相当。两者都是资源有限项目的经济选择。

发布时间: 5/6/2025

查看原文

AD-LLM: 大型语言模型的异常检测基准测试

作者: Tiankai Yang, Yi Nian, Shawn Li, Ruiyao Xu, Yuangang Li, Jiaqi Li, Zhuo Xiao, Xiyang Hu, Ryan Rossi, Kaize Ding, Xia Hu, Yue Zhao

arXiv:2412.11142v2 宣告类型: 替换交叉摘要：异常检测（AD）是一项重要的机器学习任务，在许多实际应用中都有广泛的应用，包括欺诈检测、医疗诊断和工业监控。在自然语言处理（NLP）领域，AD有助于检测诸如垃圾邮件、虚假信息和异常用户活动等问题。尽管大规模语言模型（LLM）在文本生成和总结等任务中取得了显著影响，但其在AD中的潜力尚未得到充分研究。本文介绍了AD-LLM，这是第一个评估LLM如何帮助进行NLP异常检测的标准。我们研究了三个关键任务：（i）零样本检测，利用LLM预先训练的知识来进行AD，无需特定任务的训练；（ii）数据增强，生成合成数据和类别描述以提高AD模型的效果；以及（iii）模型选择，使用LLM建议无监督AD模型。通过使用不同数据集的实验发现，LLM在零样本AD中可以有效工作，精心设计的增强方法是有用的，而为特定数据集解释模型选择仍然具有挑战性。基于这些结果，我们提出了六项关于利用LLM进行AD的未来研究方向。

发布时间: 5/6/2025

查看原文

BrushEdit：一站式图像修补和编辑

作者: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Junhao Zhuang, Ying Shan, Yuexian Zou, Qiang Xu

arXiv:2412.10316v3 宣告类型: replace-cross 摘要：随着基于扩散模型的反转方法和指令驱动方法的发展，图像编辑取得了显著的进步。然而，当前的反转方法在处理大规模修改（如增加或删除对象）时存在困难，这主要是由于反转噪声的结构化性质，这使得实现重大变化变得困难。同时，基于指令的方法往往将用户限制在黑盒操作中，限制了直接与编辑区域和强度的交互。为了解决这些限制，我们提出了BrushEdit，一种新颖的基于补丁的指令引导图像编辑范式，该范式利用多模态大规模语言模型（MLLMs）和图像补丁模型，使自主、用户友好且交互式的自由形式指令编辑成为可能。具体而言，我们设计了一个系统，通过将MLLMs和双分支图像补贴模型集成到代理合作框架中，来进行编辑类别分类、主要对象识别、掩膜获取和编辑区域补片。广泛的实验表明，我们的框架有效地结合了MLLMs和补贴模型，在包括掩膜区域保真度和编辑效果一致性在内的七个指标中取得了出色的表现。

发布时间: 5/6/2025

查看原文

KG-Retriever：高效知识索引以增强检索的大语言模型

作者: Weijie Chen, Ting Bai, Jinbo Su, Jian Luan, Wei Liu, Chuan Shi

arXiv:2412.05547v2 通告类型: 替换-交叉摘要：检索增强生成的大语言模型在复杂的检索任务中遇到一个关键挑战，例如多跳问答，这需要模型在多个文档之间进行导航并基于片段信息生成全面的回答。为了解决这一挑战，我们引入了一种名为KG-Retriever的新颖知识图谱基于RAG框架，该框架配备了一个分层的知识检索器。KG-Retriever中的检索索引构建在一个分层索引图上，该图由知识图层和协作文档层组成。图结构的关联性得到了充分利用，以增强文档内部和文档之间的连接性，从而从根本上缓解信息碎片化问题，并同时提高LLMs在跨文档检索中的检索效率。借助邻近文档的粗粒度协作信息和知识图中简洁的信息，KG-Retriever在五个公开的问答数据集上取得了显著改进，展示了我们提出的RAG框架的有效性和效率。

发布时间: 5/6/2025

查看原文

自适应导向深度神经网络在电力流分析中的应用

作者: Zeynab Kaseb, Stavros Orfanoudakis, Pedro P. Vergara, Peter Palensky

arXiv:2412.02659v2 宣告类型: replace-cross 摘要：本研究介绍了PINN4PF，这是一种端到端的深度学习架构，用于电力潮流（PF）分析，能够有效捕捉大规模现代电力系统的非线性动态。所提出的神经网络（NN）架构在训练管道中包含两项重要的创新：(A) 一个与PF分析相匹配的双头前馈NN，其激活函数能调整至有功和无功功率注入模式，以及(B) 一个部分整合了电力系统拓扑信息的物理基础损失函数。通过4节点、15节点、290节点和2224节点的测试系统，证明了所提出的架构的有效性，并将其与两个基线进行比较：线性回归模型（LR）和黑盒NN（MLP）。比较基于以下几点：(i) 通用化能力，(ii) 稳健性，(iii) 训练数据集大小对通用化能力的影响，(iv) 在近似衍生的PF量（具体来说是线路电流、线路有功功率和线路无功功率）方面的准确性，以及(v) 可扩展性。结果表明，在所有测试系统中，PINN4PF在直接指标（如通用化能力）以及近似衍生物理量方面，相比于基线，性能提高了两个数量级。

发布时间: 5/6/2025

查看原文

LiDAR-EDIT：通过编辑真实场景中的对象布局生成LiDAR数据

作者: Shing-Hei Ho, Bao Thach, Minghan Zhu

arXiv:2412.00592v2 Announce Type: replace-cross 摘要：我们提出了LiDAR-EDIT，一种用于自动驾驶生成合成LiDAR数据的新范式。我们的框架通过引入新的物体布局来编辑真实世界的LiDAR扫描，同时保留背景环境的真实性。与从头开始生成LiDAR点云的端到端框架相比，LiDAR-EDIT为用户提供对物体布局的完全控制，包括物体的数量、类型和姿态，同时保留大部分原始的真实背景环境。我们的方法还为生成的数据提供了物体标签。与新颖的视图合成技术相比，我们的框架允许创建与原始真实世界场景有显著不同的物体布局的反事实场景。LiDAR-EDIT通过球形体素化在生成的点云中构造性地确保正确的LiDAR投影几何。在物体删除和插入过程中，使用生成模型来填补原始真实LiDAR扫描中未被观测到的背景和物体部分。实验结果表明，我们的框架生成了具有实际价值的真实主义LiDAR扫描，适用于下游任务。

发布时间: 5/6/2025

查看原文

AMO抽样器：通过过度绘制增强文本渲染

作者: Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei

arXiv:2411.19415v2 宣告类型: replace-cross 摘要：在文本到图像生成中实现文本指令与生成图像之间的精确对齐是一个重大挑战，特别是在图像中呈现书面文本方面。最先进的模型如Stable Diffusion 3 (SD3)、Flux和AuraFlow仍然在准确呈现文本方面存在困难，导致出现拼写错误或不一致的文本。我们介绍了一种无需训练且计算成本较低的方法，它可以显著提高文本渲染质量。具体来说，我们通过交替进行过拟合的学习常微分方程(ODE)模拟和重新引入噪声，引入了一种过拟合采样器，以预先训练的修正流(RF)模型为基础。与Euler采样器相比，过拟合采样器有效地引入了一个额外的朗格维恩动力学项，可以纠正连续Euler步骤中的累积误差，从而提高文本渲染质量。然而，当过拟合强度较高时，我们观察到生成图像中出现过度平滑的缺陷。为了解决这个问题，我们提出了一种注意机制调制的过拟合采样器(AMO)，它可以适应性地根据文本内容的注意力得分控制每个图像补丁的过拟合强度。在不损害整体图像质量和增加推理成本的情况下，AMO在SD3和Flux上的文本渲染准确性分别提高了32.3%和35.9%。代码可在以下链接获取：https://github.com/hxixixh/amo-release。

发布时间: 5/6/2025

查看原文

具有区域引导指示和grounding的CT报告生成大规模语言模型

作者: Zhixuan Chen, Yequan Bie, Haibo Jin, Hao Chen

arXiv:2411.15539v2 宣布类型: 替换交叉摘要：CT图像报告生成对于帮助放射科医生解读CT体积至关重要，但这一过程可能会非常耗时且劳动密集型。现有方法主要只考虑整个体积的全局特征，使其难以关注特定区域，并可能错过异常情况。为了解决这一问题，我们提出了Reg2RG，这是第一个用于CT报告生成的区域引导引用和定位框架，通过聚焦体积内的解剖区域来增强诊断性能。具体而言，我们利用通用分割模块的掩码来捕捉每个引用区域的局部特征。我们提出了局部特征解耦（LFD）策略，以在几乎不增加计算负担的情况下保留局部高分辨率细节。然后将局部特征与全局特征结合起来，以在连贯的上下文中捕捉区域之间的关系。此外，我们提出了一种新的区域报告对齐（RRA）训练策略。该策略通过利用引用区域的识别来指导生成特定区域的报告，增强了模型的引用和定位能力，同时提高了报告的可解释性。我们进一步采用大型语言模型（LLM）作为语言解码器，从集成的视觉特征中生成报告，促进区域级别的理解。在两个大规模胸部CT报告数据集上的 extensive 实验表明，我们的方法在自然语言生成和临床有效性的各项指标上优于几种最先进的方法，同时保持了可解释性的潜力。代码可在 https://github.com/zhi-xuan-chen/Reg2RG 获取。

发布时间: 5/6/2025

查看原文