arXiv 论文列表

FocusNet：带有局部和池化注意力的Transformer增强结肠 polyp 分割

作者: Jun Zeng, KC Santosh, Deepak Rajan Nayak, Thomas de Lange, Jonas Varkey, Tyler Berzin, Debesh Jha

arXiv:2504.13597v1 声明类型: cross 摘要：结肠镜检查对于早期诊断结肠直肠息肉至关重要。定期筛查可以有效地防止良性息肉发展为CRC。虽然深度学习在息肉分割方面取得了令人印象深刻的进步，但大多数现有模型都是在单模态和单中心数据上训练的，这使得它们在现实世界的临床环境中效果不佳。为了解决这些限制，我们提出了FocusNet，这是一种增强焦点注意力的变压器网络，旨在提高息肉分割效果。FocusNet 包含三个关键模块：用于生成粗分割图的跨语义交互解码器模块（CIDM），用于细化浅特征的细节增强模块（DEM），以及用于通过局部和池化注意力机制平衡局部细节和全局上下文的焦点注意力模块（FAM）。我们在 PolypDB 上评估了我们的模型，这是一个新引入的数据集，包含多模态和多中心数据，用于构建更可靠的分割方法。广泛的实验表明，FocusNet 在 BLI 模态上的Dice系数为 82.47%，FICE 为 88.46%，LCI 为 92.04%，NBI 为 82.09%，WLI 为 93.42%，在五种不同模态下均表现出较高的准确性和鲁棒性。FocusNet 的源代码可在 https://github.com/JunZengz/FocusNet 获取。

发布时间: 4/21/2025

查看原文

HAEC城市：基于超点图聚类的大规模城市点云开放式词汇场景理解

作者: Alexander Rusnak, Fr\'ed\'eric Kaplan

arXiv:2504.13590v1 宣告类型: cross 摘要：传统的3D场景理解技术通常依赖于手工标注的标签集，但在近年来，出现了一类新的开放式词汇3D场景理解技术。尽管这种范式在小场景上取得了一定的成功，但现有方法无法高效地扩展到城市规模的3D数据集。在本文中，我们提出了基于拉丁词“这些”的分层词汇无关专家聚类（HAEC）方法，这是一种利用新颖的混合专家图变换器作为骨干的超级点图聚类方法。我们将这种高度可扩展的方法应用于SensatUrban城市规模数据集上的首个开放式词汇场景理解应用。我们还展示了一个完全从原始点云生成的合成标签流程，无需手工标注。我们的技术可以帮助解锁对密集城市3D场景的复杂操作，并为数字孪生的处理开辟新的道路。

发布时间: 4/21/2025

查看原文

无需延迟的RAG：检索增强生成管道的交互式调试

作者: Quentin Romero Lauro, Shreya Shankar, Sepanta Zeighami, Aditya Parameswaran

arXiv:2504.13587v1 宣布类型:跨学科摘要：检索增强生成（RAG）管道已成为构建具有外部领域特定知识访问权限的AI助手的默认方法。给定一个用户查询，RAG管道通常首先从外部来源检索（R）相关的信息，然后调用一个增强（A）了这些信息的大型语言模型（LLM）来进行（G）响应生成。现代RAG管道经常以任意顺序链接多个检索和生成组件。然而，开发有效的RAG管道具有挑战性，因为检索和生成组件是相互交织的，这使得很难确定哪些组件在最终输出中导致了错误。参数对输出质量的最直接影响通常需要在每次更改后进行数小时的预处理，从而创建了无法接受的缓慢反馈循环。为了解决这些挑战，我们提出了RAGGY，这是一种集成了可组合RAG基础构件的Python库和实时调试交互界面的开发者工具。我们贡献了RAGGY的设计和实现，通过对12名工程师进行定性研究获得的专家调试模式的见解，以及对未来更好地符合开发人员自然工作流程的RAG工具的设计含义。

发布时间: 4/21/2025

查看原文

MetaDSE：面向跨工作负载CPU设计空间探索的少样本元学习框架

作者: Runzhen Xue, Hao Wu, Mingyu Yan, Ziheng Xiao, Xiaochun Ye, Dongrui Fan

arXiv:2504.13568v1 型别: cross 摘要：跨工作负载设计空间探索（DSE）对于CPU架构设计至关重要。现有的DSE方法通常采用迁移学习技术来利用源工作负载的知识，以尽量减少对目标工作负载模拟的需求。然而，这些方法在应对过拟合、数据模糊性和工作负载差异方面存在困难。为了解决这些挑战，我们将跨工作负载CPU DSE任务重新定义为一个少样本元学习问题，并进一步引入了MetaDSE。通过利用模型无关的元学习，MetaDSE能够迅速适应新的目标工作负载，极大地提高了跨工作负载CPU DSE的效率。此外，MetaDSE引入了一种新的知识迁移方法，称为工作负载自适应架构掩码算法，该方法揭示了架构的固有属性。SPEC CPU 2017上的实验表明，与最先进的方法相比，MetaDSE将预测误差减少了44.3%。MetaDSE已开源，并可在以下链接获得：\href{https://anonymous.4open.science/r/Meta_DSE-02F8}{匿名GitHub。}

发布时间: 4/21/2025

查看原文

零样本工业异常分割图像感知提示生成

作者: SoYoung Park, Hyewon Lee, Mingyu Choi, Seunghoon Han, Jong-Ryul Lee, Sungsu Lim, Tae-Ho Kim

arXiv:2504.13560v1 宣言类型: cross 摘要：异常分割对于工业质量、维护和稳定性至关重要。现有的文本指导式零样本异常分割模型效果良好，但它们依赖于固定的提示，限制了在多样化工业场景中的适应性。这突显了灵活、上下文感知提示策略的需求。我们提出了一种基于图像的提示异常分割（IAP-AS），该方法通过使用图像标签模型和大型语言模型（LLM）生成动态、上下文感知的提示来增强异常分割性能。IAP-AS 从图像中提取对象属性以生成上下文感知的提示，从而在动态和无结构的工业环境中提高适应性和泛化能力。在我们的实验中，IAP-AS 在 F1-max 指标的上提高了多达 10%，证明了其出色的适应性和泛化能力。它提供了一种在各行业推广应用异常分割的可扩展解决方案。

发布时间: 4/21/2025

查看原文

变换器能够克服维数灾难：从逼近论视角的理论研究

作者: Yuling Jiao, Yanming Lai, Yang Wang, Bokai Yan

arXiv:2504.13558v1 类型: cross 摘要: Transformer 模型在机器学习的各种应用领域中广泛使用，例如自然语言处理。本文研究了 Transformer 对 Hölder 连续函数类 $\mathcal{H}_{Q}^{\beta}\left([0,1]^{d\times n},\mathbb{R}^{d\times n}\right)$ 的逼近，并构建了若干种可以克服维数灾的 Transformer。这些 Transformer 由一个带有一个头的自我注意力层和 softmax 函数作为激活函数，以及若干个前馈层组成。例如，为了达到逼近精度为 $\epsilon$ 的效果，如果 Transformer 的前馈层的激活函数为 ReLU 和 floor，只需 $\mathcal{O}\left(\log\frac{1}{\epsilon}\right)$ 个前馈层，且这些层的宽度不超过 $\mathcal{O}\left(\frac{1}{\epsilon^{2/\beta}}\log\frac{1}{\epsilon}\right)$。如果允许在前馈层中使用其他激活函数，前馈层的宽度可以进一步减少到一个常数。这些结果表明 Transformer 具有很强的表达能力。本文的构造基于 Kolmogorov-Arnold 表示定理，且不需要上下文映射的概念，因此与之前的 Transformer 近似工作的证明相比，我们的证明更加直观。此外，本文提出的一种翻译技术有助于将前馈神经网络的以往逼近结果应用于 Transformer 研究。

发布时间: 4/21/2025

查看原文

Q-FAKER：基于受控生成的无查询硬黑盒攻击

作者: CheolWon Na, YunSeok Choi, Jee-Hyong Lee

arXiv:2504.13551v1 Announce Type: cross 摘要：提出了许多对抗性攻击方法来验证语言模型的漏洞。然而，这些方法需要大量的查询和目标模型的信息。即使是黑盒攻击方法，也需要目标模型的输出信息。在现实世界场景中，这些方法并不适用，尤其是在目标模型封闭且无法访问的严格黑盒设置中。即使最近提出的严格黑盒攻击方法仍然需要大量查询，并且对生成对抗性生成器的训练成本要求极高。为了解决这些挑战，我们提出了Q-faker（无需查询的严格黑盒攻击者）这一新颖且高效的生成对抗性示例的方法，该方法无需访问目标模型。为了避免访问目标模型，我们使用替代模型。替代模型为目标无感知攻击生成对抗性句子。在此过程中，我们利用了受控生成技术。我们在八个数据集上评估了我们提出的方法。实验结果证明了该方法的有效性，包括高的移植性和生成的对抗性示例的高品质，并证明了其在严格黑盒设置中的实用性。

发布时间: 4/21/2025

查看原文

超越独热标签：语义混合以实现模型校准

作者: Haoyang Luo, Linwei Tao, Minjing Dong, Chang Xu

arXiv:2504.13548v1 校准类型：交叉摘要：模型校准旨在确保模型生成的置信分数准确反映其预测正确的真正可能性。然而，现有的校准方法从根本上依赖于一热标签数据集，隐式假设所有注释的全部确定性。这类数据集对于分类有效，但不足以提供足够的不确定性知识以进行模型校准，因此需要编纂具有丰富数值真实置信值的数据集。然而，由于稀缺的不确定视觉示例，此类样本不易作为真实数据集获取。在本文中，我们引入了校准意识数据增强以创建多样样本及其真实不确定性的真实数据集。具体而言，我们提出了校准意识语义混合（CSM）这一新颖框架，该框架生成具有混合类特征的训练样本，并通过扩散模型为其注释不同的置信分数。基于此框架，我们提出了校准校注以解决扩散逆转过程中标注置信分数与混合比例之间的不一致问题。此外，我们探讨了更适合新数据表示范式的损失函数。实验结果显示，CSM 在校准性能上优于现有的先进校准方法。代码可在 github.com/E-Galois/CSM 获取。

发布时间: 4/21/2025

查看原文

增强辛哈拉语、英语及混合代码内容的可解释多语言情感分析

作者: Azmarah Rizvi, Navojith Thamindu, A. M. N. H. Adhikari, W. P. U. Senevirathna, Dharshana Kasthurirathna, Lakmini Abeywardhana

arXiv:2504.13545v1 交叉公告类型摘要：情感分析对于银行业的品牌声誉管理至关重要，客户的反馈涉及英语、僧伽罗语、Singlish以及混码文本。现有的模型难以处理僧伽罗语等低资源语言，并且缺乏实际应用中的可解释性。本研究开发了一种混合方面情感分析框架，增强了多语言能力并提供了可解释的输出。我们使用清理过的银行客户评论对XLM-RoBERTa进行微调，以适应僧伽罗语和混码文本，集成领域特定词典修正，并使用未加噪的BERT-base进行英语文本的处理。该系统通过置信度分数对情感进行分类（正面、中性、负面），而SHAP和LIME则通过提供实时情感解释来提高可解释性。实验结果显示，我们的方法在英语上优于传统的基于转换器的情感分类器，准确率为92.3%，F1分数为0.89；在僧伽罗语和混码文本上准确率为88.4%。解释性分析揭示了关键的情感驱动因素，提高了信任度和透明度。用户友好的界面提供了方面级情感洞察，确保了业务的可访问性。本研究通过填补多语言、低资源自然语言处理（NLP）和可解释性之间的空白，为金融服务应用贡献了稳健准确的情感分析。

发布时间: 4/21/2025

查看原文

SwitchMT：一种针对智能自主代理的可扩展多任务学习的自适应上下文切换方法论

作者: Avaneesh Devkota, Rachmad Vidya Wicaksana Putra, Muhammad Shafique

arXiv:2504.13541v1 宣传类型: cross 摘要：能够在多个任务上训练智能自主代理（如移动机器人）的能力对于适应动态现实环境至关重要。然而，最新的强化学习（RL）方法仅在单任务设置中表现出色，并且仍然难以在多个任务之间进行泛化，原因在于任务间干扰。此外，现实环境还需要代理具有数据流处理能力。为此，最前沿的工作采用脉冲神经网络（SNN）通过利用数据流中的时间信息来提高多任务学习能力，同时支持低功率/能量的事件驱动操作。然而，它在其训练过程中依赖于固定的任务切换间隔，这限制了多任务学习的可扩展性和有效性。为了解决这些问题，我们提出了一种新颖的自适应任务切换方法SwitchMT，用于基于RL的自主代理多任务学习。具体来说，SwitchMT采用了以下关键思路：（1）一个具有活动树突和对冲结构的深度脉冲Q网络，利用特定任务的上下文信号创建专门的子网络；以及（2）一个利用奖励和网络参数内部动态的自适应任务切换策略。实验结果表明，SwitchMT在多任务学习中取得了优于最新方法的性能。它在多个Atari游戏中表现出竞争性得分（即：Pong：-8.8，Breakout：5.6，Enduro：355.2），展示了其更好的泛化学习能力。这些结果强调了SwitchMT方法的有效性，该方法不仅解决了任务干扰问题，还通过自适应任务切换实现了多任务学习自动化，从而为具有可扩展多任务学习能力的更高效通用代理开辟了道路。

发布时间: 4/21/2025

查看原文