arXiv 论文列表

作者: Bich-Chung Phan, Thanh Ma, Huu-Hoa Nguyen, and Thanh-Nghi Do

arXiv:2502.13080v1 交叉类型: cross 摘要：基因表达分类在生物信息学中是一个关键但具有挑战性的任务，主要是由于基因组数据的高维度和过拟合的风险。为了解决这一问题，我们提出了BOLIMES，一种新颖的功能选择算法，旨在通过系统地优化功能子集来增强基因表达分类。与仅依赖于统计排名或特定分类器的选择的传统方法不同，我们整合了Boruta的稳健性与LIME的可解释性，确保仅保留最相关和最具影响力的基因。BOLIMES首先通过将每个特征与其随机化版本进行比较来使用Boruta进行非相关信息基因的筛选，从而保留有价值的信息。然后利用LIME根据剩余基因对分类器的局部重要性进行排名。最后，迭代分类评估通过选择最大化预测准确性的基因数量来确定最佳功能子集。通过将全面的功能选择与以可解释性为导向的优化相结合，我们的解决方案有效地平衡了维度降低与高水平的分类性能，为高维基因表达分析提供了强大的解决方案。

发布时间: 2/19/2025

查看原文

改进大型多模态模型的微调以检测仇恨贴纸

作者: Jingbiao Mei, Jinghong Chen, Guangyu Yang, Weizhe Lin, Bill Byrne

arXiv:2502.13061v1 通知类型: cross 摘要: 恶意(memes)在网络上的存在已成为一个重要关注点，需要强大的自动化检测系统。尽管大型多模态模型在各种任务中展示了较强的泛化能力，但在恶意 meme 检测方面表现出较差的泛化能力，这归因于 meme 与不断涌现的社会趋势和突发新闻密切相关。最新的工作进一步指出了在这一背景下，传统监督微调对大型多模态模型的局限性。为了解决这些挑战，我们提出了一种新的两阶段微调框架 Large Multimodal Model Retrieval-Guided Contrastive Learning (LMM-RGCL)，旨在提高领域内准确性和跨域泛化能力。在六个广泛使用的 meme 分类数据集上的实验结果表明，LMM-RGCL 达到了最先进的性能，超越了基于代理的系统，如 VPD-PALI-X-55B。此外，我们的方法在资源有限的情况下有效泛化到领域外的 meme，超越了如 GPT-4o 等模型。

发布时间: 2/19/2025

查看原文

基于LLM的上下文驱动的Android恶意软件检测与分类

作者: Xingzhi Qian, Xinran Zheng, Yiling He, Shuo Yang, Lorenzo Cavallaro

arXiv:2502.13055v1 安装类型：交叉摘要：移动应用程序的快速增长加剧了Android恶意软件的风险。虽然存在众多检测方法，但在应对不断演变的攻击、数据集偏差和有限的可解释性方面依然面临挑战。大规模语言模型（LLMs）凭借其零样本推理和推理能力提供了替代方案。然而，将LLMs应用于Android恶意软件检测面临两个关键挑战：（1）Android应用程序中的大量支持代码，通常跨越数千个类，超出LLMs的上下文限制，使恶意行为埋藏在良性功能中；（2）Android应用程序的结构复杂性和相互依赖关系超过了LLMs基于序列的推理能力，导致代码分析片段化，妨碍恶意意图推理。为应对这些挑战，我们提出了一种名为LAMD的实用上下文驱动框架，以促进基于LLMs的Android恶意软件检测。LAMD结合了关键上下文提取，以隔离安全关键的代码区域并构造程序结构，然后分层进行代码推理，逐步分析应用程序行为，从低级指令到高级语义，提供最终的预测和解释。配备了精心设计的事实一致性验证机制，以减轻第一层LLMs的幻觉。实境评估表明，LAMD在传统检测器之上具有有效性，为动态威胁环境中的基于LLMs的恶意软件分析奠定了可行的基础。

发布时间: 2/19/2025

查看原文

视觉序列的自然语言生成：挑战与未来方向

作者: Aditya K Surikuchi, Raquel Fern\'andez, Sandro Pezzelle

arXiv:2502.13034v1 声明类型: cross 摘要：使用自然语言讨论视觉内容的能力是人类智能的核心，并且也是任何人工智能系统的关键特征之一。尽管已经有多项研究集中在生成单张图片的文字描述上，但在多张图片的视觉内容到文本转换的全面分析和推动方面，关注相对较少。在这篇立场论文中，我们主张任何涉及具有时间顺序的多张图片或帧的任务都是一个更为广泛、更通用问题的实例，该问题涉及视觉内容与相应文本之间的复杂关系理解。我们全面分析了五个此类问题的实例，并论及它们共同面临的挑战，并在建模和评估方法上具有相似性。基于这些多张图片到文本生成各方面的见解和阶段，我们强调了几点开放式问题，并建议未来的研究方向。我们认为，这些方向可以促进对该领域复杂现象的理解以及更好模型的发展。

发布时间: 2/19/2025

查看原文

likelihood比率正则化分位数回归：适应高维协变量偏移的同变预测调整

作者: Sunay Joshi, Shayan Kiyani, George Pappas, Edgar Dobriban, Hamed Hassani

arXiv:2502.13030v1 Announce Type: cross 摘要：我们考虑在协变量偏移环境下进行同分布预言的问题。给定源领域有标签的数据和目标领域协变量偏移的无标签数据，我们寻求在目标领域构建具有有效边际覆盖率的预言集合。现有的大多数方法需要估计未知的似然比函数，这在处理高维数据如图像时可能会带来挑战。为解决这一问题，我们引进了似然比正则化分位数回归（LR-QR）算法，通过结合尖球损失和一种新的正则化选择，来构建一个阈值函数，而不直接估计未知的似然比函数。我们证明，在目标领域，LR-QR方法能达到所需的覆盖率，只产生一个小的可控制的误差项。我们的证明依赖于学习理论中一种新颖的覆盖率通过稳定性界分析。我们的实验表明，在高维预测任务中，包括Communities and Crime数据集的回归任务和来自WILDS仓库的图像分类任务中，LR-QR算法优于现有方法。

发布时间: 2/19/2025

查看原文

LLM 助力的主动型数据系统

作者: Sepanta Zeighami, Yiming Lin, Shreya Shankar, Aditya Parameswaran

arXiv:2502.13016v1 宣告类型: cross 摘要：凭借大语言模型（LLMs）的能力，我们现在能够查询以前无法查询的数据，包括文本、图像和视频。然而，尽管拥有这种巨大的潜力，目前大多数利用LLMs的数据系统仍然是被动的，这反映了我们社区将LLMs映射到已知抽象的意愿。大多数数据系统将LLMs视为一个不透明的黑盒子，它像其他任何近似且昂贵的UDF一样，对用户输入和数据进行优化，并与其他关系操作符结合使用。这些数据系统只是按照指示行事，但无法理解或利用LLM被要求执行的操作（即潜在的可能出错的操作），正在操作的数据（例如，长且复杂的文档），或者用户真正需要什么。它们没有利用手头操作和数据的特点，也没有确保结果在有模糊性和不确定性的不精确情况下的正确性。我们认为，数据系统需要变得更加主动：它们需要得到更多的授权——配备LLMs的能力——来理解并重新加工用户输入和数据，并决定如何表示和处理操作和数据。通过允许数据系统解析、重写和分解用户输入和数据，或者以超越标准的一次性查询-结果范式的用户交互方式，数据系统能够更有效地满足用户需求。这些新能力为数据系统提供了更丰富的设计空间，在这种设计空间中，数据系统承担了更多的主动权：它们被授权基于转换操作、数据特征和用户意图进行优化。我们讨论了这一框架在真实世界任务中的各种成功应用案例，并概述了这一雄心勃勃的研究议程的未来方向。

发布时间: 2/19/2025

查看原文

HOMIE：类人运动与操纵同构外骨骼座舱

作者: Qingwei Ben, Feiyu Jia, Jia Zeng, Junting Dong, Dahua Lin, Jiangmiao Pang

arXiv:2502.13013v1 人形遥操作类型: 跨领域摘要: 当前的人形遥操作系统要么缺乏可靠的低级控制策略，要么难以获得准确的全身控制命令，使得通过遥操作人形机器人执行移动操作任务变得困难。为了解决这些问题，我们提出了HOMIE，这是一种新颖的人形遥操作系统，集成了人形移动操作策略和基于低成本外骨骼的硬件系统。该策略使人形机器人能够根据需要行走和蹲下到特定高度，同时适应任意的上半身姿态。这通过我们新颖的基于强化学习的训练框架实现，该框架结合了上半身姿态课程、高度追踪奖励以及对称利用，而无需依赖任何运动先验知识。为了配合这一策略，硬件系统集成了同构外骨骼臂、一副运动传感手套和一个踏板，使得单一操作员能够全面控制人形机器人。我们的实验表明，我们的人形遥操作系统能够实现更稳定、更快捷和更精确的人形机器人移动操作遥操作，从而加快任务完成速度，并与基于逆运动学的方法相比消除重新目标化错误。我们还验证了由我们的人形遥操作系统采集的数据对于模仿学习的有效性。我们的项目完全开源，演示和代码可以在https://homietele.github.io/找到。

发布时间: 2/19/2025

查看原文

个性化预测评分上的Top-k集合查询

作者: Sohrab Namazi Nia, Subhodeep Ghosh, Senjuti Basu Roy, Sihem Amer-Yahia

arXiv:2502.12998v1 类别: cross 摘要：本文研究了在回答预测分数上的个性化查询时，昂贵的外部或acles（如大型语言模型）的应用性。这些预测分数是由用户定义的函数产生的，用于在多模态数据上回答个性化查询。我们提出了一种通用的计算框架，该框架能够处理任意的基于集合的评分函数，只要这些函数可以分解成每个部分可以发送给或acles（在我们的情况下是LLM）来预测部分评分的形式。在某一时间点上，该框架假设一系列响应和它们的部分预测分数，并维护一个可能的集合列表，这些集合可能是真正的top-k。由于调用或acles是昂贵的，我们的框架巧妙地确定了下一个构建部分，即下一个最佳问题，以便在最大程度上提高识别真正top-k的可能性。我们提出了一个基于原理的概率模型来量化这种可能性。我们研究了设计算法时的效率机会。我们使用三个大规模数据集、评分函数和基线进行了评估。实验表明，我们的框架在LLM调用数量上取得了数量级的改进，同时保证了结果准确性。进一步的可扩展性实验表明，我们的框架可以在大规模应用中使用。

发布时间: 2/19/2025

查看原文

B-cos LM：高效转换预训练语言模型以改善解释性

作者: Yifan Wang, Sukrut Rao, Ji-Ung Lee, Mayank Jobanputra, Vera Demberg

arXiv:2502.12992v1 宣言类型: cross 摘要：对于黑箱模型的后验解释方法往往由于当前神经网络的解释能力不足而在忠实性和人类可解释性方面存在困难。同时，B-cos网络已经被引入以通过架构和计算的适应性改进模型的解释性，但它们的应用到目前为止仅限于计算机视觉模型及其相关的训练管道。在本工作中，我们引入了B-cos LMs，即被赋予NLP任务能力的B-cos网络。我们的方法直接将预训练的语言模型转换为B-cos LMs，通过结合B-cos转换和任务微调，相比之前的B-cos方法提高了效率。我们的自动和人工评估结果表明，B-cos LMs比后验方法生成更为忠实和人类可解释的解释，同时保持与传统微调相当的任务性能。我们深入的分析探讨了B-cos LMs在学习过程和解释模式上与传统微调模型的不同。最后，我们基于我们的发现提供了关于有效构建B-cos LMs的实用指南。我们的代码可在https://anonymous.4open.science/r/bcos_lm获取。

发布时间: 2/19/2025

查看原文

PartSDF：复合三维形状参数化和优化的基于部件的隐式神经表示

作者: Nicolas Talabot, Olivier Clerc, Arda Cinar Demirtas, Doruk Oner, Pascal Fua

arXiv:2502.12985v1 宣告类型: cross 摘要: 准确的3D形状表示在设计、优化和模拟等工程应用中至关重要。在实践中，工程工作流需要结构化的、部件感知的表示，因为物体本身是作为不同组件的组合而设计的。然而，现有大多数方法要么整体建模形状，要么在没有预定义部件结构的情况下分解它们，这限制了它们在实际设计任务中的应用。我们提出了一种PartSDF，这是一种监督隐式表示框架，它明确地以独立的、可控的部件建模复合形状，同时保持形状一致性。尽管其具有简单的单解码器架构，但PartSDF在重建和生成任务中均优于监督和无监督基准。我们进一步证明了它在工程应用中作为结构化形状先验的有效性，能够对单个组件进行精确控制，同时保持整体的一致性。代码可在 https://github.com/cvlab-epfl/PartSDF 获取。

发布时间: 2/19/2025

查看原文