arXiv 论文列表

作者: Timo Brand, Daniel Faber, Stephan Held, Petra Mutzel

arXiv:2504.04821v1 Announce Type: cross 摘要：我们提出了ZykovColor，这是一种基于SAT的新型算法，用于解决基于Zykov树编码的图着色问题。该方法基于H\'ebrard和Katsirelos（2020）提出的一种方法，该方法使用一个传播器强制实施传递性约束，引入搜索树剪枝的下界，并允许启发式的传播。我们利用新引入的IPASIR-UP接口来实现这些技术与一个SAT求解器。此外，我们提出了新的功能，这些功能利用了底层的SAT求解器。这些功能包括修改集成的决策策略，利用顶点支配提示，并采用增量的自底向上的搜索方法，该方法可以从之前的调用中重用学到的子句。此外，我们整合了更高效的团计算，以在搜索过程中改善下界。我们通过实验分析验证了每个新功能的有效性。ZykovColor在DIMACS基准测试集上优于其他最先进的图着色实现。在随机Erd\H{o}s-R\'enyi图上的进一步实验表明，我们的新方法在稀疏和稠密图中均优于最先进的基于SAT的方法。

发布时间: 4/8/2025

查看原文

ELT-Bench：评估AI代理在ELT管道上的端到端基准测试

作者: Tengjun Jin, Yuxuan Zhu, Daniel Kang

arXiv:2504.04808v1 类别: cross 摘要：随着云数据仓库的广泛应用，从业者越来越多地转向抽取-加载-转换 (ELT) 管道。然而，设计这些管道往往需要大量的手动工作以确保正确性。近年来，在数据任务中表现出强大能力的基于人工智能的方法，如文本到SQL，为减轻开发ELT管道的手动努力提供了机会。不幸的是，目前的数据工程基准只能评估孤立的任务，如使用数据工具和编写数据转换查询，这在评估生成端到端ELT管道的人工智能代理方面留下了显著的差距。为了填补这一差距，我们引入了ELT-Bench，这是一种端到端的基准测试，旨在评估AI代理构建ELT管道的能力。ELT-Bench 包含 100 个管道，包括 835 个源表和 203 个数据模型，涵盖了各种领域。通过模拟涉及多种数据源集成和使用流行数据工具的现实场景，ELT-Bench 评估了AI代理处理复杂数据工程工作流的能力。AI代理必须与数据库和数据工具交互，编写代码和SQL查询，并协调每个管道阶段。我们使用ELT-Bench 对两种代表性的代码代理框架Spider-Agent和SWE-Agent进行了评估，采用了六种流行的大型语言模型 (LLMs)。表现最佳的代理，Spider-Agent Claude-3.7-Sonnet 延伸思考，仅正确生成了 3.9% 的数据模型，平均每管道成本为 $4.30 和 89.3 步。我们的实验结果表明了ELT-Bench 的挑战，并突出了减少ELT工作流手动努力所需更高级的AI代理的需求。我们的代码和数据可在 https://github.com/uiuc-kang-lab/ETL.git 获取。

发布时间: 4/8/2025

查看原文

动态视觉蟒猫

作者: Mengxuan Wu, Zekai Li, Zhiyuan Liang, Moyang Li, Xuanlei Zhao, Samir Khaki, Zheng Zhu, Xiaojiang Peng, Konstantinos N. Plataniotis, Kai Wang, Wangbo Zhao, Yang You

arXiv:2504.04787v1 类型：交叉摘要：基于Mamba的视觉模型由于在计算效率上比基于注意力的模型更胜一筹而受到了广泛的关注。然而，这些模型中仍然存在空间冗余，表现为标记和块冗余。对于标记冗余，我们分析发现，早期的标记裁剪方法会导致训练和推理之间的一致性问题，或者在推理过程中引入额外的计算。因此，我们针对Mamba结构定制了标记裁剪方法，通过在进入下一个Mamba块之前重新排列裁剪序列。对于块冗余，我们允许每张图片根据经验观察到的现象，即基于Mamba视觉模型的推理速度很大程度上受到SSM块数量的影响，动态选择SSM块。我们提出的方法，动态视觉Mamba（DyVM），在性能下降轻微的情况下有效地减少了FLOPs。我们通过在Vim-S上实现35.2%的FLOPs减少，只损失了1.7%的精度。此外，该方法在不同的Mamba视觉模型架构和不同的视觉任务中表现良好。我们的代码将会公开。

发布时间: 4/8/2025

查看原文

双向层次蛋白质多模态表示学习

作者: Xuefeng Liu, Songhao Jiang, Chih-chan Tien, Jinbo Xu, Rick Stevens

arXiv:2504.04770v1 交叉类型摘要：蛋白质表征学习对于众多生物学任务至关重要。近年来，基于大规模蛋白质序列进行预训练的大规模变压器蛋白质语言模型（pLMs）在基于序列的任务中取得了显著的成功。然而，pLMs 缺乏结构信息。相反，用于利用三维结构信息的图神经网络（GNNs）在蛋白质相关预测任务中表现出色，但其效果往往受到有标签结构数据稀缺性的限制。意识到序列表示和结构表示是同一蛋白质实体的互补视角，我们提出了一种多模态双向分层融合框架，以有效融合这些模态。我们的框架采用注意力和门控机制，使基于pLMs生成的序列表示与基于GNN提取的结构特征之间能够有效地交互，从而改善了神经网络各层间的信息交换和增强。基于该框架，我们进一步引入了带有门控的局部双向分层融合方法和带有多头自我注意力的全局双向分层融合方法。通过对多种多样的蛋白质相关任务进行广泛实验，我们的方法在多种蛋白质表征学习基准上的一系列强基线方法和现有融合技术中表现出一致的改进，包括react（酶/EC分类）、模型质量评估（MQA）、蛋白质-配体结合亲和力预测（LBA）、蛋白质-蛋白质结合位点预测（PPBS）和B细胞表位预测（BCEs）。我们的方法在多模态蛋白质表征学习中建立了新的最先进水平，并强调了BIHIERARCHICAL FUSION在连接序列和结构模态方面的有效性。

发布时间: 4/8/2025

查看原文

KunPeng：全球海洋环境模型

作者: Yi Zhao, Jiaqi Li, Haitao Xia, Tianjiao Zhang, Zerong Zeng, Tianyu Ren, Yucheng Zhang, Chao Zhu, Shengtong Xu, Hongchun Yuan

arXiv:2504.04766v1 Announce Type: 跨领域摘要：受大气-海洋物理耦合机制相似性的启发，本研究创新性地将气象大型模型技术迁移到海洋领域，构建了坤鹏全球海洋环境预测模型。针对海洋空间的不连续特征，我们提出了一种地形自适应掩码约束机制，以有效地缓解陆海边界突然梯度引起的训练发散问题。为了充分整合远、中、近海的海洋特征，采用了经度循环变形卷积网络（LC-DCN）来增强动态感受野，实现多尺度海洋特征的精细建模。通过应用变形卷积增强的多步预测模块（DC-MTP），进一步强化了时间依赖性特征提取能力。实验结果表明，该模型在0.25°分辨率下的15天全球预测中实现了平均ACC为0.80的效果，优于对比模型0.01-0.08。平均均方误差（MSE）为0.41（表示相比其他模型减少了5%-31%），平均绝对误差（MAE）为0.44（相比其他模型减少了0.6%-21%）。特别是在海表面参数预测、深海区域特征表征和流速场预报方面观察到了显著的改进。通过在海洋领域不同尺度算子适用性的横向比较，本研究揭示，在缓慢变化的海洋过程中，局部算子明显优于全球算子，证明了动态特征金字塔表示在预测海洋物理参数方面的有效性。

发布时间: 4/8/2025

查看原文

使用GAT-GCN混合模型增强叶病分类

作者: Shyam Sundhar, Riya Sharma, Priyansh Maheshwari, Suvidha Rupesh Kumar, T. Sunil Kumar

arXiv:2504.04764v1 声明类型: cross 摘要：农业在全球经济中发挥着关键作用，为数十亿人提供生计并确保食品安全。随着创新农业实践的普及，作物疾病的潜在风险增加，突显了高效、低干预疾病识别方法的迫切需求。这项研究介绍了一种结合图注意力网络（GAT）和图卷积网络（GCN）的混合模型，用于叶片疾病分类。GCNs 广泛用于从图结构数据中学习，而GATs 通过引入注意力机制来关注最重要的邻居，从而增强了这一能力。该方法结合了超像素分割，以高效提取特征，将图像划分为更具意义、更 homogenous 的区域，从而更好地捕捉局部特征。作者还采用了一种边增强技术以增强模型的鲁棒性。边增强技术在模型的检测能力方面引入了显著的泛化程度。为了进一步优化训练，应用了权重初始化技术。混合模型在苹果叶片疾病分类中的精度为0.9822，召回率为0.9818，F1分数为0.9818；在马铃薯叶片疾病分类中的精度为0.9746，召回率为0.9744，F1分数为0.9743；在甘蔗叶片疾病分类中的精度为0.8801，召回率为0.8801，F1分数为0.8799。这些结果表明该模型的稳健性和性能，暗示其支持可持续农业实践并通过精确有效的疾病检测的支持潜在价值。这项工作是朝着减少作物损失并因此支持零饥饿和陆地上的生活这些可持续目标迈出的微小步骤。

发布时间: 4/8/2025

查看原文

无监督估计非线性音频效果：比较基于扩散和对抗性方法

作者: Eloi Moliner, Michal \v{S}vento, Alec Wright, Lauri Juvela, Pavel Rajmic, Vesa V\"alim\"aki

arXiv:2504.04751v1 宣告类型: 剪裁摘要: 在没有配对输入输出信号的情况下准确估计非线性音频效果仍然是一个具有挑战性的问题。本文研究了无监督概率方法来解决这一问题。我们提出了一种基于扩散生成模型的方法，用于盲系统识别，该方法能够使用黑箱和灰箱模型估计未知的非线性效果。本文将这种方法与之前提出的对抗性方法进行了比较，分析了在不同的效果算子参数化和可用受污染记录长度变化情况下两种方法的性能。通过吉他失真效果的实验，我们展示了基于扩散的方法能提供更稳定的结果，并且对数据可用性的敏感度较低，而对抗性方法在估计更明显的失真效果方面表现更优。我们的发现为音频效果的鲁棒无监督盲估计做出了贡献，表明了扩散模型在音乐技术中的系统识别方面的潜力。

发布时间: 4/8/2025

查看原文

基于语言指令、视觉观察和交互的3D物体功能 grounding

作者: He Zhu, Quyu Kong, Kechun Xu, Xunlong Xia, Bing Deng, Jieping Ye, Rong Xiong, Yue Wang

arXiv:2504.04744v1 定位类型: 交叉摘要：将3D物体功能进行地定位是一种任务，它将物体在3D空间中的位置确定下来，使物体能够被操作，从而连接感知与行动，为体现智能奠定了基础。例如，对于智能机器人而言，准确地根据人类指示定位物体的功能并对其进行抓取是必要的。在本文中，我们提出了一项基于语言指令、视觉观察和交互的新任务，该任务受到认知科学的启发。我们收集了一个包含点、图像和语言指令的物体功能定位数据集(AGPIL)，以支持提出的任务。在3D物理世界中，由于观察角度、物体旋转或空间遮挡等原因，我们只能获得物体的局部观察。因此，该数据集包括全方位视角、局部视角和旋转视角下的物体功能估计。为了完成此任务，我们提出了LMAffordance3D，这是第一个多模态、语言引导的3D功能定位网络，它使用视觉-语言模型将2D和3D空间特征与语义特征融合。在AGPIL上进行全面的实验表明，我们的方法在该任务中的有效性和优越性，即使是在未见过的实验设置中。我们的项目可访问 https://sites.google.com/view/lmaffordance3d。

发布时间: 4/8/2025

查看原文

增强视觉-语言模型的组合理论推理能力：使用合成偏好数据

作者: Samarth Mishra, Kate Saenko, Venkatesh Saligrama

arXiv:2504.04740v1 宣告类型: cross 摘要: 组合性，即正确识别场景为原子视觉概念的组合，对于多模态大型语言模型（MLLMs）来说仍然是一个难题。即使是最先进的MLLMs，如GPT-4o，在区分“狗追猫”和“猫追狗”这类组合时也会犯错。虽然在Winoground这一衡量此类推理的基准测试中，MLLMs已经取得了显著进步，但它们离人类的表现仍有很大的差距。我们表明，通过利用数据阐明这些概念，这些模型的组合推理能力可以得到改善，具体来说，是在训练模型更倾向于正确描述图片的标题，而不是接近但不正确的标题。我们介绍了SCRAMBLe：基于二元偏好学习的MLLMs合成组合推理增强方法，这是一种利用完全自动从现有图像-标题数据生成的偏好数据对开放权重MLLMs进行偏好调优的方法。SCRAMBLe整体提升了这些MLLMs的组合推理能力，我们可以通过多个视觉语言组合性基准测试中的显著改进以及一般问题回答任务中较小但显著的改进看到这一点。作为一窥，SCRAMBLe调优后的Molmo-7B模型在Winoground上的表现从49.5%提高到54.8%（迄今为止的最佳报告），同时在更一般视觉问题回答任务上提高了约1%。有关SCRAMBLe的代码、调优后的模型以及我们的合成训练数据集可在 https://github.com/samarth4149/SCRAMBLe 获取。

发布时间: 4/8/2025

查看原文

十方公理与FactLegalLlama：在印度法律背景下推动事实判断预测与解释的发展

作者: Shubham Kumar Nigam, Balaramamahanthi Deepak Patnaik, Shivam Mishra, Noel Shallum, Kripabandhu Ghosh, Arnab Bhattacharya

arXiv:2504.04737v1 通知类型: 交叉摘要：在基于事实判断预测与解释（FJPE）的景观中，依赖事实数据对于开发稳健和现实的AI驱动决策工具至关重要。本文介绍了TathyaNyaya，这是专门为印度法律环境设计的最大注释数据集，涵盖了印度最高法院和各个高等法院的判决。TathyaNyaya数据集的名称源于印地语词“Tathya”（事实）和“Nyaya”（正义），该数据集独特地设计用于关注事实陈述而非完整的法律文本，反映了在现实世界中，事实数据推动判决结果的司法流程。为补充这一数据集，我们提出了FactLegalLlama，这是LLMa-3-8B大型语言模型（LLM）的指令调优变体，优化用于生成高质量的FJPE任务解释。该模型在TathyaNyaya中的事实数据上进行微调，结合了预测准确性和语境相关、连贯的解释，解决了AI辅助法律系统中的透明性和可解释性的关键需求。我们的方法将变压器用于二元判决预测，结合FactLegalLlama生成解释，为推进印度法律领域的FJPE创建了一个稳健的框架。TathyaNyaya不仅在规模和多样性上超越了现有数据集，也为在法律分析中构建可解释的AI系统设定了一个基准。研究结果强调了事实精确性和领域特定调整在提高预测性能和可解释性方面的重要性，将TathyaNyaya和FactLegalLlama定位为AI辅助法律决策的基础资源。

发布时间: 4/8/2025

查看原文