arXiv 论文列表

作者: Haozhe Luo, Ziyu Zhou, Zixin Shu, Aur\'elie Pahud de Mortanges, Robert Berke, Mauricio Reyes

arXiv:2505.10231v1 宣告类型: cross 摘要：深层神经网络在医学成像领域表现出色，但仍容易产生偏见，导致不同人口群体之间的公平性差距。我们首次系统地探讨了该领域的AI与人类的一致性及公平性。研究结果显示，一致地融入人类见解可以始终减少公平性差距并增强跨域泛化能力，尽管过度一致性可能会引入性能权衡，突显了需要校准策略的重要性。这些发现表明，人类与AI的一致性是一种有前途的方法，用于开发公平、稳健且泛化的医疗AI系统，实现了专家指导与自动化效率之间的平衡。我们的代码可在 https://github.com/Roypic/Aligner 获取。

发布时间: 5/16/2025

查看原文

LLMs会记忆推荐数据集吗？一个基于MovieLens-1M的初步研究

作者: Dario Di Palma, Felice Antonio Merra, Maurizio Sfilio, Vito Walter Anelli, Fedelucio Narducci, Tommaso Di Noia

arXiv:2505.10212v1 类别: cross 摘要: 大型语言模型（LLMs）由于其非凡的自然语言理解和生成能力，在推荐场景中变得越来越重要。尽管对利用LLMs进行各种推荐任务的研究已取得显著进展，但对于它们是否在其训练数据中记住了公共推荐数据集却几乎没有进行验证。这很不可取，因为记忆减少了研究结果的普适性，因为在记忆数据集上进行基准测试并不能保证对未见过的数据集的泛化能力。此外，记忆会放大偏见，例如，一些流行项目可能会比其他项目被推荐得更频繁。在本文中，我们研究了LLMs是否记住了公共推荐数据集。具体而言，我们检查了两个模型系列（GPT和Llama）的不同规模，重点关注推荐系统中使用最广泛的其中一个数据集：MovieLens-1M。首先，我们将数据集记忆定义为通过提示LLMs可以检索出项目属性、用户资料以及用户-项目交互的程度。其次，我们分析了记忆对推荐性能的影响。最后，我们检查了记忆在不同模型系列和模型规模之间的差异。我们的结果显示，所有模型在不同程度上都记忆了MovieLens-1M，且推荐性能与记忆程度相关。我们已将所有代码公开发布在：https://github.com/sisinflab/LLM-MemoryInspector

发布时间: 5/16/2025

查看原文

精细粒度复杂性视角下的命题 abduction：算法与下界

作者: Victor Lagerkvist, Mohamed Maizia, Johannes Schmidt

arXiv:2505.10201v1 交叉类型：公告摘要：布尔可满足性问题（SAT）是一个典型的单调推理示例，由于快速求解器的存在，它在实践中引起了极大的关注，并得到了严格的细粒度复杂性结果的补充。然而，在单调推理之外，例如 abduction 推理，除了经典的复杂性理论之外，我们知道的相对较少。在本文中，我们通过分析不可计算 abduction 问题在知识库变量数量 n 下的复杂性，率先尝试弥合单调推理与非单调推理之间的差距。我们获得了几个对于 $\Sigma^P_2$-、NP-以及 coNP-完全片段的积极结果，这在某种程度上意味着（据我们所知）第一个避开穷举搜索的 $\Sigma^P_2$-完全问题的例子。我们还提供了下界，并且对于许多片段，排除了在强指数时间假设下的改进可能性。

发布时间: 5/16/2025

查看原文

利用图卷积神经网络推进社区探测：连接拓扑凝聚力和属性凝聚力

作者: Anjali de Silva, Gang Chen, Hui Ma, Seyed Mohammad Nekooei, Xingquan Zuo

arXiv:2505.10197v1 类别：交叉学科摘要：社区检测是现实世界应用中的一项关键技术，通过利用社交网络中的拓扑相似性和属性相似性，揭示协同节点组（社区）。然而，现有的用于最大化模性的图卷积网络（GCNs）往往收敛于次优解。此外，直接使用人类标注的社区进行训练可能会由于仅根据节点属性对断开的节点进行分组而破坏拓扑协同性。我们通过提出一种新颖的基于拓扑和属性相似性的社区检测（TAS-Com）方法来解决这些问题。TAS-Com 引入了一种新的损失函数，利用高效且可扩展的 Leiden 算法来检测具有全局最优模性的社区结构。Leiden 进一步被利用来细化人类标注的社区，以确保每个社区内的连通性，从而使 TAS-Com 能够检测出模性和与人类标签一致性之间的可取权衡的社区结构。在多个基准网络上的实验结果证实，TAS-Com 显著优于几种最先进的算法。

发布时间: 5/16/2025

查看原文

LanTu：动力增强深度学习湍流海洋预报

作者: Qingyu Zheng, Qi Shao, Guijun Han, Wei Li, Hong Li, Xuan Wang

arXiv:2505.10191v1 交叉类型：公告摘要：中尺度涡是海洋时空多尺度变化的主要控制因素，它们对全球海洋能量传递的影响不容忽视。中尺度涡分辨率的海洋预报为渔业保护和航海安全提供了更可靠的保护，但也为传统的数值模型带来了重大的科学挑战和巨大的计算成本。基于人工智能（AI）的天气和海洋预报系统正逐渐成为平衡预报性能与计算效率的强大工具。然而，海洋动力系统的复杂多尺度特征使得AI模型在中尺度涡预报（特别是区域建模）方面仍面临许多挑战。在这里，我们开发了 LanTu，一种基于动力增强的深度学习的区域级中尺度涡分辨率海洋预报系统。我们将跨尺度相互作用融入 LanTu，并通过中尺度涡动力学的现有知识构建多尺度物理约束，以优化 LanTu，从而提高 LanTu 在中尺度演变预报技能。结果表明，与现有的先进业务运营数值海洋预报系统（NOFS）和基于AI的海洋预报系统（AI-OFS）相比，LanTu 在温度、盐度、海平面异常和流速预测方面具有显著的优势，预报时间窗口超过10天。我们的研究突显了动力增强的深度学习（LanTu）在中尺度涡分辨率海洋预报中的强大范式。

发布时间: 5/16/2025

查看原文

CoT百科：分析、预测并控制推理模型的思考方式

作者: Seongyun Lee, Seungone Kim, Minju Seo, Yongrae Jo, Dongyoung Go, Hyeonbin Hwang, Jinho Park, Xiang Yue, Sean Welleck, Graham Neubig, Moontae Lee, Minjoon Seo

arXiv:2505.10185v1 Announce Type: 综合摘要：长链推理（CoT）是现代大型语言模型有效使用的必要成分，但我们对其能力背后的推理策略的理解仍有限。尽管有一些先前的工作尝试通过预定义的策略类型对CoT进行分类，但这些方法受到人类直觉的限制，并未能捕捉到模型行为的全部多样性。在这项工作中，我们引入了CoT百科全书，这是一种自下而上的框架，用于分析和引导模型推理。我们的方法自动从模型生成的CoT中提取多样化的推理标准，将它们嵌入到语义空间中，将其聚类到代表性类别中，并推导出对比评判标准来解释推理行为。人类评估表明，该框架产生的分析比现有方法更具可解释性和全面性。此外，我们证明了这种理解带来了性能提升：我们可以预测模型可能会使用哪种策略，并引导其采用更有效的替代方案。最后，我们提供了实用的见解，例如，训练数据格式（如自由形式 vs 多选题）对推理行为的影响远大于数据领域，突显了格式感知模型设计的重要性。

发布时间: 5/16/2025

查看原文

Kaitian：一种用于使-bodied AI 系统中异构加速器高效协作的统一通信框架

作者: Jieke Lin, Wanyu Wang, Longxiang Yin, Yinhe Han

arXiv:2505.10183v1 公告类型：cross 摘要：嵌入式人工智能（AI）系统，如自主机器人和智能汽车，越来越依赖于多样的异构加速器（例如，GPGPUs、NPUs、FPGAs）来满足严格的实时处理和能效需求。然而，供应商特定的专有通信库的普及造成了一系列互操作性障碍，阻碍了不同加速器类型之间的无缝协作，导致分布式AI工作负载中资源利用率低下和性能瓶颈。本文介绍了KAITIAN，这是一种新型的分布式通信框架，旨在弥补这一缺口。KAITIAN提供了统一的抽象层，该层能够智能地整合供应商优化的通信库以实现组内效率，同时利用通用通信协议以实现组间互操作性。关键的是，它包括一个负载自适应调度机制，能够根据设备的实际性能特征动态地在异构设备上平衡计算任务。KAITIAN作为PyTorch的扩展实现，并在包含NVIDIA GPU和Cambricon MLUs的测试平台上进行了严格的评估，结果表明，KAITIAN在分布式训练任务中的资源利用率和可扩展性方面取得了显著改进。实验结果表明，与基线的同构系统相比，KAITIAN可以将训练时间加速多达42%，同时引入的通信开销仅为2.8%-4.3%，并保持模型准确性。KAITIAN为复杂嵌入式AI应用中的更灵活和强大的异构计算铺平了道路。

发布时间: 5/16/2025

查看原文

时间序列预测中适用规模律吗？

作者: Zeyan Li, Libing Chen, Yin Tang

arXiv:2505.10172v1 类型: cross 摘要：模型规模的迅速扩张已成为时间序列预测中的一个关键挑战。从早期几十兆字节的Transformer到最近的TimesNet等数千兆字节的架构，性能提升往往伴随着参数数量呈指数级增长。但这真的必不可少吗？为了质疑时间序列预测中的规模法则适用性，我们提出了Alinear，一种超轻量级的预测模型，仅使用k级参数就能达到竞争力的性能。我们引入了一种基于预测范围的自适应分解机制，可以动态地根据不同预测范围的组件重点进行重新平衡，以及一种渐进的频率衰减策略，能够在各种预测范围内实现稳定的预测，而不引入注意力机制的计算开销。在七个基准数据集的广泛实验中，Alinear 无论在参数量不到其1%的情况下，都能持续优于大规模模型，同时在短范围和超长范围的预测中保持强大的准确性。此外，为了更公平地评估模型效率，我们提出了一个新的参数感知评估指标，突显了在预算受限的情况下，Alinear的优越性。我们的分析表明，趋势和季节性组件的相对重要性取决于数据特性，而不是遵循固定的模式，这验证了我们可适应设计的必要性。这项工作挑战了更大的模型必然更好的普遍信念，并建议转向更高效的时间序列建模范式。

发布时间: 5/16/2025

查看原文

建模注意数据集偏差

作者: Matthias K\"ummerer, Harneet Khanuja, Matthias Bethge

arXiv:2505.10169v1 类型: cross 摘要: 基于图像的显著性预测近年来在现有基准上的性能正逐渐接近最佳标准。尽管取得了这一成就，我们仍发现，跨多个显著性数据集预测Fixations（注视点）仍然极具挑战性，原因在于数据集偏差。当在一种数据集上训练的模型应用于另一种数据集时，我们发现性能下降了约40%。令人惊讶的是，增加数据集多样性并不能解决这种跨数据集差距，大约60%的差距归因于数据集特异的偏差。为了解决剩余的泛化差距，我们提出了一种新的架构，它扩展了一个几乎没有数据集依赖性的编码器-解码器结构，仅加入不到20个数据集特定的参数，这些参数管理诸如多尺度结构、中心偏好和注视分布等可解释机制。仅调整这些参数以适应新数据即可解释超过75%的泛化差距，且在使用最多50个样本的情况下，有很大一部分改进得到了实现。我们的模型在MIT/Tübingen显著性基准中的三个数据集（MIT300、CAT2000和COCO-Freeview）上都设定了新的最佳性能，即使在仅从不相关的数据集泛化时也如此，但在调整到相应的训练数据集时性能得到了显著提升。该模型还为空间显著性属性提供了有价值的见解，揭示了复杂多尺度效应的结合，这些效应结合了绝对和相对大小的影响。

发布时间: 5/16/2025

查看原文

QuXAI: 混合量子机器学习模型的解释器

作者: Saikat Barua, Mostafizur Rahman, Shehenaz Khaled, Md Jafor Sadek, Rafiul Islam, Shahnewaz Siddique

arXiv:2505.10167v1 交叉公告类型：cross 摘要：混合量子-经典机器学习（HQML）模型的出现为计算智能打开了新的视野，但其基本复杂性经常导致黑箱行为，从而削弱了其应用中的透明度和可靠性。尽管对量子系统的可解释人工智能（XAI）仍处于起步阶段，但在设计用于采用量化特征编码的经典学习的HQML架构的稳健全局和局部可解释性方法方面，存在一个明显的研究空白。本工作重点关注此空白，引入了QuXAI框架，该框架基于Q-MEDLEY解释器，用于解释这些混合系统中的特征重要性。模型包括创建包含量子特征图的HQML模型，使用Q-MEDLEY，这是一种结合基于特征的推断并保留量子变换阶段的解释器，同时可视化结果赋值。我们的结果显示，Q-MEDLEY能够划分HQML模型中有影响力的经典方面，并区分其噪声，并且在经典验证设置中，与成熟的XAI技术竞争效果良好。消融研究更显著地揭示了Q-MEDLEY所采用的复合结构的优点。这项工作的含义至关重要，因为它提供了一条提高HQML模型可解释性和可靠性的途径，从而促进对增强型量子AI技术更自信、更安全和更负责任的使用。

发布时间: 5/16/2025

查看原文