arXiv 论文列表

作者: Qidong Liu, Xiangyu Zhao, Yejing Wang, Zijian Zhang, Howard Zhong, Chong Chen, Xiang Li, Wei Huang, Feng Tian

arXiv:2504.18383v1 宣告类型: cross 摘要: 跨域顺序推荐(CDSR)旨在从用户在各种领域的历史交互中提取偏好。尽管在CDSR方面取得了一些进展，但有两个问题阻碍了进一步的发展，即重叠困境和过渡复杂性。前者意味着现有的CDSR方法严重依赖于拥有所有领域交互的用户来学习跨域项目关系，这损害了其实用性。后者指的是从混合行为序列中学习复杂过渡模式的困难。凭借强大的表示能力和推理能力，大型语言模型(LLMs)有望通过连接项目和从语义视角捕捉用户偏好来解决这两个问题。因此，我们提出了一种增强的跨域顺序推荐模型（LLM4CDSR）。为了获得语义项目关系，我们首先提出了一种基于LLM的统一表示模块来表示项目。然后，设计了一个可训练的适配器，并使用对比性正则化来适应CDSR任务。此外，设计了一个层次化的LLM用户偏好模块来总结用户的跨域偏好。最后，将这两个模块整合进提出的三线程框架中以得出推荐。我们在三个公开的跨域数据集上进行了广泛实验，验证了LLM4CDSR的有效性。我们已将代码在线发布。

发布时间: 4/28/2025

查看原文

空间推理器：XR 应用的 3D 推理管道

作者: Steven H\"asler, Philipp Ackermann

arXiv:2504.18380v1 声称类型: cross 摘要：现代扩展现实 XR 系统提供了丰富的图像数据分析和传感器输入融合，从而要求 AR/VR 应用能够以语义方式推理 3D 场景。我们提出了一种空间推理框架，该框架将几何事实与符号谓词和关系相结合，以处理诸如确定 3D 对象之间如何排列（'on', 'behind', 'near' 等）等关键任务。该框架的基础是带有综合空间谓词的有向 3D 紧密包表示，这些空间谓词涵盖了从拓扑和连通性到方向性和方位性的范围，在形式上与自然语言相关。导出的谓词形成了空间知识图谱，与基于管道的推理模型相结合，可以执行空间查询和动态规则评估。客户端和服务器端的实现展示了该框架高效地将几何数据转换为可操作知识的能力，确保在复杂 3D 环境中实现可扩展且技术独立的空间推理。空间推理框架正在促进空间本体的创建，并与机器学习、自然语言处理和规则系统无缝集成，从而增强 XR 应用程序。

发布时间: 4/28/2025

查看原文

扩展自然语言推理的边界

作者: Pablo Miralles-Gonz\'alez, Javier Huertas-Tato, Alejandro Mart\'in, David Camacho

arXiv:2504.18376v1 宣布类型: 交叉摘要: 自然语言推理（NLI）是自然语言理解的核心任务，应用于事实核查、问答和信息检索。尽管其重要性不言而喻，但当前的NLI系统严重依赖于带有注释错误和偏差数据集的监督学习，这限制了泛化能力和实际应用。在本文中，我们采用基于强化学习的方法，使用组相对策略优化（GRPO）进行自然语言推理中的因果链（CoT）学习，消除了对标签推理的需求，并使这种训练能够应用于更具挑战性的数据集，如ANLI。我们使用参数高效的技术（LoRA和QLoRA）微调7B、14B和32B语言模型，展示了在标准和对抗性自然语言推理基准上的强大性能。我们的32B AWQ-量化模型在7个对抗性数据集中超过最先进的结果——或在考虑我们复现的情况下在所有数据集上超过它们，内存占用仅为22GB，展示了即使在激进量化下也能保持稳健的推理能力。这项工作为在不牺牲推理质量的情况下构建稳健的NLI系统提供了一个可扩展且实用的框架。

发布时间: 4/28/2025

查看原文

COCO-Inpaint：图像修复检测与操作定位基准

作者: Haozhen Yan, Yan Hong, Jiahui Zhan, Yikun Ji, Jun Lan, Huijia Zhu, Weiqiang Wang, Jianfu Zhang

arXiv:2504.18361v1 跨越类别摘要：近期在图像操控方面取得的进展在生成逼真内容方面取得了前所未有的进步，同时也在消除任意操控和编辑的障碍，引起了人们对多媒体真实性以及网络安全的关注。然而，现有的图像操控检测与定位(IMDL)方法主要集中在拼接或复制-移动伪造上，缺乏针对基于修复的操控的专用基准。为了解决这一问题，我们提出了一种名为COCOInpaint的综合基准，专门设计用于修复检测，其三大贡献如下：1) 由六种最先进的修复模型生成的高质量修复样本，2) 通过四种掩码生成策略实现多样的生成场景，可选配文字指导，3) 广泛覆盖258,266张修复图像，具有丰富的语义多样性。我们的基准旨在强调修复区域与真实区域之间的内在不一致性，而非表层的语义伪影，如对象形状。我们采用三种标准指标建立严格的评估协议，以评估现有的IMDL方法。该数据集将公开发布，以促进该领域的未来研究。

发布时间: 4/28/2025

查看原文

图神经网络中的个体公平性测试

作者: Roya Nasiri

arXiv:2504.18353v1 宣告类型: cross 摘要：人工智能（AI）模型中的偏差可能导致基于敏感属性（如性别和种族）的自动化决策过程中对某些群体和个人进行歧视。虽然关于诊断和减轻各种AI模型中的偏差的研究很多，但在图神经网络（GNNs）中的个体公平性方面却鲜有研究。与传统的模型独立处理数据特征并忽视它们之间的相互关系不同，GNNs旨在捕捉节点间相互连接的图结构。这种关系方法使得GNNs能够建模复杂依赖性，但也意味着偏差可以通过这些链接传播，增加了检测和减轻个体公平性违反的复杂性。该项目旨在开发一个测试框架，以评估和确保GNN中的个体公平性。首先，该项目系统地回顾了关于个体公平性的文献，对现有的方法进行分类，以定义、测量、测试和减轻模型偏差，创建个体公平性分类。接下来，该项目将开发一个用于测试和确保GNN中公平性的框架，通过调整和扩展当前的公平性测试和缓解技术。该框架将通过基于图的大语言模型的工业案例研究进行评估。

发布时间: 4/28/2025

查看原文

TSCL：基于 Curriculum 学习的多party损失平衡方案深度学习图像隐写术

作者: Fengchun Liu. Tong Zhang, Chunying Zhang

arXiv:2504.18348v1 宣布类型：交叉摘要：对于基于深度学习的图像隐写术框架，在为了确保嵌入信息的不可见性和可恢复性，损失函数通常包含嵌入损失、恢复损失和隐写分析损失等多种损失。之前的研究工作中，通常会选择固定损失权重进行训练优化，这种设置与隐写术任务本身的重要性及训练过程无关。本文提出了一种针对深度学习图像隐写术算法中多类损失的二阶段课程学习损失调度器（TSCL）。TSCL由两个阶段组成：先验课程控制和损失动态控制。第一个阶段首先通过控制多对手对训练中的损失权重，使模型专注于学习原始图像的嵌入信息；其次是使模型将其学习重点转向提高解码准确度；最终使模型学会生成对隐写分析具有抗性的隐写图像。第二个阶段通过计算迭代轮次前后损失下降的变化来评估每项训练任务的学习速度，以平衡各项任务的学习。在ALASKA2、VOC2012和ImageNet三个大型公共数据集上的实验结果显示，提出的TSCL策略提高了隐写术质量、解码准确性和安全性。

发布时间: 4/28/2025

查看原文

大规模语言模型中不确定性测量与缓解方法的比较：一项系统回顾

作者: Toghrul Abbasli, Kentaroh Toyoda, Yuan Wang, Leon Witt, Muhammad Asif Ali, Yukai Miao, Dan Li, Qingsong Wei

arXiv:2504.18346v1 宣布类型: cross 摘要：大规模语言模型（LLMs）在许多领域都取得了变革性的发展。然而，幻觉——即自信地输出错误信息——仍然是LLMs面临的最大挑战之一。这引发了一个问题，即如何准确评估和量化LLMs的不确定性。传统模型的大量文献已经探讨了不确定性量化（UQ）来衡量不确定性，并采用了校准技术以解决不确定性与准确性的不一致问题。虽然一些这些方法已经被改编用于LLMs，但文献中缺乏对它们有效性的深入分析，也没有提供一个综合基准来支持现有解决方案的有意义比较。在这项工作中，我们通过系统调研代表性的先有工作，填补了这一空白，并引入了一个严格的基准。利用两个广泛使用的可靠性数据集，我们对六种相关方法进行了实证评估，这些评估验证了我们综述中的重要发现。最后，我们对未来的主要方向提出了展望，并概述了存在的挑战。据我们所知，这项综述是第一个专门研究LLMs的校准方法及其相关度量的研究。

发布时间: 4/28/2025

查看原文

PHEATPRUNER: 基于持久同调的可解释多变量时间序列分类特征选择

作者: Anh-Duy Pham, Olivier Basole Kashongwe, Martin Atzmueller, Tim R\"omer

arXiv:2504.18329v1 类型: cross 摘要: 在数据复杂性和高维度性的背景下，多变量时间序列分类在平衡性能和可解释性方面面临着重大挑战。本文介绍了一种结合持久同调和层理论的方法——PHeatPruner，以解决这些挑战。持久同调使我们能够在保持或提升随机森林、CatBoost、XGBoost 和 LightGBM 等模型的准确性的前提下，修剪多达45%的应用变量，同时无需依赖后验概率或监督优化算法。同时，层理论提供了解释向量，提供关于数据结构细微差别的更深入见解。该方法使用UEA档案和奶牛乳腺炎检测数据集进行了验证。结果表明，PHeatPruner 有效地保持了模型准确性。此外，我们的结果突显了PHeatPruner 的关键功能，即简化复杂数据并提供可操作的见解，而不增加处理时间和复杂性。该方法填补了复杂性降低和可解释性之间的差距，表明其在各个领域的潜在应用前景。

发布时间: 4/28/2025

查看原文

面向自适应软件代理的调试

作者: Yacine Majdoub, Eya Ben Charrada, Haifa Touati

arXiv:2504.18316v1 类型: cross 摘要：使用多个代理被发现可以提高大型语言模型的调试能力。然而，增加LLM代理的数量有几个缺点，如运行成本增加和代理容易失去焦点。在本文中，我们提出了一种自适应代理设计，其中代理的数量和角色根据要完成的任务特性动态确定。在这种设计中，代理的角色不是预先定义的，而是在分析要解决的问题后生成的。我们的初步评估表明，随着自适应设计的应用，生成的代理数量取决于存在错误代码的复杂性。事实上，对于仅仅存在语法问题的简单代码，通常只需一个代理即可解决问题。然而，对于更复杂的问题，我们注意到创建了更多的代理。关于修复的有效性，我们注意到相比于一次性提示，平均改善了11%。鉴于这些有希望的结果，我们概述了改进自适应软件代理的研究方向，这些代理能够自主规划和执行软件目标。

发布时间: 4/28/2025

查看原文

人工 intelligence 健康建议的准确性在不同语言和背景下有所差异

作者: Prashant Garg, Thiemo Fetzer

arXiv:2504.18310v1 Announce Type: 交叉摘要：利用由英国和欧盟登记处授权的基本健康声明，以及来自审查期刊、政府建议、社交媒体和涵盖政治光谱范围的新闻媒体等来源的9,100个记者审核过的公共卫生主张（涉及堕胎、新冠病毒和政治等话题），我们针对21种语言中的六种领先的大语言模型进行了基准测试，发现尽管在以英语为中心的教科书声明上表现出很高的准确性，但在多种非欧洲语言上的表现却下降，并且在不同话题和来源上波动，强调了在将AI应用于全球健康沟通之前进行全面的多语言、领域 aware 的验证的重要性。

发布时间: 4/28/2025

查看原文