LLM2D

arXiv 论文列表

arXiv:2503.23630v1 类型: cross 摘要:推荐系统在封闭的反馈循环中运行,用户交互强化了流行度偏差,导致过度推荐已经流行的商品,同时减少对小众或新颖内容的展示。现有的偏差缓解方法,如逆权评分(IPS)和离策训练校正(OPC),主要在排名阶段或训练期间运行,缺乏对曝光动态的明确实时控制。在本工作中,我们引入了一种关注曝光的检索评分方法,该方法明确建模项目曝光概率,并在推理时调整检索阶段的排名。与前人的研究不同,该方法将曝光效果与参与可能性解耦,使大规模推荐平台能够在公平性和参与度之间进行可控的权衡。我们通过在实际视频推荐系统中的在线A/B实验验证了该方法,结果显示独特检索项目的增加比例为25%,过度流行内容的主导性降低40%,同时保持总体用户参与度。我们的研究表明,有一种可扩展且可部署的解决方案,可以在检索阶段缓解流行度偏差,提供了一种新的针对性偏差的个性化范式。
发布时间: 4/1/2025
查看原文
作者: Nisal Ranasinghe, Damith Senanayake, Saman Halgamuge
arXiv:2503.23617v1 公告类型:交叉领域 摘要:在各个领域中,能够发现有意义、准确且精炼的数学方程以描述数据集的能力是宝贵的。方程提供了变量之间明确的关系,从而为深入了解潜在数据模式提供了更深层次的见解。目前大多数方程发现方法依赖于遗传程序,该方法会迭代地搜索方程空间,但通常速度较慢,并且容易过拟合。通过将方程表示为有向无环图,我们利用图神经网络来学习方程的潜在语义,并生成新的、以前未见过的方程。尽管图生成模型在许多领域中证明了在发现新类型的图方面是成功的,但它们在发现方程方面的应用仍然大多未被探索。在这项工作中,我们提出Graph-EQ,一种用于高效方程发现的深度图生成模型。Graph-EQ 使用条件变分自编码器(CVAE)以无监督的方式训练大量的方程集,学习方程空间的丰富潜在表示。我们不是直接搜索方程空间,而是采用贝叶斯优化来高效地探索学习到的潜在空间。我们展示了Graph-Eq 的编码器-解码器架构能够准确重构输入方程。此外,我们展示了学习到的潜在表示可以被采样和解码成有效的方程,包括训练数据中的新和以前未见过的方程。最后,我们通过使用贝叶斯优化在潜在空间中探索,评估Graph-Eq 发现最佳匹配数据集方程的能力。潜在空间探索在20个已知真实方程的数据集上进行,结果显示Graph-Eq 成功地在大多数数据集中发现了真实方程。
发布时间: 4/1/2025
查看原文
作者: Sebastian Johann Wetzel, Seungwoong Ha, Raban Iten, Miriam Klopotek, Ziming Liu
arXiv:2503.23616v1 交叉类型: 摘要: 机器学习越来越多地在各个科学领域中进行变革,这得益于计算能力的提升以及对实验和模拟产生的大规模数据集的访问。随着人工智能(AI)能力的不断增长,这些算法将使许多超出人类能力范围的科学发现成为可能。由于科学的主要目标是理解我们周围的世界,充分利用机器学习进行科学发现需要可解释的模型——使专家能够理解机器学习预测背后的概念。成功的解释增加了对黑盒方法的信任,有助于减少错误,使基础模型得以改进,增强人类与AI的合作,并最终使完全自动的科学发现仍然可以为人类科学家所理解。本文审查了机器学习在物理学中的应用中可解释性的作用。我们对可解释性的不同方面进行了分类,讨论了以可解释性和性能为标准的机器学习模型,并探讨了可解释性在科学研究中的哲学含义。此外,我们还强调了物理学各个子领域中可解释机器学习的最新进展。通过跨越学科界限——每个学科都有其独特的洞见和挑战——我们旨在将可解释性机器学习确立为科学的核心研究重点。
发布时间: 4/1/2025
查看原文
作者: Kasra Jalaldoust, Alexis Bellot, Elias Bareinboim
arXiv:2503.23605v1 宣布类型:交叉 摘要:在人工智能中,一个基本任务是为在未见领域做出的预测提供性能保证。实际上,新数据的分布可能会有很大不确定性,现有预测器的性能也会相应地变化。本论文基于部分识别和可传输性的理论,引入了在给定量源自域的数据和数据生成机制假设(编码在因果图中)的情况下,对目标分布的函数(如分类器的泛化误差)上限的新结果。我们的贡献是提供了第一个适用于传输问题的一般估计技术,通过适应现有参数化方案(如神经因果模型)来编码跨人群推理所需的结构约束。我们展示了该过程的表达能力和一致性,并进一步提出了一种基于梯度的优化方案,以在实践中进行可扩展的推导。我们的结果得到了实验的验证。
发布时间: 4/1/2025
查看原文
作者: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
arXiv:2503.23573v1 交叉类型: cross 摘要:视觉-语言模型(VLMs)容易出现物体错觉现象,即它们错误地表明图像中存在某些物体。现有的基准是通过相对较小且已标记的数据集来量化错觉的。然而,这种方法在以下两个方面存在不足:i) 无法评估在开放世界环境中产生的错觉,而VLMs广泛应用于此类环境;ii) 无法检测VLMs中的系统性错误。我们提出了DASH(Detection and Assessment of Systematic Hallucinations)自动大规模流水线,旨在识别VLMs在开放世界环境中对真实世界图像中的系统性错觉。关键组成部分是基于图像的检索DASH-OPT,我们通过优化“自然图像流形”来生成误导VLM的图像。DASH的输出包括VLM错觉产生的真实和语义相似图像的簇。我们使用DASH对PaliGemma和两个LLaVA-NeXT模型在380个对象类别上进行了测试,并总共找到了19,000多个簇,涉及950,000张图像。我们研究了识别出的系统性错觉在其他VLM中的转移,并展示了使用DASH获得的模型特定图像对PaliGemma进行微调可以减轻物体错觉。相关代码和数据可在https://YanNeu.github.io/DASH处获取。
发布时间: 4/1/2025
查看原文
arXiv:2503.23550v1 交叉公告类型:cross 摘要:准确预测药物-药物相互作用(DDIs)对于制药研究和临床安全性至关重要。近期的深度学习模型经常面临高计算成本和在不同数据集上的有限泛化能力。在这项研究中,我们探讨了一种简单且有效的方法,使用诸如 Morgan 指纹(MFPS)、基于图卷积网络(GCNs)的图嵌入以及 MoLFormer 提取的基于变换器的嵌入,并将这些嵌入整合到一个简单的神经网络中。我们在 DrugBank DDI 分割数据集和食品药品监督管理局提供的药物-药物亲和力(DDA)数据集上对我们的实现进行了基准测试。MFPS 与 MoLFormer 和 GCN 表征在任务上均表现出竞争性性能,即使在更具挑战性的防范泄露分割中也是如此,突显了简单分子表征的充分性。此外,我们能够通过基于梯度的分析识别出相关于药物相互作用的关键分子模式和结构模式。尽管取得这些成果,但由于数据集限制,如化学多样性不足、数据集规模有限以及标注不一致等问题,仍对稳健评估造成影响,并挑战了更复杂方法的必要性。我们的工作提供了一个有意义的基准,并强调了需要更好的数据集编目和逐步增加复杂性的需求。
发布时间: 4/1/2025
查看原文
作者: Jiahao Li, Yiqiang Chen, Yunbing Xing, Yang Gu, Xiangyuan Lan
arXiv:2503.23536v1 类型:交叉 摘要:不可学习数据(ULD)作为一种创新的防御技术,通过阻止机器学习模型从特定数据中学习到有意义的模式,从而保护数据隐私和安全。通过向训练数据引入扰动,ULD会降低模型性能,使得未经授权的模型难以提取有用的信息。尽管ULD越来越受到重视,但现有的综述大多侧重于相关领域,如对抗攻击和机器遗忘,对ULD作为独立研究领域关注较少。本文通过全面回顾ULD,研究不可学习数据生成方法、公开基准、评估指标、理论基础和实际应用,填补了这一空白。我们比较了不同ULD方法,并分析它们在不可学习性、不可感知性、效率和鲁棒性方面的优劣和权衡。此外,我们讨论了关键挑战,如在扰动不可感知性和模型性能降低之间取得平衡,以及ULD生成的计算复杂性。最后,我们指出了未来研究的潜在方向,以提高ULD的有效性和适用性,强调其在机器学习数据保护演进场景中成为关键工具的潜力。
发布时间: 4/1/2025
查看原文
arXiv:2503.23534v1 表示类型: cross 摘要:医学图像分割通常仅依赖于视觉数据,而忽视了临床医生在诊断中使用的丰富文本信息。视觉语言模型试图弥合这一差距,但现有的方法往往将视觉和文本特征独立处理,导致跨模态对齐较弱。简单的融合技术由于空间视觉特征和序列文本嵌入之间的固有差异而失败。此外,医学术语与通用语言不同,限制了现成文本编码器的有效性,进一步阻碍了视觉语言对齐。我们提出了BiPVL-Seg,这是一种端到端框架,通过架构和训练创新将视觉语言融合和嵌入对齐相结合,其中两个组成部分相互强化以提高医学图像分割的性能。BiPVL-Seg引入了架构中的双向分阶段融合,这促进了视觉编码器和文本编码器之间的阶段间信息交换。此外,它还包含了全局-局部对比对齐,这是一种训练目标,通过在类别和概念层面对文本和视觉嵌入进行对齐来增强文本编码器的理解。在CT和MR模态下多种医学成像基准上的广泛实验结果表明,当与最先进的复杂多类分割方法进行比较时,BiPVL-Seg表现出更优异的性能。源代码可在该GitHub仓库中获得。
发布时间: 4/1/2025
查看原文
作者: Siqi Fan, Xiusheng Huang, Yiqun Yao, Xuezhi Fang, Kang Liu, Peng Han, Shuo Shang, Aixin Sun, Yequan Wang
arXiv:2503.23514v1 宣告类型: 横跨多个领域 摘要:大规模语言模型(LLMs)能够进行类似人类的对话,但不同的是,由于叠加属性,它们是无状态的。然而,在多轮、多智能体交互过程中,LLMs开始表现出一致的、类似角色的行为,这暗示着某种形式的 Emergent 终身学习。尽管如此,现有基准通常未能捕捉这些动态,主要集中在静态、开放式评估上。为了解决这一差距,我们引入了 LIFESTATE-BENCH,这是一个旨在评估 LLMs 终身学习能力的基准。它包含两个分集数据集:Hamlet 和一个合成剧本集,这些剧本富含叙述结构和角色互动。我们的事实检查评估测试了模型的自我意识、事件记忆检索和关系跟踪能力,涵盖了参数化和非参数化方法。在 Llama3.1-8B、GPT-4-turbo 和 DeepSeek R1 模型上进行的实验表明,非参数化方法在处理有状态学习方面显著优于参数化方法。然而,所有模型在交互时间延长时都表现出灾难性遗忘的挑战,突显了进一步在终身学习方面的必要进步。
发布时间: 4/1/2025
查看原文
作者: Xingyu Lyu, Ning Wang, Yang Xiao, Shixiong Li, Tao Li, Danjue Chen, Yimin Chen
arXiv:2503.23511v1 安全类型:cross 摘要:联邦学习(FL)是一种流行的方法,允许客户端在不共享原始数据的情况下共同训练一个全局模型。然而,FL 因其分布式特性而知悉容易遭受后门攻击。作为参与者,攻击者可以上传有效破坏 FL 的模型更新。更糟糕的是,现有的防御措施大多是在独立同分布(iid)的假设下设计的,因而忽视了 FL 基本的非iid 特征。在这里,我们提出了一种名为 FLBuff 的方法,以应对在非iid 情况下的后门攻击。这种防御的主要挑战在于,非iid 使得良性更新和恶意更新更加接近,难以区分。FLBuff 得益于我们对非iid 可以被视为在表示空间中的全方位扩展,而后门攻击则是单向的这一洞察。这导致了 FLBuff 的关键设计:一个监督对比学习模型,提取倒数第二层表示,以创建一个大的缓冲层。全面的评估表明,FLBuff 一致地优于最先进的防御措施。
发布时间: 4/1/2025
查看原文