arXiv 论文列表

作者: Rong Chen, Shuzhi Cao, Ailong He, Shuguang Han, Jufeng Chen

arXiv:2503.18395v1 交叉类别：搜索推荐系统摘要：搜索推荐系统中的两大主要任务是搜索相关性匹配和点击率（CTR）预测——前者侧重于为用户查询找到相关项，而后者则预测哪些项可能更好地符合用户兴趣。以往的研究通常分别开发两种模型来预测CTR和搜索相关性，然后根据这两种模型的融合结果对候选项进行排名。然而，这种分而治之的方法在不同模型之间造成了不一致性。同时，搜索相关性模型主要关注客观文本匹配的程度，而忽视了不同用户之间的个性化差异，导致模型性能受到限制。为了解决这些问题，我们提出了一种统一的**个性化搜索相关性匹配和CTR预测融合模型**（PRECTR）。具体来说，基于条件概率融合机制，PRECTR将CTR预测和搜索相关性匹配整合到一个框架中，以增强两部分模块之间的交互和一致性。然而，直接优化CTR二分类损失可能对融合模型的收敛性带来挑战，并可能导致长期展示高CTR的项目，而不考虑其搜索相关性。因此，我们进一步引入了两阶段训练和语义一致性正则化，以加速模型的收敛并抑制推荐不相关项目。最后，考虑到不同用户可能有不同的相关性偏好，我们通过分析类似查询的过往用户偏好来评估当前用户的相关性偏好，并相应地为不同的候选项量身定制激励措施。在我们的生产数据集上的广泛实验结果和在线A/B测试表明，我们提出的PRECTR方法的有效性和优越性。

发布时间: 3/25/2025

查看原文

操纵与AI法案：大规模语言模型聊天机器人的镜子危险性

作者: Joshua Krook

arXiv:2503.18387v1 交叉类型：公告摘要：大型语言模型聊天机器人越来越以人类的形式出现，适应人类的面孔、姓名、声音、个性和特点，包括名人和知名政治人物的特点。使AI聊天机器人拟人化可能会增强用户对它们的信任。然而，这也可能使它们更容易被操控，通过创建与人造实体之间亲密关系的错觉。欧洲委员会最终制定了AI法案，欧盟议会对其进行了修正，禁止导致用户重大损害的欺骗性和操控性AI系统。尽管AI法案涵盖了随着时间累积造成的损害，但不大可能防止与AI聊天机器人长时间讨论所造成的损害。具体来说，聊天机器人可以通过消极的反馈循环、长时间的对话或有害的建议，在数周、数月或数年内强化一个人的消极情绪状态，从而损害用户的心理健康。

发布时间: 3/25/2025

查看原文

基于动态掩码指导的资源高效运动控制视频生成

作者: Sicong Feng, Jielong Yang, Li Peng

arXiv:2503.18386v1 Announce Type: cross 摘要：近期扩散模型的发展为视觉内容创作带来了新的活力。然而，当前的文本到视频生成模型仍然面临着许多挑战，如高昂的训练成本、大量的数据需求，以及难以保持给定文本和前景物体运动之间的一致性。为了解决这些挑战，我们提出了一种掩码引导的视频生成方法，该方法可以通过掩码运动序列控制视频生成，同时只需要少量的训练数据。我们的模型通过引入前景掩码来增强现有架构，实现精确的文字位置匹配和运动轨迹控制。通过掩码运动序列，我们引导视频生成过程，确保整个序列中的前景物体保持一致。此外，通过第一帧共享策略和自回归扩展方法，我们实现了更稳定和更长的视频生成。广泛的质量和定量实验表明，该方法在各种视频生成任务中表现出色，如视频编辑和生成艺术性视频，在一致性和质量方面优于以往的方法。我们在补充材料中展示了生成的结果。

发布时间: 3/25/2025

查看原文

RoCA：具有污染数据的鲁棒对比单类时间序列异常检测

作者: Xudong Mou, Rui Wang, Bo Li, Tianyu Wo, Jie Sun, Hui Wang, Xudong Liu

arXiv:2503.18385v1 类型: cross 摘要：时间序列信号的累积和缺乏标签使得时间序列异常检测（AD）成为一个自监督的深度学习任务。基于正态假设的方法面临着以下三个局限性：（1）单个假设难以全面描述正态性或导致偏差。（2）一些假设可能违背异常检测的原则。（3）它们的基本假设是训练数据不受污染（不含异常值），在实践中这通常是不现实的，从而导致鲁棒性下降。本文提出了一种新颖的鲁棒方法RoCA，据我们所知，它可以解决上述所有三个挑战。它将单一训练过程中一类分类和对比学习的分离假设融合在一起，以更全面地描述所谓的正态性。此外，它在整个训练过程中监控训练数据并计算精心设计的异常得分。该得分有助于识别潜在的异常，然后用于定义分类边界，灵感来源于离群值暴露的概念。相对于不考虑污染情况下的COCA方法，RoCA在AIOps数据集上的性能提高了6%。在两个大型和高维的多变量数据集上，性能提高了5%到10%。RoCA在所有一维和多变量数据集上实现了最高的平均性能。源代码可在https://github.com/ruiking04/RoCA 获取。

发布时间: 3/25/2025

查看原文

PP-FormulaNet：在高级公式识别中桥接准确率和效率

作者: Hongen Liu, Cheng Cui, Yuning Du, Yi Liu, Gang Pan

arXiv:2503.18382v1 交叉公告类型摘要：公式识别是文档智能中的重要任务。它涉及将文档图像中的数学表达式转换为计算机可以轻松处理的结构化符号格式。该领域最常用的是LaTeX格式。在本工作中，我们提出了PP-FormulaNet，这是一种在准确性和效率方面都处于领先水平的公式识别模型。为了满足应用的多样化需求，我们开发了两种专门模型：PP-FormulaNet-L，适用于高精度场景，以及PP-FormulaNet-S，优化了高效率上下文。我们的广泛评估显示，PP-FormulaNet-L 的准确率显著超过了如UniMERNet等知名模型，超越幅度达6%。相比之下，PP-FormulaNet-S 的运行速度快了超过16倍。这些进展使得PP-FormulaNet能够无缝集成到涉及复杂数学公式的广泛文档处理环境中。此外，我们还引入了一种公式挖掘系统，能够提取大量的高质量公式数据。该系统进一步增强了我们公式识别模型的稳定性和适用性。PP-FormulaNet的代码和模型可以在PaddleOCR（https://github.com/PaddlePaddle/PaddleOCR）和PaddleX（https://github.com/PaddlePaddle/PaddleX）中公开获取。

发布时间: 3/25/2025

查看原文

最大冗余修剪：一种原理驱动的层wise稀疏分配方法用于大规模语言模型

作者: Chang Gao, Kang Zhao, Jianfei Chen, Liping Jing

arXiv:2503.18377v1 类型: cross 摘要: 大型语言模型（LLMs）展示了令人印象深刻的性能，但其庞大的规模在实际应用部署中带来了重大挑战。为解决这一问题，研究人员尝试将网络剪枝技术应用于LLMs。剪枝中的一个关键挑战是如何为每一层分配稀疏性。最近的稀疏性分配方法往往基于启发式方法或搜索，容易导致性能不佳。在本文中，我们对各种LLMs进行了广泛的研究，揭示了三个重要的发现：（1）LLMs的层间剪枝敏感度（LPS）高度不均匀。（2）剪枝度量的选择影响LPS。（3）稀疏模型的性能与其层间冗余水平的均匀性相关。基于这些观察，我们认为LLMs的层间稀疏性应遵循三个原则：**非均匀性**、**剪枝度量依赖性**和**最优层间冗余水平**。为实现这一目标，我们提出了最大冗余剪枝（MRP），这是一种迭代剪枝算法，每一轮次在最冗余的层（即非离群值比例最高的层）进行剪枝。实现的层间稀疏性与上述原则相吻合。我们对多个公开可用的LLMs，包括LLaMA2和OPT，在各种基准上进行了广泛的实验。实验结果验证了MRP的有效性，表明其优于先前的方法。

发布时间: 3/25/2025

查看原文

潜嵌入适应：在扩散计划中对齐人类偏好的方法

作者: Wen Zheng Terence Ng, Jianda Chen, Yuan Xu, Tianwei Zhang

arXiv:2503.18347v1 个人化类型：交叉摘要：本工作针对在自动化决策系统中生成的轨迹进行个性化的问题，引入了一种资源高效的解决方案，能够快速适应个体用户的偏好。我们的方法利用了一个在大量未奖励的离线数据集上预训练的条件扩散模型，并结合了偏好潜在嵌入（PLE）。PLE 作为一个紧凑的表示形式，用于捕捉特定的用户偏好。通过使用我们提出的一种偏好反向方法来适应预训练模型，直接优化可学习的 PLE，我们能够在人类偏好匹配上优于现有的解决方案，如基于人类反馈的强化学习（RLHF）和低秩适应（LoRA）。为了更好地反映实际应用，我们在多种高奖励轨迹上使用真实的人类偏好创建了一个基准实验。

发布时间: 3/25/2025

查看原文

优化影响活动：在有限信任下的引导

作者: Yen-Shao Chen, Tauhid Zaman

arXiv:2503.18331v1 宣布类型：交叉摘要：在线社交网络中的影响运动通常由组织、政治党派和国家进行，以影响大量观众。这些运动通过网络中的代理分享有说服力的内容来进行。然而，如果观众未受影响，其影响可能会很小，通常由于有界自信现象，即只有狭小的观点范围能够影响他们。在这里我们展示，在有界自信的情况下，代理必须逐步引导其目标改变其观点来使其信服。通过控制理论方法，我们展示了如何在有界自信意见动力学模型下构造代理的引导策略，以及如何在社交网络上的影响运动中为多个代理选择目标。对真实Twitter网络的模拟表明，多代理引导策略可以改变意见的平均值，减少意见极化，甚至可以增加意见极化。我们发现，基于引导的策略优于其他不考虑有界自信效果的常见技术。最后，我们展示了如何为ChatGPT等大型语言模型制定提示，以生成基于文本的实际引导策略内容。这说明了我们方法的实际可行性，允许从数学上的引导策略到实际社交媒体内容的转换。

发布时间: 3/25/2025

查看原文

基于双空间多维度概念控制的即插即用可解释负责任文本到图像生成

作者: Basim Azam, Naveed Akhtar

arXiv:2503.18324v1 安全类型：交叉摘要：文本到图像（T2I）模型周围的道德问题要求对生成的内容进行全面控制。现有的为负责任的T2I模型解决这些问题的技术旨在使生成的内容公平且安全（非暴力/不具表现性）。然而，这些方法仍然局限于单独处理责任概念的各种方面，同时在可解释性方面也存在不足。此外，它们通常需要对原始模型进行修改，这会损害模型性能。在此项工作中，我们提出了一种独特的方法，通过同时考虑广泛的公平和安全的内容生成概念，使负责任的T2I生成成为可能。关键的想法是使用外部插件机制提炼目标T2I流水线，从而学习一个针对所需概念的可解释的复合责任空间，该空间依赖于目标T2I流水线。我们采用知识提炼和概念去色化使这一目标得以实现。在推理时，学习到的空间用于调节生成的内容。一个典型的T2I流水线为我们的方法提供了两个可以插入的点，即文本嵌入空间和扩散模型潜在空间。我们为此两个点开发了模块，并通过一系列强劲的结果展示了我们方法的有效性。

发布时间: 3/25/2025

查看原文

LoTUS: 大规模机器卸载与不确定性之味

作者: Christoforos N. Spartalis, Theodoros Semertzidis, Stratis Gavves, Petros Daras

arXiv:2503.18314v1 宣布类型: cross 摘要: 我们提出了LoTUS，这是一种新颖的机器遗忘(MU)方法，它从预训练模型中消除了训练样本的影响，避免了从头开始重新训练。LoTUS使模型的预测概率平滑化——最多达到信息论边界——减轻了数据记忆导致的过度自信。我们使用Transformer和ResNet18模型，在五个公开数据集上，与八种基线方法进行了评估。除了现有的MU基准测试之外，我们还在一个大规模数据集（ImageNet1k）上评估了遗忘的效果，该数据集阻碍了重新训练，模拟了实际条件。此外，我们引入了新颖的无重新训练杰ukes-شannon 分散度(RF-JSD)度量，以便在实际条件下去评估。实验结果表明，LoTUS在效率和效果上都优于现有最先进的方法。代码：https://github.com/cspartalis/LoTUS。

发布时间: 3/25/2025

查看原文