arXiv 论文列表

Omni-Dish：任意中国菜肴的 PHOTOREALISTIC 且忠于原样的图像生成与编辑

作者: Huijie Liu, Bingcan Wang, Jie Hu, Xiaoming Wei, Guoliang Kang

arXiv:2504.09948v1 宣传类型: 交叉摘要：餐盘图像在数字时代扮演着重要角色，随着食品行业和电子商务的数字化，对具有文化特色餐盘图像的需求不断增加。一般来说，现有的文本到图像生成模型在生成高质量图像方面表现出色；然而，它们在捕捉特定领域，特别是中国菜肴的多样特性和真实细节方面存在困难。为了解决这一限制，我们提出了一体化菜肴（Omni-Dish），这是首款专门针对中国菜肴的文本到图像生成模型。我们开发了一个全面的菜肴策展管道，构建了迄今为止最大的菜肴数据集。此外，我们引入了一种重新生成策略并采用粗到细的训练方案，以帮助模型更好地学习精细的烹饪细微差别。在推断过程中，我们利用预先构造的高质量描述库和大型语言模型增强用户的文本输入，从而实现更加逼真和忠实的图像生成。此外，为了扩大我们模型在菜肴编辑任务方面的功能，我们提出了增强概念的P2P。基于此方法，我们构建了一个菜肴编辑数据集并训练了一个专门的编辑模型。广泛实验表明了我们方法的优势。

发布时间: 4/15/2025

查看原文

FedRecon：分布式异构环境中缺失模态的重建

作者: Junming Liu, Guosun Zeng, Ding Wang, Yanting Gao, Yufei Jin

arXiv:2504.09941v1 宣布类型: cross 摘要: 在现实世界场景中，多模态数据通常不完整，并表现出非独立且非同分布（Non-IID）的特性。这些固有的限制导致了模态异构性，通过部分模态缺失，以及由于分布差异引起的数据异构性，从而为有效的联邦学习（FL）带来了根本性的挑战。为了应对这些相互关联的挑战，我们提出了FedRecon，这是第一个同时针对多模态FL中缺失模态重建和Non-IID适应的方法。我们的方法首先通过轻量级的多模态变分自编码器（MVAE）来重建缺失的模态，同时保持跨模态一致性。不同于传统的插补方法，我们通过一种新颖的分布映射机制实现了样本级别的对齐，从而保证了数据的一致性和完整性。此外，我们引入了一种策略，通过冻结全局生成器以防止灾难性遗忘，从而减轻Non-IID波动。在多模态数据集上的广泛评估表明，FedRecon在Non-IID条件下能够更优越地实现模态重建，超越了最先进的方法。

发布时间: 4/15/2025

查看原文

KeepKV：消除KV缓存压缩中的输出扰动以实现高效LLM推理

作者: Yuxuan Tian, Zihan Wang, Yebo Peng, Aomufei Yuan, Zhiming Wang, Bairen Yi, Xin Liu, Yong Cui, Tong Yang

arXiv:2504.09936v1 Announce Type: cross 摘要：大规模语言模型（LLMs）的有效推理受到不断增长的关键值（KV）缓存的阻碍，因此KV缓存压缩成为关键技术研究方向。传统方法通过基于注意力得分或位置启发式策略选择性地移除不太重要的KV缓存条目，导致信息丢失和幻觉。最近，已经探索了基于合并的策略，通过合并将要被丢弃的KV对来保留更多信息；然而，这些现有方法不可避免地在合并前后引入了注意力分布的一致性问题，导致输出扰动和生成质量下降。为了解决这一挑战，我们提出了KeepKV，这是一种新颖的自适应KV缓存合并方法，旨在在严格的内存约束下消除输出扰动并保持性能。KeepKV引入了选举票机制，记录合并历史并适应性调整注意力得分。此外，它还进一步利用了一种新颖的零推理-扰动合并方法，保持了注意力的一致性，并补偿了由于缓存合并而导致的注意力损失。KeepKV成功地在显著压缩的缓存中保留了重要的上下文信息。在各种基准和LLM架构上的广泛实验表明，KeepKV显著减少了内存使用，通过超过2倍的推理吞吐量提升，并且即使在10%的KV缓存预算下，也能保持卓越的生成质量。

发布时间: 4/15/2025

查看原文

量子自然语言处理：模型、方法和应用的全面综述

作者: Farha Nausheen, Khandakar Ahmed, M Imad Khan

arXiv:2504.09909v1 交叉类型: cross 摘要: 在最近的发展中，应用于自然语言处理（NLP）的深度学习方法揭示了一个悖论：它们虽然能够提高性能，但在训练过程中却需要大量的数据和资源。相反，量子计算利用量子力学的基本原理来克服当前方法的计算限制，从而建立了量子自然语言处理（QNLP）这一新兴领域。这一领域有可能在处理语言结构方面取得量子优势，无论是在效率上还是精度上都能超越经典模型。在本文中，我们提出了基于量子计算原理、架构和计算方法来分类QNLP模型。本文试图通过映射这一领域的最新进展，介绍量子编码技术、适用于常见NLP任务的QNLP模型以及用于超参数调整的量子优化技术，来探讨量子与语言的交汇点。通过展示特定的QNLP方法及其使用情况，并通过这些方法的数量来反映其受欢迎程度，对应用于各种NLP任务的量子计算方法进行了总结。从研究结果中可以看出，QNLP方法仍局限于小数据集，只有少数模型得到了广泛的探索，并且越来越多地兴趣被投入到将量子计算应用于自然语言处理任务中。

发布时间: 4/15/2025

查看原文

基于塑性混合专家的学习在QoE变化下的自适应视频流传输

作者: Zhiqiang He, Zhi Liu

arXiv:2504.09906v1 交叉公告类型摘要：自适应视频流媒体系统旨在优化用户体验（QoE），从而提升用户满意度。然而，不同用户特征和视频内容导致QoE因素的权重不同，从而产生用户特定的QoE函数和不同的优化目标。这种变化性给神经网络带来了重大挑战，因为它们往往难以在目标变化时泛化——一种称为塑性损失的现象，这阻碍了传统模型有效地适应不断变化的优化目标。为了应对这一限制，我们提出了感知塑性的混合专家（PA-MoE）学习框架，该框架通过平衡记忆保留与选择性遗忘来动态调节网络塑性。特别是，PA-MoE 利用噪声注入促进对过时知识的选择性遗忘，从而使神经网络获得增强了的自适应能力。此外，我们对 PA-MoE 进行了严格的理论分析，并推导出一个遗憾界来量化其学习性能。实验评估表明，在动态流媒体环境中，PA-MoE 在QoE方面比竞争性基线提高了45.5%。进一步的分析表明，该模型通过优化神经元利用来有效缓解塑性损失。最后，我们通过注入不同水平的噪声进行参数敏感性研究，结果与我们的理论预测高度一致。

发布时间: 4/15/2025

查看原文

参考答案学习：无需二进制人类偏好数据的多功能语言模型对齐

作者: Shuai Zhao, Linchao Zhu, Yi Yang

arXiv:2504.09895v1 宣告类型: cross 摘要：大规模语言模型（LLMs）预期是有帮助的、无害的和诚实的。在各种对齐场景中，如一般人类偏好、安全性和信心对齐，基于二元偏好数据收集和奖励建模是资源密集但必要的，以实现人类偏好的转移。在本文中，我们探索了将抽取生成内容与其高质量参考答案之间的相似性作为LLM对齐的替代奖励函数的可能性。使用相似性作为奖励可以避免训练奖励模型，而收集一个参考答案可能比在有多项候选时构建二元偏好配对所需时间更少。具体而言，我们开发了RefAlign，这是一种通用的REINFORCE风格对齐算法，完全不需要参考模型和奖励模型。相反，RefAlign利用抽取生成内容与高质量参考答案之间的BERTScore作为代理奖励。除了通用的人类偏好优化，RefAlign可以通过结合相似性奖励和任务相关目标轻松应用于诸如安全性和信心对齐等多样化场景。在各种场景中，RefAlign在性能上与之前的对齐方法相当，同时具有很高的效率。

发布时间: 4/15/2025

查看原文

LangPert：检测和处理任务级扰动以实现鲁棒物体重排

作者: Xu Yin, Min-Sung Yoon, Yuchi Huo, Kang Zhang, Sung-Eui Yoon

arXiv:2504.09893v1 类别: cross 摘要：对象重新布置任务执行可能会受到任务级扰动（TLP）的挑战，即意外的对象添加、移除和位移，这些扰动可能破坏底层的视觉策略，从根本上损害任务的可行性和进展。为应对这些挑战，我们提出了LangPert，一种基于语言的框架，用于检测和缓解桌面上对象重新布置任务中的TLP情况。LangPert集成了视觉语言模型（VLM），以全面监控策略技能的执行和环境中的TLP，同时利用层次链式思维（HCoT）推理机制来增强大型语言模型（LLM）的上下文理解，并生成适应性和纠正性的技能执行计划。我们的实验结果表明，LangPert在处理多样化的TLP情况方面比基线方法更有效，实现了更高的任务完成率、改进的执行效率以及对未见过的场景的潜在泛化。

发布时间: 4/15/2025

查看原文

从技术支持文档构建微观知识图谱

作者: Atul Kumar, Nisha Gupta, Saswati Dana

arXiv:2504.09877v1 宣告类型：交叉摘要: IBM Technotes 等简短的技术支持页面在技术支持领域非常常见。这些页面可以作为聊天机器人、搜索引擎和问答系统等技术支持应用的知识来源非常有用。从文档中提取用于驱动技术支持应用的信息通常以知识图谱（KG）的形式存储。从大量文档语料库构建知识图谱面临粒度上的挑战，因为每个页面上存在大量的实体和动作。如果将这些页面上的所有实体和动作都存储到知识图谱中，知识图谱将变得实际上无法使用。因此，仅从每个页面中提取关键的实体和动作并存储到知识图谱中。然而，这种方法导致了未包含在知识图谱中的实体和动作所表示的知识的损失，因为这些信息不再可供图搜索和推理功能使用。我们提出了一套技术来为这些网页创建微型知识图谱（微图）。微图存储了页面上的所有实体和动作，并利用页面的结构来表示这些实体和动作出现在页面的哪个部分，以及它们之间的关系。这些微图可以作为技术支持应用的额外知识来源。我们定义了表示技术支持网页中半结构化和纯文本知识的模式。技术支持领域中的解决方案包括由步骤组成的程序。我们还提出了一种从这些网页中提取程序并在微图中表示它们的技术。我们还讨论了技术支持应用如何利用微图。

发布时间: 4/15/2025

查看原文

HDC：多层次蒸馏在半监督胎儿超声分割中的多级噪声一致性

作者: Tran Quoc Khanh Le, Nguyen Lan Vi Vu, Ha-Hieu Pham, Xuan-Loc Huynh, Tien-Huy Nguyen, Minh Huu Nhat Le, Quan Nguyen, Hien D. Nguyen

arXiv:2504.09876v1 交叉类型：公告摘要：经阴道超声是评估宫颈解剖结构和检测生理变化的关键成像技术。然而，由于对比度低、阴影伪影和边界模糊，宫颈结构的精确分割仍然具有挑战性。虽然卷积神经网络（CNNs）在医学图像分割中显示出有希望的结果，但由于需要大规模注释数据集，其性能常常受到限制——而在临床超声成像中这是不切实际的要求。半监督学习（SSL）提供了一种引人注目的解决方案，通过利用未标记的数据，但现有的教师-学生框架往往受到确认偏见和高计算成本的困扰。我们提出了一种新的半监督分割框架HDC，该框架在多层次噪声教师框架中集成了层次蒸馏和一致性学习。与传统的仅依赖伪标签的方法不同，我们引入了一种层次蒸馏机制，通过两个新颖的目标来引导特征层面的学习：（1）相关指导损失，以对齐教师和主要学生分支的特征表示；（2）互信息损失，以稳定主要学生分支和嘈杂学生分支之间的表示。我们的框架在减少模型复杂性的同时提高了泛化能力。在两个胎儿超声数据集FUGC和PSFH上的大规模实验表明，我们的方法在计算开销显著低于现有多种教师模型的情况下，实现了具有竞争力的效果。

发布时间: 4/15/2025

查看原文

截断矩阵完成：一项实证研究

作者: Rishhabh Naik, Nisarg Trivedi, Davoud Ataee Tarzanagh, Laura Balzano

arXiv:2504.09873v1 交叉类型：摘要：低秩矩阵完成（LRMC）描述了我们希望恢复部分观察到的低秩矩阵中缺失项的问题。现有的大多数矩阵完成工作处理的是与底层数据值独立的采样过程。尽管这一假设允许得出美妙的理论保证，但在实际应用中它很少成立。在本文中，我们考虑了各种采样掩膜依赖于底层数据值的设置，受传感、顺序决策和推荐系统应用的启发。通过一系列实验，我们研究并比较了原本对数据无关采样模式成功的各种LRMC算法的性能。

发布时间: 4/15/2025

查看原文