arXiv 论文列表

作者: WonJun Moon, Cheol-Ho Cho, Woojin Jun, Minho Shim, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Jae-Pil Heo

arXiv:2504.13035v1 类型: cross 摘要: 在检索系统中，同时实现搜索准确性和效率本身就是一项艰巨的任务。这一挑战在部分相关视频检索（PRVR）中尤为明显，通过为每个视频引入多种不同时间尺度的内容表示可以提高准确性，但同时也会增加计算和内存成本。为了应对这一矛盾，我们提出了一种原型PRVR框架，将视频中的多样内容编码为固定数量的原型。我们随后引入了几种策略来增强原型内的文本关联和视频理解，并引入了一个正交目标以确保原型捕捉到内容的多样性。为了通过文本查询保持原型的可检索性，同时准确地编码视频内容，我们实施了跨模式和单模式重构任务。跨模式重构任务将原型与共享空间中的文本特征对齐，而单模式重构任务在编码过程中保留所有视频内容。此外，我们使用视频混合技术为更精细地对齐原型及其相关文本表示提供弱指导。在TVR、ActivityNet-Captions和QVHighlights上的广泛评估验证了我们方法的有效性，而不牺牲效率。

发布时间: 4/18/2025

查看原文

使用 StyleGAN 进行姿态与面部表情转移

作者: Petr Jahoda, Jan Cech

arXiv:2504.13021v1 声称类型: cross 摘要: 我们提出了一种在面部图像之间转移姿态和表情的方法。给定一个源面部肖像和一个目标面部肖像，模型会产生一个输出图像，在该图像中，源面部图像的姿态和表情被转移到目标身份上。该架构由两个编码器和一个映射网络组成，将两个输入投影到StyleGAN2的潜在空间中，最终生成输出。训练是从许多个体的视频序列中自我监督进行的。无需手动标注。我们的模型能够合成功可控姿态和表情的随机身份。实现了接近实时的性能。

发布时间: 4/18/2025

查看原文

SemEval-2025 任务4中的SHA256：选择性遗忘——通过知识隔离对大型语言模型进行约束性卸载

作者: Saransh Agrawal, Kuan-Hao Huang

arXiv:2504.12996v1 宣传类型: cross 摘要：大型语言模型（LLMs）在训练过程中经常记忆敏感信息，这在部署公共可访问模型时带来了风险。当前的机器忘记方法难以在不削弱模型整体能力的情况下选择性地移除特定数据关联。本文介绍了我们在SemEval-2025任务4中针对目标性遗忘所提出的方法，该方法结合了因果中介分析与层特定优化的两阶段方法。通过在OLMo架构（1B和7B参数）上进行系统因果追踪实验，我们发现前几个Transformer层（第0到第5层）在MPL模块中存储主体属性关联方面起着关键作用。基于这一洞察，我们开发了一种受限优化方法，在冻结较高层的同时，对较低层应用一项新颖的联合损失函数，以通过输出token交叉熵惩罚最大化遗忘集损失，同时通过自适应正则化最小化保留集偏差。我们的方法在1B模型轨道中获得第二名，展示了强大的任务性能，同时保持了88%的基线MMLU准确性。这些结果确立了因果导向的层优化作为在LLMs中实现高效、精确遗忘的有前途范式的地位，并为解决AI系统中的数据隐私问题提供了一个重要的进步。

发布时间: 4/18/2025

查看原文

一种用于LLM服务的任意低精度GPGPU计算的虚拟机

作者: Yaoyao Ding, Bohan Hou, Xiao Zhang, Allan Lin, Tianqi Chen, Cody Yu Hao, Yida Wang, Gennady Pekhimenko

arXiv:2504.12984v1 宣告类型: cross 摘要：为大型语言模型（LLMs）提供服务对于AI驱动的应用至关重要，但需要大量的计算资源，特别是在内存带宽和计算吞吐量方面。低精度计算已成为了提高效率并减少资源消耗的关键技术。现有的低精度内核生成方法局限于权重位宽为2的幂次，并且由于高级GPU编程抽象的限制，导致性能不佳。这些抽象限制了细粒度寄存器管理和优化的内存访问模式等关键优化，这些都是高效低精度计算所必要的。在这篇论文中，我们介绍了一种针对通用GPU（GPGPU）计算设计的虚拟机（VM），它能够支持任意位宽的低精度数据类型，同时保持GPU的编程能力。所提出的VM配备了一个线程块级别的编程模型、层次化的内存空间、新颖的代数布局系统以及多种低精度数据类型的广泛支持。VM程序被编译成高度高效的GPU程序，自动向量化和指令选择。广泛的实验表明，我们的VM有效地支持了所有低精度数据类型的范围，并在支持的数据类型上优于最先进的低精度内核。与现有的编译器如Triton和Ladder以及手工优化的内核如QuantLLM和Marlin相比，我们的VM分别实现了1.75x、2.61x、1.29x和1.03x的性能改进。

发布时间: 4/18/2025

查看原文

在检索增强LLM中缓解知识冲突：迈向可靠的野外响应生成

作者: Jiatai Wang, Zhiwei Xu, Di Jin, Xuewen Yang, Tao Li

arXiv:2504.12982v1 类型: cross 摘要：大规模语言模型（LLMs）的普及显著提升了信息检索系统，特别是在响应生成（RG）方面。不幸的是，LLMs 经常在内部记忆与检索的外部信息之间遇到知识冲突，这些冲突源自错误信息、偏见或过时的知识。这些冲突削弱了响应的可靠性，并在决策过程中引入了不确定性。在本文中，我们从信息论的角度分析了LLMs如何处理知识冲突，并发现当冲突信息和补充信息之间存在显著差异时，LLMs会自信地做出偏好选择。然而，当区分是模糊不清时，LLMs会经历更高的不确定性。基于这一洞察，我们提出了一种名为Swin-VIB的新框架，该框架将变分信息瓶颈模型管道集成到检索信息的适应性增强中，并指导LLMs在响应生成中的偏好。通过对单选项、开放式问题-答案（QA）以及检索增强生成（RAG）的广泛实验验证了我们的理论发现，并展示了Swin-VIB的有效性。值得注意的是，我们的方法在单选项任务上的准确率比竞争对手的基础方法提高了至少7.54%。

发布时间: 4/18/2025

查看原文

使用海德格尔的基本本体论分析IT系统中用户查询的phenomenological方法

作者: Maksim Vishnevskiy

arXiv:2504.12977v1 宣告类型: cross 摘要：本文提出了一种新颖的研究型IT系统，该系统基于马丁·海德格尔的基本存在论，区分了存在者(das Seiende)和存在(das Sein)。该系统采用了两种模态不同的、描述完备的语言：一种是存在者的范畴语言，用于处理用户输入，另一种是存在的存在论语言，用于内部分析。通过一个现象学还原模块，这些语言得以连接，使系统能够分析用户查询（包括问题、答案以及IT专家之间的对话），识别递归性和自我参照结构，并以范畴术语提供可操作的见解。不同于当代仅限于范畴分析的系统，这种方法借鉴了海德格尔的现象学存在论分析，揭示查询处理中的深层本体模式，有助于解决复杂交互中的逻辑陷阱，例如IT背景下使用隐喻的情况。通向完全实现的途径是基于海德格尔的基本存在论，由研究团队正式化存在的语言；鉴于存在者的语言的现有完备性，这将系统计算的完备性问题简化为完备性，为一种通用查询分析工具铺平了道路。本文介绍了该系统的架构、操作原则、技术实现、应用场景（包括基于真实IT专家对话的案例）、与现有工具的比较评估及其优势和局限性。

发布时间: 4/18/2025

查看原文

在表达性强的神经架构搜索空间中的可迁移替代模型

作者: Shiwen Qin, Gabriela Kadlecov\'a, Martin Pil\'at, Shay B. Cohen, Roman Neruda, Elliot J. Crowley, Jovita Lukasik, Linus Ericsson

arXiv:2504.12971v1 宣告类型: cross 摘要：神经架构搜索（NAS）面临一个挑战，即在探索能够促进架构创新的高度表达性宽广搜索空间的同时，还需要高效评估架构以有效地搜索这样的空间。我们研究基于上下文无关文法的架构创新的代理模型训练，以提高搜索。我们表明：i) 使用零成本代理度量和神经图特征（GRAF）或微调现成的语言模型训练的代理模型，对于在不同数据集中架构的性能具有很高的预测能力，ii) 这些代理模型可以在探索新数据集时过滤掉不良架构，从而显著加快搜索，并实现更好的最终性能，iii) 这些代理模型还可以进一步直接用作搜索目标，以实现巨大的速度提升。

发布时间: 4/18/2025

查看原文

QLLM：在多代理强化学习中，我们真的需要一个混合网络来进行责任分配吗？

作者: Zhouyang Jiang, Bin Zhang, Airong Wei, Zhiwei Xu

arXiv:2504.12961v1 声明类型：cross 摘要：在多方强化学习（MARL）中，责任分配仍然是一个基本的挑战。先前的研究主要通过在集中训练与分散执行框架下的价值分解方法来解决这一问题，其中神经网络被用于近似个体Q值与全局Q值之间的非线性关系。尽管这些方法在各种基准任务中取得了显著的成功，但它们仍然存在一些局限性，包括贡献分配不够精确、解释性有限以及在高维状态空间中扩展性较差。为了应对这些挑战，我们提出了一种新的算法——\textbf{QLLM}，该算法利用大型语言模型（LLMs）自动构建责任分配函数。具体来说，引入了\textbf{TFCAF}的概念，其中责任分配过程被表示为直接且表达性强的非线性函数公式。进一步采用自定义设计的\textit{编码-评估}框架来引导LLMs生成、验证和完善可执行代码，显著减轻了推理过程中幻觉和浅层推理等问题。在几个标准MARL基准测试上的广泛实验表明，所提出的方法一致地优于现有的最先进的基线方法。此外，QLLM展示了强大的泛化能力，并且与使用混合网络的广泛 MARL 算法保持兼容，将其定位为解决复杂多方场景的一种有前景且多功能的解决方案。

发布时间: 4/18/2025

查看原文

重新试询MLL所需吗？无需口头反馈提升大型语言模型推理能力

作者: Nearchos Potamitis, Akhil Arora

arXiv:2504.12951v1 通告类型: cross 摘要: 近年来，大规模语言模型（LLMs）的发展促进了通用自主代理的发展，展示了在各种领域复杂推理任务中的出色表现。这一进展推动了基于提示的推理框架的迅速发展。最近的一个重点是迭代推理策略，这些策略通过自我评估和口头反馈来改进输出。然而，这些策略要求额外的计算复杂性，以使模型能够识别并纠正错误，从而导致它们的成本显著增加。在本文中，我们引入了“无反馈重试”的概念，这是一种简单而强大的机制，通过允许LLMs在识别错误答案时重试问题解决尝试来增强推理框架。与传统的迭代改进方法不同，我们的方法不需要显式的自我反思或口头反馈，简化了改进过程。我们的研究结果表明，基于重试的简单方法往往优于更复杂的推理框架，这表明复杂方法的成本效益并不总是合理的。通过挑战传统假设，即更复杂的推理策略必然导致更好的性能，我们的研究为如何通过更简单、更高效的手段实现最优结果提供了新的见解。所以，重试就是你需要的一切吗？

发布时间: 4/18/2025

查看原文

多国价值对齐基准测试for大型语言模型

作者: Chengyi Ju, Weijie Shi, Chengzhong Liu, Jiaming Ji, Jipeng Zhang, Ruiyuan Zhang, Jia Zhu, Jiajie Xu, Yaodong Yang, Sirui Han, Yike Guo

arXiv:2504.12911v1 交叉类型：cross 摘要：大型语言模型（LLMs）所持的观点是否与您国家的价值观相冲突？有时确实存在这种情况！然而，现有的工作主要集中在伦理审查上，未能捕捉到国家价值观的多样性，国家价值观涵盖更广泛的政策、法律和道德考虑。此外，当前依赖手动设计问卷的光谱测试基准也不易于扩展。为了应对这些局限性，我们引入了NaVAB，这是一个全面的基准，用于评估LLMs与五个主要国家价值观的对齐情况：中国、美国、英国、法国和德国。NaVAB 实现了一个国家价值提取管道，以高效地构建价值评估数据集。具体来说，我们提出了一种带有指令标记的建模程序来处理原始数据源，一个筛选过程来筛选与价值相关的话题，以及一个带有冲突减少机制的生成过程来过滤非冲突的价值。我们在多个国家的各种LLMs上进行了广泛的实验，结果提供了关于识别不匹配情况的见解。此外，我们展示了NaVAB可以与对齐技术相结合，通过使LLMs的价值与目标国家的价值相匹配，有效地减少价值顾虑。

发布时间: 4/18/2025

查看原文