arXiv 论文列表

作者: Qijie Ding, Jie Yin, Daokun Zhang, Junbin Gao

arXiv:2307.02075v3 公告类型: 替换摘要: 实体对齐（EA）旨在识别在不同知识图谱（KGs）中引用同一现实身份的等价实体对。为了克服训练时提供的种子对齐数量不足的问题，最近的实体对齐模型利用伪标签策略，逐步将高置信度预测的未对齐实体对添加到种子对齐中进行模型训练。然而，在伪标签过程中确认偏误的负面影响已被很大程度上忽视，从而阻碍了实体对齐性能的提高。为了系统地对抗基于伪标签的实体对齐中的确认偏误，我们提出了一个统一的实体对齐伪标签框架（UPL-EA），该框架明确消除了伪标签错误，以提高实体对齐的准确性。UPL-EA 包含两个互补的组件：（1）基于运输距离（Optimal Transport, OT）的伪标签使用离散的OT建模作为一种有效的方法来确定实体对应关系，并减少两个KG中的错误匹配。提出了一种有效的标准来推断满足一对一对应关系的伪标签对齐；（2）并行伪标签集成通过结合多个独立并行训练的模型的预测来细化伪标签对齐。细化后的伪标签对齐随后用于增强种子对齐，从而加强后续模型训练以进行对齐推断。UPL-EA 在消除伪标签错误方面的有效性既得到了理论支持，也得到了实验验证。我们的广泛结果和深入分析表明，UPL-EA 在15个竞争基线中表现优于其他方法，并且其作为通用实体对齐伪标签框架的有效性。

发布时间: 5/9/2025

查看原文

Flow-GRPO：通过在线强化学习训练流匹配模型

作者: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

arXiv:2505.05470v1 类型: cross 摘要: 我们提出了Flow-GRPO，这是首个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法采用了两种关键策略：(1) ODE到SDE转换，即将确定性的常微分方程(ODE)转换为等价的随机微分方程(SDE)，使其在所有时间步长上与原始模型的边际分布相匹配，从而实现统计采样以供RL探索；(2) 去噪降级策略，该策略减少训练中的去噪步骤，同时保留原始推理时间步的数量，显著提高了采样效率，且未性能下降。实验结果表明，Flow-GRPO在多个文本到图像任务中均有效。对于复杂的组合，RL调优的SD3.5生成几乎完美的物体数量、空间关系和细微属性，将GenEval准确率从63%提升到95%。在视觉文本渲染中，其准确率从59%提高到92%，显著增强了文本生成。此外，Flow-GRPO在人类偏好对齐方面也取得了显著进步。值得注意的是，在我们的实验中，几乎没有或根本没有出现奖励作弊，这意味着奖励的增加并未以牺牲图像质量和多样性为代价，且两者在实验中均保持稳定。

发布时间: 5/9/2025

查看原文

StreamBridge: 将您的离线视频大语言模型转化为 proactive 流式助手

作者: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang

arXiv:2505.05467v1 交叉类型公告摘要：我们提出了StreamBridge，这是一个简单而有效的框架，可以无缝地将离线视频大模型（Video-LLMs）转换为支持流式传输的模型。它解决了将现有模型适应在线场景过程中遇到的两个基本挑战：（1）有限的多轮实时理解能力，和（2）缺乏主动响应机制。具体来说，StreamBridge 包含（1）一个内存缓冲区结合圆形衰减压缩策略，支持长上下文多轮交互，以及（2）一个解耦、轻量级的激活模型，可以轻松集成到现有的 Video-LLMs 中，从而使模型能够连续进行主动响应。为了进一步支持 StreamBridge，我们构建了 Stream-IT，这是一个专为流式视频理解设计的大规模数据集，包含交错的视频-文本序列和多样的指令格式。广泛的实验表明，StreamBridge 显著提高了离线 Video-LLMs 在各种任务中的流式理解能力，甚至优于专有模型如 GPT-4o 和 Gemini 1.5 Pro。同时，在标准视频理解基准测试中，它也实现了竞争或更优的性能。

发布时间: 5/9/2025

查看原文

ComPO：通过比较 oracle 实现偏好对齐

作者: Peter Chen, Xi Chen, Wotao Yin, Tianyi Lin

arXiv:2505.05465v1 交叉公告类型：摘要：直接对齐方法越来越多地用于使大型语言模型（LLMs）与人类偏好一致。然而，这些方法存在冗长性和似然性偏移的问题，这些问题可能是由于噪声偏好对导致了优选和非优选响应相似的似然性。本文的贡献有两个方面。首先，我们提出了一种新的基于比较或acles的偏好对齐方法，并为其基本方案提供了收敛性保证。其次，我们改进了该方法并采用了一些启发式方法进行实验，以证明使用噪声偏好对改进LLMs性能的实际方案的灵活性和兼容性。我们在多个基础和指令调整模型（Mistral-7B、Llama-3-8B 和 Gemma-2-9B）以及基准测试（AlpacaEval 2、MT-Bench 和 Arena-Hard）上进行了评估。实验结果显示，我们的方法作为解决现有直接对齐方法局限性的替代方案的有效性。我们的工作的一大亮点是，我们证明了设计专门针对具有不同似然性边际的偏好对齐方法的重要性，这补充了《Razin-2025-Unintentional》最近的研究成果。

发布时间: 5/9/2025

查看原文

TransProQA：一个基于LLM的文学翻译评估指标，包含专业问答

作者: Ran Zhang, Wei Zhao, Lieve Macken, Steffen Eger

arXiv:2505.05423v1 交叉领域公告类型摘要：大规模语言模型（LLMs）的影响已扩展到文学领域。然而，现有的评估指标更注重机械准确性而非艺术表现，倾向于高估机器翻译（MT）的质量，使其优于经验丰富的专业人工翻译。长远来看，这种偏见可能导致翻译质量和服务真实性的永久下降。为了应对此领域的紧急需求，我们引入了TransProQA，这是一个专为文学翻译评估设计的新型、无需参考的、基于语言模型的问题-答案（QA）框架。TransProQA独树一帜地结合了专业文学翻译者和研究者的见解，关注文学质量评估中的关键要素，如文学手法、文化理解以及作者的声音。我们的广泛评估显示，尽管文学微调的XCOMET-XL在细微上有所改善，但TransProQA在当前指标上显著超越，实现了多达0.07的增长（ACC-EQ和肯德尔tau的相关性）并在充分性评估中超过当前最佳的最先进的（SOTA）指标15个点以上。将专业翻译者的见解作为权重进一步提高了性能，突显了翻译者输入的价值。值得注意的是，TransProQA在评估性能上接近受过训练的语言注释者的水平。它展示了在开源模型如LLaMA3.3-70b和Qwen2.5-32b上的广泛应用，表明它有可能成为一种可访问且无需训练的文学评估指标，以及一种用于评估因版权或道德原因需要本地处理的文本的有价值的工具。

发布时间: 5/9/2025

查看原文

TokLIP：将视觉 token 与 CLIP 结合用于多模态理解和生成

作者: Haokun Lin, Teng Wang, Yixiao Ge, Yuying Ge, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun, Ying Shan

arXiv:2505.05422v1 交叉声明类型摘要：先锋性的基于令牌的作品，如Chameleon和Emu3已经为多模态统一建立了基础，但因缺乏高层语义而在训练计算开销高和理解性能有限方面面临挑战。在本文中，我们介绍了TokLIP，一种视觉令牌器，通过将向量量化（VQ）令牌语义化并结合CLIP级别的语义来增强理解，同时通过标准VQ令牌实现端到端的多模态自回归训练。TokLIP将低级离散VQ令牌化器与基于ViT的令牌编码器相结合，以捕获高层连续语义。与之前的方法（例如VILA-U）不同，TokLIP将理解和生成的目标分离，允许直接使用高级VQ令牌化器，而无需定制量化操作。我们的实验证明，TokLIP实现了卓越的数据效率，赋予视觉令牌高层语义理解的同时增强低级生成能力，使其非常适合在理解和生成任务中使用自回归Transformer。代码和模型可在https://github.com/TencentARC/TokLIP获得。

发布时间: 5/9/2025

查看原文

推理模型并不总是说它们所想的

作者: Yanda Chen, Joe Benton, Ansh Radhakrishnan, Jonathan Uesato, Carson Denison, John Schulman, Arushi Somani, Peter Hase, Misha Wagner, Fabien Roger, Vlad Mikulik, Samuel R. Bowman, Jan Leike, Jared Kaplan, Ethan Perez

arXiv:2505.05410v1 Announce Type: 对照摘要：思维链（CoT）为AI安全性提供了一个潜在的好处，因为它允许监控模型的思维链以试图理解其意图和推理过程。然而，此类监控的有效性取决于思维链真实地代表了模型的实际推理过程。我们在6个呈现在提示中的推理提示下评估了最先进的推理模型的思维链忠实性，发现：（1）对于测试中大多数设置和模型，至少在使用提示的示例中有1%的情况下，思维链揭示了其使用提示的情况，但揭示率通常低于20%；（2）基于结果的强化学习在最初提高忠实性后会达到瓶颈，但不会完全饱和；（3）当强化学习增加提示的使用频率（奖励劫持）时，即使没有针对思维链监控进行训练，揭示提示的倾向也不会增加。这些结果表明，思维链监控是一种在训练和评估期间注意不良行为的有希望的方法，但并不能排除这些不良行为。它们还表明，在如我们环境中不必要的思维链推理中，测试时的思维链监控不太可能可靠地捕捉到罕见和灾难性的意外行为。

发布时间: 5/9/2025

查看原文

跨语言推理通过测试时缩放

作者: Zheng-Xin Yong, M. Farid Adilazuarda, Jonibek Mansurov, Ruochen Zhang, Niklas Muennighoff, Carsten Eickhoff, Genta Indra Winata, Julia Kreutzer, Stephen H. Bach, Alham Fikri Aji

arXiv:2505.05408v1 宣布类型: cross 摘要：大型语言模型的推理能力主要是在英语上进行研究的，即使预训练模型是多语言的。在本文中，我们研究了以英语为中心的带有长链推理（CoTs）的推理微调能多大程度上跨语言泛化。首先，我们发现，扩大以英语为中心的推理语言模型（RLMs）的推理计算规模，可以显著提高包括低资源语言在内的多种语言的数学推理能力，使其在某些情况下超越规模是其两倍的模型。其次，我们揭示了尽管以英语为中心的RLMs的CoTs自然是以英语为主的，但它们在推理关于报价的非英语输入时始终遵循引文和思考的模式。第三，我们发现了一种有效的方法来控制长CoT推理中的语言，并观察到模型在高资源语言中推理得更好且更高效。最后，我们发现从STEM到文化常识知识的跨域推理泛化表现较差，即使是对于英语的也是如此。总体而言，我们展示了英语推理跨语言泛化的潜力，研究了其机制，并概述了其局限性。我们得出结论，实践者应让以英语为中心的RLMs在高资源语言中进行推理，但需要进一步的工作来提高低资源语言和跨域情景下的推理能力。

发布时间: 5/9/2025

查看原文

CART-ELC：通过穷举搜索诱导偏义决策树

作者: Andrew D. Laack

arXiv:2505.05402v1 宣告类型: cross 摘要: 斜决策树由于其在分类性能上可能优于传统的轴对齐决策树而引起了关注。然而，依赖于穷举搜索来查找斜分割的方法面临着计算上的挑战。因此，这些方法没有得到广泛的探索。我们介绍了一种新颖的算法——分类和回归树 - 穷举线性组合（CART-ELC），该算法在一组受限的超平面上进行穷举搜索以诱导斜决策树。然后，我们调查了该算法的计算复杂性和预测能力。结果显示，CART-ELC 在小数据集上一致地实现了竞争力的表现，常常在分类准确性上相对于现有的决策树诱导算法取得了统计上显著的提升，同时经常生成更浅、更简单且因此更具可解释性的树。

发布时间: 5/9/2025

查看原文

基于阈值调制的在线测试时Spiking神经网络适应方法

作者: Kejie Zhao, Wenjia Hua, Aiersi Tuerhong, Luziwei Leng, Yuxin Ma, Qinghua Guo

arXiv:2505.05375v1 声明类型: cross 摘要: 最近，部署在神经形态芯片上的神经形态尖峰神经网络（SNNs）在各种场景下的边缘设备上提供了高效的解决方案。然而，在部署后适应分布偏移的能力已成为一个关键挑战。在线测试时适应（OTTA）通过使模型能够在不需要源数据或标记的目标样本的情况下，动态调整以适应新的数据分布，提供了一种有希望的解决方案。尽管现有的OTTA方法主要针对传统的人工神经网络设计，但并不适合SNNs。为了解决这一差距，我们提出了一种低功耗、神经形态芯片友好的在线测试时适应框架，旨在在分布偏移情况下增强模型的一般化能力。所提出的方法称为阈值调制（TM），它通过神经动力学启发的归一化动态调整放电阈值，使其更适合神经形态硬件。在基准数据集上的实验结果表明，该方法在提高SNNs对分布偏移的鲁棒性方面有效，同时保持较低的计算成本。所提出的方法为SNNs的在线测试时适应提供了一个实用的解决方案，为未来神经形态芯片的设计提供了灵感。演示代码可在github.com/NneurotransmitterR/TM-OTTA-SNN获得。

发布时间: 5/9/2025

查看原文