arXiv 论文列表

作者: Xin Gao, Jian Pu

arXiv:2502.11037v1 交叉类型：cross 摘要：多视图表示学习（MVRL）旨在通过利用不同视图之间的共享和互补信息，从多视图数据中提取统一的表示。然而，当视图不规则缺失时，不完整的数据可能导致表示缺乏充分性和一致性。为了解决这个问题，我们提出了一种多视图变分自动编码器的排列方法（MVP），该方法挖掘不完整数据中视图之间的不变关系。MVP在变分自动编码器的潜在空间中建立了视图之间的对应关系，使缺失视图的推断和更多充分信息的聚合成为可能。为了从学习中推导出有效的证据下界（ELBO），我们通过交叉视图生成随机重排列变量，然后按视图分区，以确保在重排列下的不变意义。此外，我们通过引入循环后验的信息先验增强了一致性，从而使正则化项成为分布之间的一种相似性度量。我们在七个具有不同缺失比例的多样化数据集上展示了我们方法的有效性，实现了在多视图聚类和生成任务中的优异性能。

发布时间: 2/18/2025

查看原文

注意信心差距：过度自信、校准与干扰项效应在大规模语言模型中的影响

作者: Prateek Chhikara

arXiv:2502.11028v1 交叉公告类型摘要：大规模语言模型（LLMs）在各种任务中表现出色，但置信度校准仍然是一个挑战。误校准——模型过度自信或不够自信——在高风险应用中尤其具有风险。本文呈现了一项关于LLM校准的经验研究，探讨模型大小、干扰信息和问题类型如何影响自信度对齐。我们提出了一种评估框架，以衡量过度自信，并调查多项选择格式是否降低了或加剧了误校准。我们的研究结果表明，虽然更大的模型（例如，GPT-4o）整体上校准得更好，但它们更容易受到干扰，而较小的模型则受益更多于答案选项，但难以估计不确定性。与之前主要报告误校准趋势的工作不同，我们提供了关于失败模式和使过度自信恶化的条件的可行见解。这些发现突显了需要校准意识干预和改进不确定性估计方法的必要性。

发布时间: 2/18/2025

查看原文

简化 RLHF 为奖励加权 SFT：一种变分方法

作者: Yuhao Du, Zhuo Li, Pengyu Cheng, Zhihong Chen, Yuejiao Xie, Xiang Wan, Anningzhe Gao

arXiv:2502.11026v1 交叉类型摘要：强化学习从人类反馈（RLHF）对于使大型语言模型（LLMs）与人类价值观保持一致至关重要。然而，RLHF 在实施复杂性和计算消耗方面一直面临着持续的挑战。即便最近简单化了，例如直接偏好优化（DPO）和优势剩余午餐（A-LoL），过拟合问题和训练不稳定性仍然阻碍着从期望的最佳性能中实现对齐过程。为了解决现有挑战，我们从变分推断的角度提出了 RLHF 的一种新颖简化方法，称为 **V**ariational **A**lignment with **R**e-weighting（**VAR**）。具体而言，通过直接最小化学习 LLM 策略和 RLHF 最优解之间的分布差距，我们将对齐目标转换为奖励驱动的重加权监督微调（SFT）形式，仅需对 SFT 损失进行微小调整即可显著提高训练稳定性和有效性。在综合对齐和生成基准测试中，我们的 VAR 方法在 LLM 对齐的有用性和无害性方面实现了具有竞争力的性能。

发布时间: 2/18/2025

查看原文

多语言基准：自然语言到NoSQL查询转换

作者: Zhiqian Qin, Yuanfeng Song, Jinwei Lu, Yuanwei Song, Shuaimin Li, Chen Jason Zhang

arXiv:2502.11022v1 交叉类型：cross 摘要：在大数据时代，自然语言接口对于NoSQL数据库变得越来越重要，使得用户能够无需深厚的技术知识就能与复杂且未结构化的数据进行交互。然而，最近的大多数进展都集中在英语上，导致了多语言支持方面的差距。本文介绍了MultiTEND，这是首个也是最大的用于自然语言到NoSQL查询生成的多语言基准，涵盖了六种语言：英语、德语、法语、俄语、日语和 Mandarin 中文。通过使用 MultiTEND，我们分析了在多种语言结构之间翻译自然语言到NoSQL查询所面临的挑战，包括词汇和句法差异。实验结果显示，在英语和非英语环境中，性能准确性相对较低，各种场景如微调SLM、零样本LLM、以及LLM的RAG之间存在4%-6%的差距。为了解决上述挑战，我们引入了MultiLink，这是一种新的框架，通过并行链接过程弥合了多语言输入到NoSQL查询生成的差距。MultiLink 将任务分解成多个步骤，集成并行多语言处理、Chain-of-Thought (CoT)推理和 Retrieval-Augmented Generation (RAG)，以应对多语言NoSQL生成中固有的词汇和结构挑战。MultiLink 在每种语言中都提高了所有指标，相比顶级基准提高了约15%的执行准确性，非英语语言的平均改进幅度为10%。

发布时间: 2/18/2025

查看原文

TUMLU：针对 Turkic 语言的统一且原生的语言理解基准测试

作者: Jafar Isbarov, Arofat Akhundjanova, Mammad Hajili, Kavsar Huseynova, Dmitry Gaynullin, Anar Rzayev, Osman Tursun, Ilshat Saetov, Rinat Kharisov, Saule Belginova, Ariana Kenbayeva, Amina Alisheva, Aizirek Turdubaeva, Abdullatif K\"oksal, Samir Rustamov, Duygu Ataman

arXiv:2502.11020v1 公告类型：交叉摘要：彻底评估大规模多任务语言理解（MMLU）能力对于促进多语言语言模型的应用性至关重要。然而，准备高质量的原语种基准往往成本较高，因此限制了评估数据集的代表性。尽管近期的努力集中在建立更具包容性的MMLU基准上，这些基准通常使用高资源语言的机器翻译构建，这可能会引入错误，未能考虑目标语言的语言和文化复杂性。在本文中，我们解决了特别在代表性不足的突厥语族语言中缺乏原语种MMLU基准的问题，该语言族具有独特的形态语法和文化特征。我们提出了两个突厥语族语言MMLU基准：TUMLU是一个全面、多语言且原生开发的语言理解基准，专门设计用于突厥语族语言。它包括包含阿塞拜疆语、克里米亚鞑靼语、卡拉卡尔帕克语、哈萨克语、塔塔尔语、土耳其语、维吾尔语和乌兹别克语的11个学术科目的中学和高中水平问题。我们还介绍了TUMLU-mini，这是数据集的一个更为简洁、平衡且手动验证的子集。通过使用该数据集，我们系统地评估了各种开源和专有的多语言大型语言模型（LLMs），包括Claude、Gemini、GPT和LLaMA，提供了它们在不同语言、科目和字母表上的表现的深入分析。为了促进多语言语言理解的进一步研究和开发，我们发布了TUMLU-mini以及所有相应的评估脚本。

发布时间: 2/18/2025

查看原文

解锁功能向量的潜力，用于表征和缓解持续指令调谐中灾难性遗忘问题

作者: Gangwei Jiang, Caigao Jiang, Zhaoyi Li, Siqiao Xue, Jun Zhou, Linqi Song, Defu Lian, Yin Wei

arXiv:2502.11019v1 类型: cross 摘要：灾难性遗忘（CF）在机器学习中构成了重大挑战，当模型学会新任务时，会忘记之前学习到的信息。尽管大型语言模型（LLMs）具有先进的能力，但在持续学习过程中，它们仍然面临CF的挑战。现有的大部分研究集中在通过单一训练序列分析遗忘模式，从而忽视了不同任务对模型行为的复杂影响。我们的研究探讨了各种设置下的CF，发现模型的遗忘不仅受到特定训练任务的影响，还受到模型本身的影响。为此，我们通过检查功能向量（FV）来解释遗忘，FV是LLMs中函数的一种紧凑表示，提供了一种依赖于模型的CF发生指标。通过理论和实证分析，我们证明CF在LLMs中的主要原因是功能激活的偏差，而不是任务处理功能的覆盖。利用这些见解，我们提出了一种新的功能向量指导训练方法，引入正则化技术来稳定FV并减轻遗忘。在四个基准上的实验测试证实了我们提出训练方法的有效性，支持了我们关于CF和模型功能动力学的理论框架。我们计划在未来不久公开我们的代码。

发布时间: 2/18/2025

查看原文

GRUFFIN：有效的令牌对齐以实现更快的-speculative 解码

作者: Shijing Hu, Jingyang Li, Xingyu Xie, Zhihui Lu, Kim-Chuan Toh, Pan Zhou

arXiv:2502.11018v1 类别: cross 摘要: 费猜解码通过同时生成多个草稿令牌来加速大型语言模型（LLMs）的推理。然而，现有方法往往在训练和解码阶段之间面临令牌对齐问题，限制了它们的性能。为此，我们提出了一种名为GRIFFIN的新型框架，该框架结合了一种可对齐的训练策略和一种可对齐的草稿模型，以减轻对齐问题。可对齐的训练策略采用丢失掩蔽机制，在训练时排除高度对齐不良的令牌，防止它们对草稿模型的优化产生负面影响。可对齐的草稿模型引入输入令牌以纠正生成特征的一致性问题。在LLaMA系列和Vicuna模型上的实验表明，GRIFFIN在平均接受长度上提高了超过7%，并实现了超过8%的速度提升，如图1(a)和(b)所示，优于当前最先进的方法。

发布时间: 2/18/2025

查看原文

协作式确定性-扩散模型 для 概率城市空间时间预测注：这里的翻译可能需要根据具体语境进行调整，直译结果为“协作式确定性-扩散模型 for 概率城市空间时间预测”。在中文中，我们通常将英文短语直接翻译为词组。

作者: Zhi Sheng, Yuan Yuan, Yudi Zhang, Depeng Jin, Yong Li

arXiv:2502.11013v1 Announce Type: cross 摘要：准确预测城市时空动态对于提高城市管理和决策至关重要。现有的时空预测模型主要集中在主要的时空模式上，这些模型大多是确定性的。然而，这些动态十分复杂，呈现出多模态分布，这使得确定性模型难以捕捉。本文突出了概率预测在捕捉时空数据中存在的不确定性和复杂性方面的关键作用。尽管主流的概率模型能够捕捉不确定性，但它们在学习主要模式上往往表现不佳，并且常常遭遇计算效率低下的问题。为了解决这些挑战，我们提出了CoST，该方法结合确定性和概率模型以提高预测精度和处理不确定性的能力。为此，我们设计了一种均值残差分解框架，其中均值部分由确定性模型建模，残差变化则由概率模型、特别是扩散模型学习。此外，我们引入了一种尺度感知的扩散过程，更好地适用于不同地区空间异质性的动态。在八个真实世界数据集上的 extensive 实验表明，CoST 在确定性和概率性指标上均显著优于现有方法，且具有较低的计算成本，实现了 20% 的性能提升。CoST 在确定性精度和概率不确定性之间架起了桥梁，为城市时空预测领域带来了重要进展。

发布时间: 2/18/2025

查看原文

基于生成性解释的Prompt注入检测作为调查工具

作者: Jonathan Pan, Swee Liang Wong, Yidi Yuan, Xin Wei Chia

arXiv:2502.11006v1 告知类型: 交叉摘要: 大型语言模型（LLMs）对基于敌对提示的注入攻击极为脆弱。这些注入攻击可能通过显式的提示请求使模型脱管或利用模型中的漏洞，从而导致不希望的响应。在调查提示注入的过程中，挑战在于涉及的大量输入提示，这些提示很可能是无害的。这些输入提示的语义和主观性，以及促成LLM与用户对话的环境背景，使得这一调查挑战变得更加复杂。因此，对于AI安全调查者来说，挑战包含两个方面。首先，识别敌对的提示注入，然后评估输入提示是否在上下文中有害或敌对。对于第一步，可以使用现有的AI安全解决方案，如护栏来检测和保护LLM。护栏是通过各种方法开发的。一个流行的方法是使用基于签名的方法。另一个开发AI模型来分类此类提示的方法包括使用基于自然语言处理（NLP）的模型，例如语言模型。但在进行对提示注入的AI安全调查时，这些护栏缺乏帮助调查者进行优先处理或评估识别出的输入提示的能力。在这项应用于研究的探索中，我们探讨了利用LLM的文本生成能力来检测提示注入，并生成其检测的解释，以帮助AI安全调查者评估和优先处理这类提示注入检测。这种工具的实际好处在于简化了对提示注入进行调查的任务。

发布时间: 2/18/2025

查看原文

CL-MFAP：一种基于对比学习的多模态基础模型，用于分子性质预测和抗生素筛选

作者: Gen Zhou, Sugitha Janarthanan, Yutong Lu, Pingzhao Hu

arXiv:2502.11001v1 宣传类型: cross 摘要：由于抗生素耐药性的上升，识别具有抗生素潜力的新化合物对于应对这一全球健康问题至关重要。然而，传统的药物开发方法成本高昂且效率低下。认识到需要更有效的解决方案，研究人员已转向机器学习技术以简化新型抗生素化合物的预测和开发过程。尽管基础模型在抗生素发现方面展示了潜力，但当前主流努力仍未充分利用多模态分子数据的全部潜力。最近的研究表明，使用多模态数据的对比学习框架在各种领域中表现出色。在此基础上，我们引入了CL-MFAP，这是一个基于对比学习（CL）的多模态基础（MF）模型，特别针对使用三种类型的分子数据发现具有潜在抗生素特征（AP）的小分子进行设计。该模型利用ChEMBL数据集中包含的160万种具有药物性质的生物活性分子，共同预训练了三个编码器：（1）一个带有旋转位置嵌入的基于变换器的编码器，用于处理SMILES字符串；（2）另一个基于变换器的编码器，结合了一种新的层次路由注意力机制，以处理分子图表示；以及（3）一个使用多层感知机的摩根指纹编码器，以实现对比学习的目的。CL-MFAP在抗生素特征预测中表现优于基线模型，有效地利用了不同的分子模态，并且在针对抗生素相关特性预测任务进行微调时展示了出色的领域特定性能。

发布时间: 2/18/2025

查看原文