arXiv:2504.05050v1 Announce Type: cross
摘要:大型语言模型(LLMs)是通往人工通用智能的基础性探索,但它们通过指令调优和偏好学习与人类价值观的一致性仅达到了表面合规。在这里,我们证明了预训练过程中嵌入的有害知识以不可磨灭的“黑暗模式”形式在LLMs的参数记忆中永久存在,规避了对齐保护措施,并在分布变化下重新出现。在本研究中,我们首先通过证明当前的对齐方法仅在知识流形中提供局部的“安全区域”来理论分析对齐的LLMs固有的伦理脆弱性。相比之下,预训练知识仍通过高概率的对抗轨迹与有害概念全局相连。在此理论洞察的基础上,我们通过在分布变化下使用语义连贯诱导的方法经验验证了我们的发现,这是一种系统规避对齐约束的优化对抗提示方法。这种结合理论与经验的方法在19/23个最先进的对齐LLMs(包括DeepSeek-R1和LLaMA-3)中实现了100%的攻击成功率,揭示了它们的普遍脆弱性。
arXiv:2504.05029v1 宣布类型:交叉
摘要:近年来,基于扩散的方法在推荐系统中取得了令人印象深刻的结果。然而,现有的方法主要将每个用户的 historic 互动视为独立的训练样本,忽视了用户和项目之间更高阶协作信号的潜力。这些信号包含更丰富和复杂的关系,可以自然地通过图基数据结构捕捉。为了解决这一局限性,我们通过直接使用扩散模型对用户-项目二分图进行建模,将基于扩散的方法扩展到图域。这使得更好地建模复杂交互动力学中固有的更高阶的连接性。然而,这种扩展引入了两个主要挑战:(1)噪声异质性,其中交互受到各种连续和离散噪声的影响,以及(2)关系爆炸,指的是处理大规模图的高计算成本。为了应对这些挑战,我们提出了一种基于图的扩散模型进行协同过滤(GDMCF)。为了应对噪声异质性,我们引入了一种多层次的噪声污染机制,结合了连续和离散噪声,有效地模拟了现实世界的交互复杂性。为了缓解关系爆炸,我们设计了一种用户主动指导的扩散过程,该过程有选择地关注最有意义的边和活跃用户,减少了推理成本,同时保持图的拓扑完整性。在三个基准数据集上的广泛实验表明,GDMCF始终优于最先进的方法,突显了其在捕捉更高阶的协作信号和提高推荐性能方面的有效性。
arXiv:2504.05020v1 Announce Type: cross
摘要:由于标注数据有限,自然语言处理模型在特定领域,例如临床试验中常常面临挑战。为克服这一问题,通常使用文本增强技术通过将原始输入数据转换为保留标签的人工数据来增加样本量。然而,传统的文本分类方法忽视了增强文本之间的关系,并将它们视为独立样本,这可能会引入分类误差。因此,我们提出了一种名为 '批次聚合'(BAGG)的新方法,该方法通过引入一个聚合相关文本结果的额外层,明确建模通过增强生成的文本输入之间的依赖关系。通过在不同领域的多个基准数据集上进行研究,我们发现BAGG能够提高分类准确性。我们还发现,与传统方法相比,BAGG在特定领域数据集上的性能提升更为明显, accuracy 提高高达10-29%。通过对基准数据的分析,所提出的方法解决了传统技术的局限性,并在文本分类任务中提高了鲁棒性。我们的结果显示,在有限训练数据的情况下,BAGG提供了更鲁棒的结果,并优于传统方法。
arXiv:2504.05007v1 Announce Type: cross
摘要:AI影响评估仅如其所使用的测量指标一样好。因此,在这类评估中我们能够合理说明我们选择的指标非常关键,特别是在难以量化的伦理和社会价值方面。我们提出了一种两步方法以确保指标能够得到充分的动机说明。首先,需要明确概念(例如罗尔斯正义或团结中的正义),然后可以根据该概念来选择指标。这两个步骤都需要独立的说明,因为概念可以根据其如何适合公平等功能来评判。我们认为概念工程为此步骤提供了有用的工具。其次,指标需要根据概念来选择。我们通过检查竞争的公平度量指标来说明这一过程,展示了概念所提供的额外内容如何帮助我们为特定指标的选择提供正当理由。因此,我们主张影响评估不仅需要清晰说明其指标,也需要说明那些促使这些指标的概念。
arXiv:2504.04997v1 Announce Type: 横跨领域
摘要:我们提出了一种基于神经网络的生存模型(SurvSurf),专门用于从基线直接和同时预测序列事件的首次击中时间的概率。与现有模型不同,SurvSurf理论上保证不会违反序列事件累积发生函数之间的单调关系,同时允许预测变量的非线性影响。它还在模型拟合中隐含了未观察到的中间事件的真实情况,并支持离散时间和连续时间以及事件。我们还发现一种集成布rier分数(IBS)的变体,在考虑隐含的关于缺失中间事件的真相时,与真实概率和预测概率之间的均方误差(MSE)的稳健相关性表现良好。我们使用MSE、更为稳健的IBS和单调性违反的程度来证明SurvSurf在两个模拟数据集和两个真实数据集中的优越性,与现代和传统预测生存模型相比。
arXiv:2504.04994v1 类型: cross
摘要:尽管大型语言模型(LLMs)表现出色,但它们可能会表现出由编码值驱动的未预见的偏见和有害行为,这凸显了我们需要理解其背后的价值机制的紧迫性。然而,目前的研究主要通过外部响应来评估这些价值,并集中在人工智能安全上,缺乏解释性,未能在实际社会情境中评估社会价值。在本文中,我们提出了一种名为ValueExploration的新框架,旨在在神经元层面探索LLMs中国家社会价值观的行为驱动机制。作为一项案例研究,我们关注中国社会价值观,并首先构建了C-voice,这是一个大规模双语基准,用于识别和评估LLMs中的中国社会价值观。通过利用C-voice,我们然后根据激活差异识别并定位负责编码这些价值观的神经元。最后,通过禁用这些神经元,我们分析了模型行为的变化,揭示了价值观如何影响LLM决策的内部机制。在四个代表性LLMs上的广泛实验验证了该框架的有效性。基准数据集和代码将可供使用。
arXiv:2504.04988v1 数据集类型: cross
摘要: 在自然图像域中,近期在 VLMs 方面取得的进步展示了其在各种任务中的出色能力。受到这些进展的启发,遥感社区开始将 VLMs 应用于遥感视觉语言任务,包括场景理解、图像 captioning 和视觉问答等领域。然而,现有的遥感 VLMs 通常依赖于封闭集的场景理解,侧重于通用场景描述,但缺乏融入外部知识的能力。这一限制阻碍了它们应对涉及特定领域或世界知识的复杂或上下文相关查询时的语义推理能力。为了应对这些挑战,我们首先引入了一个多模态遥感世界知识 (RSWK) 数据集,该数据集包含了175个国家14,141个著名地标的高度分辨率卫星图像和详细的文本描述,集成了遥感领域的知识和更广泛的世界知识。在此数据集的基础上,我们提出了一种新颖的遥感检索增强生成 (RS-RAG) 框架,该框架包含两个关键组件。多模态知识向量数据库构建模块将遥感图像及其相关文本知识编码到统一的向量空间中。知识检索和响应生成模块根据图像和/或文本查询检索并重新排名相关知识,并将检索到的内容融入知识增强的提示,引导 VLM 生成上下文依托的响应。我们通过三个代表性视觉语言任务(包括图像 captioning、图像分类和视觉问答)验证了我们方法的有效性,其中 RS-RAG 显著优于最先进的基线方法。
arXiv:2504.04981v1 种类: 横跨领域
摘要:本文研究了持续测试时自适应(CTTA),即在保持之前学习的知识的同时,使模型能够适应不断变化的未见领域。现有的CTTA方法主要集中在对当前测试领域的适应,而忽视了模型在未来可能遇到的任意测试领域的泛化能力。为解决这一局限,我们提出了一种新颖的在线领域不变学习框架,称为DiCoTTA。DiCoTTA旨在在测试过程中实时学习既能保持当前又能适应过去测试领域不变特征表示。为此,我们提出了一种新的模型架构和测试时自适应策略,专注于学习不变领域特征而不破坏语义内容,还提出了一种新的数据结构和优化算法,以有效管理来自之前测试领域的信息。DiCoTTA在四个公开的CTTA基准测试中达到了最先进的性能。此外,它在未见测试领域的泛化能力也表现出优越性。
arXiv:2504.04974v1 交叉类型: cross
摘要: 尽管Multimodal Large Language Models (MLLMs) 已经取得了进展,但在处理视觉文本 grounding 方面仍存在不可忽视的限制,尤其是在文档中的图文丰富的图像中。文档图像,如扫描表格和信息图,因其复杂的布局和文本内容而突显出关键挑战。然而,当前的基准测试并未充分应对这些挑战,因为它们主要集中在自然图像的视觉 grounding,而不是图文丰富的文档图像。因此,为了填补这一差距,我们引入了TRIG,这是一种新型任务,配备了一套新设计的指令数据集,用于评估和提高MLLMs在文档问答中的 Text-Rich Image Grounding 能力。具体来说,我们提出了一种OCR-LLM-human交互管道,创建了800个手动标注的问题-答案对作为基准和一个基于四个不同数据集的大型合成数据集,包含了90亿条数据。我们在我们提出的基准上对各种MLLMs进行全面的评估,展示了它们在图文丰富的图像上的 grounding 能力存在显著局限。此外,我们分别基于通用指令调优和即插即用高效嵌入提出了两种简单的TRIG方法。通过对我们的合成数据集进行微调,MLLMs在空间推理和 grounding 能力方面显示出显著改进的潜力。
arXiv:2504.04973v1 类型: cross
摘要: 本文研究具有针对随机阈值约束的受限马尔可夫决策过程(CMDPs),旨在在一个未知且不确定的环境中实现强化学习的安全性。我们利用一个Growing-Window估计器从与不确定和动态环境的交互中采样,来估计这些阈值,并在此基础上设计了一种新的基于模型的原对偶算法Stochastic Pessimistic-Optimistic Thresholding (SPOT),该算法用于多个针对随机阈值的约束。SPOT能够在悲观和乐观阈值设置下实现强化学习。我们证明,我们的算法实现了次线性后悔和约束违反;即在T个回合中,奖励遗憾为$\tilde{\mathcal{O}}(\sqrt{T})$,同时允许$\tilde{\mathcal{O}}(\sqrt{T})$的约束违反。理论保证表明,我们的算法在性能上可与依赖于固定和清晰阈值的方法相媲美。据我们所知,SPOT是首个在即使是阈值都不清楚的不确定环境中实现理论保证性能的强化学习算法。