arXiv 论文列表

作者: Mingyu Chen, Yiding Chen, Wen Sun, Xuezhou Zhang

arXiv:2502.00666v1 宣告类型: cross 摘要：人类反馈强化学习（RLHF）已成为大型语言模型（LLM）对齐的关键技术。本文研究了在线RLHF的设置，并着重于提高样本效率。在在线RLHF的所有现有算法中，无论是进行被动探索还是主动探索，都存在一个基本限制：样本复杂度随奖励函数规模呈指数增长。这一根本限制阻碍了它们在高度偏斜偏好场景中的有效性，例如具有唯一正确答案的问题。为解决这一问题，我们引入了自探索偏好激励在线偏好优化（SE-POPO）算法，这是首次实现样本复杂度随着奖励规模呈多项式增长，从而解决了Xie等人（2024）提出的一个开放问题。理论上，我们证明了SE-POPO的样本复杂度优于现有探索算法。实验上，系统评估证实，SE-POPO在RLHF的两种主要应用场景以及公共基准上都比探索性和非探索性基线更有效，标志着RLHF算法设计的一大进步。

发布时间: 2/4/2025

查看原文

增强型卷积神经网络以提高图像分类性能

作者: Xiaoran Yang, Shuhan Yu, Wenxi Xu

arXiv:2502.00663v1 交叉公告类型: cross 摘要: 图像分类是计算机视觉中的一个基本任务，具有广泛的应用，从自主系统到医学成像。CIFAR-10数据集是一个广泛应用的基准，用于评估分类模型在小型多类数据集上的性能。卷积神经网络（CNNs）已经展示了最先进的结果；然而，当应用于像CIFAR-10这样的具有挑战性数据集时，它们往往会遭受过拟合和特征表示不足的问题。在本文中，我们提出了一种增强的CNN架构，该架构整合了更深层的卷积块、批量归一化和丢层正则化，以实现更优秀的性能。所提出模型的测试准确性达到了84.95%，优于基线CNN架构。通过详细的消融研究，我们证明了这些增强的有效性，并分析了层次特征表示。这项工作突显了改进的CNN架构在有效解决小型图像分类问题方面的潜力。

发布时间: 2/4/2025

查看原文

LLM安全性对齐是差异估计的变体

作者: Rajdeep Haldar, Ziyi Wang, Qifan Song, Guang Lin, Yue Xing

arXiv:2502.00657v1 宣告类型: cross 摘要: 我们提出了一种理论框架，证明了包括基于人类反馈强化学习（RLHF）在内的流行的大语言模型（LLM）对齐方法本质上是衡量对齐（更青睐或更安全）和未对齐（不那么青睐或有害）分布之间偏离程度的估计器。这解释了在对齐后模型隐藏表示中安全提示与有害提示之间的分离现象。受到理论结果的启发，我们发现某些对齐方法在分离方面优于其他方法，并引入了一种新方法KLDO，并进一步证明了我们理论的意义。我们主张使用合规拒绝数据集而不是偏好数据集来增强安全性对齐，并且有理论推理和经验证据的支持。此外，为了量化安全性分离，我们利用表示空间中的距离度量，并对其作为预测LLM对牢笼攻击抵御能力的统计显著指标的有效性进行了统计验证。

发布时间: 2/4/2025

查看原文

TrojanTime：时间序列分类中的后门攻击

作者: Chang Dong, Zechao Sun, Guangdong Bai, Shuying Piao, Weitong Chen, Wei Emma Zhang

arXiv:2502.00646v1 类别: cross 摘要: 时间序列分类(TSC)高度容易受到后门攻击的影响，这引发了重大的安全威胁。现有方法主要集中在训练阶段的数据中毒问题上，设计复杂的触发器以提高隐蔽性和攻击成功率(ASR)。然而，在实际场景中，攻击者往往难以访问训练数据。此外，在数据不可用的情况下，模型需要在保持泛化能力的同时仍然对中毒输入保持易受攻击性，这是一项挑战。为了解决这些挑战，我们提出了一种新型的两阶段训练算法——TrojanTime。在第一阶段，我们通过目标对抗攻击使用外部任意数据集生成伪数据集。随后，清洁模型不断地在伪数据集及其中毒版本上进行训练。为了确保泛化能力，在第二阶段采用了精心设计的训练策略，结合了logits对齐和批量归一化冻结。我们使用UCR基准数据集中的四种不同领域的时间序列分类架构，并采用五种类型的触发器评估了TrojanTime。结果表明，TrojanTime在执行后门攻击的同时能够保持清洁准确性。最后，为了减轻这一威胁，我们提出了一个有效的防御学习策略，该策略能够降低ASR，同时保持清洁准确性。

发布时间: 2/4/2025

查看原文

评估新闻摘要中小型语言模型的表现：含义与影响性能的因素

作者: Borui Xu, Yao Chen, Zeyi Wen, Weiguo Liu, Bingsheng He

arXiv:2502.00641v1 类别: cross 摘要：资源受限环境中对高效摘要工具的需求不断增加，突显了有效解决方案的需求。虽然大规模语言模型（LLMs）提供了卓越的摘要质量，但其高计算资源要求限制了其实用应用程序的使用。相比之下，小型语言模型（SLMs）提供了一种更易于获取的选择，能够在边缘设备上实现实时摘要。然而，SLMs的摘要能力及其与LLMs的性能比较仍然没有得到充分探索。本文通过在2000个新闻样本上对19个SLMs进行全面评估，集中在新闻摘要的相关性、连贯性、事实一致性以及摘要长度，来填补这一空白。我们的研究发现SLMs在性能上存在显著差异，排名靠前的模型，如Phi3-Mini和Llama3.2-3B-Ins，在生成更简洁的摘要时，达到了70B LLMs的同等结果。值得注意的是，SLMs更适合简单的提示，过于复杂的提示可能会导致摘要质量下降。此外，我们的分析表明，指令调优并不总是能够增强SLMs的新闻摘要能力。这项研究不仅促进了对SLMs的理解，还为寻求平衡性能和资源使用效率的高效摘要解决方案的研究人员提供了实用的见解。

发布时间: 2/4/2025

查看原文

基于信息的零阶微调用于扩散模型：递归对数似然比优化器

作者: Tao Ren, Zishi Zhang, Zehao Li, Jingyang Jiang, Shentao Qin, Guanghao Li, Yan Li, Yi Zheng, Xinping Li, Min Zhan, Yijie Peng

arXiv:2502.00639v1 Announce Type: cross 摘要：概率扩散模型（DM），通过递归链结构进行推理生成内容，已成为视觉生成的强大框架。在大量未标记数据的预训练后，该模型需要正确对齐以满足下游应用的要求。如何高效地对基础DM进行对齐是一项关键任务。当代方法要么基于强化学习（RL），要么基于截断反向传播（BP）。然而，RL和截断BP分别受到低样本效率和偏差梯度估计的限制，导致改进有限，甚至 worse，完全训练失败。为克服这些挑战，我们提出了递归似然比（RLR）优化器，这是一种基于零阶信息的DM精细调整范式。零阶梯度估计器使计算图在递归扩散链内重排成为可能，从而使RLR的梯度估计器成为一个无偏差估计器，其方差低于其他方法。我们为RLR的表现提供了理论保证。我们在图像和视频生成任务中进行了广泛的实验，以验证RLR的优越性。此外，我们提出了一种新的提示技术，这种技术非常适合RLR，以实现协同效应。

发布时间: 2/4/2025

查看原文

SimulPL：同时机器翻译中的人类偏好对齐

作者: Donglei Yu, Yang Zhao, Jie Zhu, Yangyifan Xu, Yu Zhou, Chengqing Zong

arXiv:2502.00634v1 公告类型: cross 摘要: 同步机器翻译 (SiMT) 在接收流式源输入的同时生成翻译。这要求 SiMT 模型学习一个读写策略，决定何时进行翻译，何时等待更多的源输入。许多语言研究指出，在 SiMT 场景中的观众有明显的偏好，例如准确的翻译、简洁的语法以及没有不必要的延迟。对这些人类偏好的契合是提高 SiMT 模型性能的关键。然而，这个问题仍然没有被探索。此外，对 SiMT 任务的偏好优化也是一个挑战。现有方法仅专注于优化生成的响应，忽略了与延迟相关的偏好以及偏好优化阶段的读写策略优化。为了解决这些挑战，我们提出了 Simultaneous Preference Learning (SimulPL)，这是一种专门为 SiMT 任务设计的偏好学习框架。在 SimulPL 框架中，我们将 SiMT 人类偏好分为五个方面：**翻译质量偏好**、**单调性偏好**、**关键点偏好**、**简洁性偏好** 和 **延迟偏好**。通过利用前四类偏好，我们构建了人类偏好提示，以高效地引导 GPT-4/4o 生成用于 SiMT 任务的偏好数据。在偏好优化阶段，SimulPL 将 **延迟偏好** 整合到优化目标中，使 SiMT 模型能够改善读写策略，从而更有效地与人类偏好对齐。实验结果表明，SimulPL 在 Zh$\rightarrow$En、De$\rightarrow$En 和 En$\rightarrow$Zh SiMT 任务的所有延迟水平上都更好地与人类偏好对齐。我们的数据和代码将在 https://github.com/EurekaForNLP/SimulPL repository中提供。

发布时间: 2/4/2025

查看原文

表示形塑弱到强泛化：理论洞察与经验预测

作者: Yihao Xue, Jiping Li, Baharan Mirzasoleiman

arXiv:2502.00620v1 Announce Type: cross 摘要：弱到强泛化（W2SG），即弱模型监督强模型，是理解人类如何在未来引导超人类智能的重要类比。令人鼓舞的实验证据表明，强模型可以超越其弱监督者。尽管最近的工作为这一现象提供了理论见解，但弱模型和强模型之间驱动W2SG的交互机制仍不清楚。我们从理论角度研究W2SG，并表明它可以用源自弱模型和强模型内部表示主成分的核来表征。这些核可以用来定义一个空间，在高层次上捕捉弱模型无法学习但可以由强模型学习的内容。将标签投影到这个空间可以量化由于弱监督而强模型未能充分发挥其潜力的程度。这种表征还提供了有关强模型如何校正弱监督中的某些错误的见解，无论是否存在过拟合。我们的理论具有重要的实践意义，提供了一种基于表示的度量，预测W2SG性能趋势，而无需使用标签，如在使用变换器进行分子预测和涉及52个语言模型的5个NLP任务中所展示的。

发布时间: 2/4/2025

查看原文

基于控制理论视角的医学图像分割中分布感知公平性学习

作者: Yujin Oh, Pengfei Jin, Sangjoon Park, Sekeun Kim, Siyeop Yoon, Kyungsang Kim, Jin Sung Kim, Xiang Li, Quanzheng Li

arXiv:2502.00619v1 宣布类型: cross 摘要：在医疗图像分割中确保公平性至关重要，这主要是由于人口统计属性（如年龄、性别、种族）和临床因素（如疾病严重程度）导致的临床数据采集偏差所致。为了解决这些挑战，我们引入了基于分布的专家混合模型（dMoE），该模型灵感来源于最优控制理论。我们对其实现机制进行了全面分析，并明确了dMoE在医疗图像分割中适应异构分布的作用。此外，我们将dMoE集成到多个网络架构中，展示了其在不同医疗图像分析任务中的广泛应用。通过引入人口统计和临床因素，dMoE在两个2D基准数据集和一个3D内部数据集上实现了最先进的性能。我们的结果突显了dMoE在缓解偏差方面的效果，特别是在不均衡分布背景下公平学习范式中的控制理论和医疗图像分割相融合领域展现出了前景。源代码将公开提供。

发布时间: 2/4/2025

查看原文

DesCLIP：通过通用属性描述实现稳健的持续适应的预训练多模态模型

作者: Chiyuan He, Zihuan Qiu, Fanman Meng, Linfeng Xu, Qingbo Wu, Hongliang Li

arXiv:2502.00618v1 适应类型：跨模态摘要：视觉-语言模型（VLMs）的持续适应专注于利用跨模态预训练知识以增量方式适应扩展的下游任务和数据集，同时解决知识遗忘的挑战。现有研究往往侧重于将视觉特征与下游任务中的特定类别文本连接起来，而忽略了通用知识和专门知识之间的潜在关系。我们的研究发现，迫使模型优化不合适的视觉-文本匹配会加剧VLMs的知识遗忘。为了解决这一问题，我们提出了DesCLIP，该方法利用通用属性（GA）描述来指导特定类别对象的理解，使VLMs能够建立稳健的“视觉-GA-类别”三方关联，而不是仅仅依赖“视觉-类别”连接。具体而言，我们引入了一个语言助理，通过合适的请求提示生成具体的GA描述候选。然后，设计了一种基于锚点的嵌入过滤器来获取高度相关的GA描述嵌入，这些嵌入被用作视觉-文本实例匹配的配对文本嵌入，从而调整视觉编码器。相应地，类别文本嵌入逐渐校准，以与这些共享的GA描述嵌入对齐。广泛的实验验证了我们提出方法的进步性和有效性，全面的实证评估突显了其与现有的预训练和VLM基持续学习方法相比的优越性能。

发布时间: 2/4/2025

查看原文