arXiv 论文列表

作者: Daniel Neider, Leif Sabellek, Johannes Schmidt, Fabian Vehlken, Thomas Zeume

解释一棵树 $t$ 在结构上如何以及为何与另一棵树 $t^*$ 不同，这个问题在整个计算机科学领域中都会遇到，包括理解 XML 或 JSON 数据等树状结构数据。本文探讨了如何从样本数据中学习树对之间结构差异的解释：假设我们给定一组标记的、有序树对 $\{(t_1, t_1^*),\dots, (t_n, t_n^*)\}$；是否存在一组小的规则来解释所有树对 $(t_i, t_i^*)$ 之间的结构差异？这提出了两个研究问题：（i）在这种情况下，什么是“规则”的良好概念？（ii）如何用算法学习解释数据集的规则集？我们从数据库理论的角度探讨了这些问题，方法是（1）引入一种基于模式的树转换规范语言；（2）探索上述算法问题的变体的计算复杂度，例如，显示非常受限的变体的 NP 难解性；以及（3）讨论如何使用 SAT 求解器解决来自 CS 教育研究的数据问题。

发布时间: 10/11/2024

查看原文

AgentBank：通过在 50000+ 交互轨迹上微调实现通用 LLM 智能体

作者: Yifan Song, Weimin Xiong, Xiutian Zhao, Dawei Zhu, Wenhao Wu, Ke Wang, Cheng Li, Wei Peng, Sujian Li

在开源大型语言模型（LLMs）中，对代理-环境交互轨迹数据进行微调，对于展现出泛化的代理能力具有重大意义。在这项工作中，我们介绍了 AgentBank，它是迄今为止最大的轨迹调优数据集合，包含超过 5 万个多样化的高质量交互轨迹，涵盖 16 个任务，涉及五个不同的代理技能维度。利用新颖的标注流程，我们能够扩展标注的轨迹，并生成一个难度偏差最小的轨迹数据集。此外，我们对 AgentBank 上的 LLMs 进行微调，以获得一系列代理模型，即萨摩耶犬。我们的对比实验表明，扩展交互轨迹数据以获取泛化的代理能力是有效的。额外的研究还揭示了一些关于轨迹调优和代理技能泛化的关键观察结果。

发布时间: 10/11/2024

查看原文

TRADES 中的对抗鲁棒性高估和不稳定性

作者: Jonathan Weiping Li, Ren-Wei Liang, Cheng-Han Yeh, Cheng-Chang Tsai, Kuanchun Yu, Chun-Shien Lu, Shang-Tse Chen

本文探讨了 TRADES，一种著名的对抗训练方法中，概率鲁棒性高估的现象。我们的研究表明，在多类分类任务中，TRADES 有时会产生与 AutoAttack 测试精度相比过高比例的 PGD 验证精度。这种差异突出了这些实例的鲁棒性被显著高估，这可能与梯度掩蔽有关。我们进一步分析了导致模型不稳定并导致高估的参数。我们的发现表明，较小的批次大小、较低的 beta 值（控制 TRADES 中鲁棒损失项的权重）、较高的学习率以及更高的类别复杂度（例如，CIFAR-100 与 CIFAR-10）与鲁棒性高估的可能性增加相关。通过检查诸如一阶稳定条件 (FOSC)、内部最大化和梯度信息等指标，我们确定了这种现象的根本原因是梯度掩蔽，并对其进行了深入分析。此外，我们的实验表明，某些不稳定的训练实例可能会恢复到没有鲁棒性高估的状态，激发了我们寻求解决方案的尝试。除了调整参数设置以减少不稳定性或在发生高估时重新训练之外，我们建议在 FOSC 分数超过阈值时，在输入中加入高斯噪声。这种方法旨在从源头上缓解 TRADES 及其他类似方法的鲁棒性高估，确保在评估期间对对抗鲁棒性进行更可靠的表示。

发布时间: 10/11/2024

查看原文

基于因果表征推断的跨模态点击诱饵检测，通过消除偏差进行解混

作者: Jianxing Yu, Shiqi Wang, Han Yin, Zhenlong Sun, Ruobing Xie, Bo Zhang, Yanghui Rao

本文重点关注网络上点击诱饵帖子的检测。这些帖子通常使用引人注目的虚假信息，以多种形式误导用户点击以获取利益。这会影响用户体验，因此会被内容提供商屏蔽。为了逃避检测，恶意创建者会使用技巧在诱饵帖子中添加一些无关的非诱饵内容，将其伪装成合法内容以欺骗检测器。这种内容通常与非诱饵标签存在偏差关系，但传统的检测器倾向于基于简单的共现进行预测，而不是掌握导致恶意行为的内在因素。这种虚假偏差很容易导致误判。为了解决这个问题，我们提出了一种基于因果推理的去偏差方法。我们首先使用一组多模态特征来描述帖子。考虑到这些特征经常与未知偏差混杂在一起，我们随后从这些特征中分离出三种潜在因素，包括指示内在诱饵意图的不变因素；反映特定场景中欺骗模式的因果因素；以及非因果噪声。通过消除造成偏差的噪声，我们可以使用不变因素和因果因素来构建一个具有良好泛化能力的鲁棒模型。在三个流行数据集上的实验表明了我们方法的有效性。

发布时间: 10/11/2024

查看原文

MACPO：基于多智能体对比偏好优化的弱到强对齐

作者: Yougang Lyu, Lingyong Yan, Zihan Wang, Dawei Yin, Pengjie Ren, Maarten de Rijke, Zhaochun Ren

随着大型语言模型 (LLM) 的快速发展并接近人类能力，使它们与人类价值观保持一致变得更加紧迫。在 LLM 胜过人类的情况下，我们面临着弱到强的对齐问题，需要通过弱教师生成的弱监督来有效地对齐强大的学生 LLM。现有的对齐方法主要集中在强到弱的对齐和自对齐设置上，将它们应用于更困难的弱到强的对齐设置是不切实际的。为了填补这一空白，我们提出了一种多智能体对比偏好优化 (MACPO) 框架。MACPO 通过反复强化不熟悉的积极行为，同时惩罚熟悉的消极行为，促使弱教师和强学生相互学习。为了实现这一点，我们设计了一种相互积极行为增强策略，鼓励弱教师和强学生相互学习对方的积极行为，并为下一轮迭代提供更高质量的积极行为。此外，我们提出了一种硬消极行为构建策略，通过对消极行为数据进行微调，诱导弱教师和强学生生成熟悉的消极行为。在 HH-RLHF 和 PKU-SafeRLHF 数据集上的实验结果表明，MACPO 同时提高了强学生和弱教师的对齐性能，使用自动指标和人工判断进行评估。此外，随着弱教师数量的增加，MACPO 通过更多轮迭代优化，实现了更好的弱到强的对齐性能。

发布时间: 10/11/2024

查看原文

DISCO：一种用于可解释的职位推荐的分层解耦认知诊断框架

作者: Xiaoshan Yu, Chuan Qin, Qi Zhang, Chen Zhu, Haiping Ma, Xingyi Zhang, Hengshu Zhu

在线招聘平台的快速发展为求职者创造了前所未有的机会，但也带来了快速准确地找到与自身技能和偏好相符职位这一重大挑战。职位推荐系统通过优化用户参与指标（如点击和申请）显著减轻了求职者的繁重搜索负担，取得了显著成功。近年来，大量研究致力于开发有效的职位推荐模型，主要集中在基于文本匹配和基于行为建模的方法。虽然这些方法取得了令人印象深刻的成果，但必须指出，招聘推荐的可解释性研究仍然极度缺乏。为此，本文提出了一种基于分层的解耦认知诊断框架DISCO，旨在灵活地适应底层表示学习模型，以实现有效且可解释的职位推荐。具体而言，我们首先设计了一个分层表示解耦模块，以明确挖掘隐藏在求职者和职位隐藏表示中的分层技能相关因素。随后，我们提出了层次感知关联建模，以增强信息传递和鲁棒的表示学习，包括层间知识影响模块和层内对比学习。最后，我们设计了一个交互诊断模块，该模块包含一个神经诊断功能，用于有效地模拟求职者和职位之间的多层次招聘交互过程，引入了认知测量理论。

发布时间: 10/11/2024

查看原文

几乎最小最大最优的臂识别在分段stationary线性 Bandits 中

作者: Yunlong Hou, Vincent Y. F. Tan, Zixin Zhong

arXiv:2410.07638v1 类型: cross 摘要: 我们提出了一种新颖的分段平稳线性bandit (PSLB) 模型，其中环境在每个变更点随机从未知概率分布中抽取一个上下文，并通过其在所有上下文上的回报平均值来衡量臂的质量。环境及其分布，以及变更点都对代理未知。我们设计了一个名为分段平稳ε-最优臂识别+ (PSεBAI+) 的算法，该算法可以以概率≥1-δ的方式识别出一个ε-最优臂，并且使用最少的样本数量。PSεBAI+ 由两个子模块 PSεBAI 和 Naïve ε-BAI (NεBAI) 组成，它们并行执行。PSεBAI 主动检测变更点并对齐上下文，以促进臂的识别过程。当智能并行使用 PSεBAI 和 NεBAI 时，PSεBAI+ 被证明具有有限的期望样本复杂度。通过证明下界，我们显示 PSεBAI+ 的期望样本复杂度在对数因子内达到了最优。我们使用数值实验将 PSεBAI+ 与基线算法进行比较，这些实验表明它具有高效性。我们的理论和数值结果都证实，PSεBAI+ 的有效性归因于 PSεBAI 中嵌入的精细变更检测和上下文对齐过程。

发布时间: 10/11/2024

查看原文

可靠的 LLM 推理的自动课程专家迭代

作者: Zirui Zhao, Hanze Dong, Amrita Saha, Caiming Xiong, Doyen Sahoo

大型语言模型（LLM）在许多自然语言处理任务中已经取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLM的方法仍然面临着幻觉（即生成看似合理但实际上不准确的内容）和惰性（即过度拒绝或默认“我不知道”）的挑战。当前减少幻觉的努力主要集中在知识驱动任务中的事实错误上，往往忽视了与错误推理相关的幻觉。同时，一些方法使LLM过于保守，限制了其解决问题的能力。为了减轻推理任务中的幻觉和惰性，我们提出了自动课程专家迭代（Auto-CEI）来增强LLM推理，并使其响应与模型能力相一致——在能力范围内自信地回答，并在任务超出其能力时拒绝。在我们的方法中，专家迭代探索了LLM策略附近的推理轨迹，引导错误的路径回到正轨，以减少复合错误并提高鲁棒性；它还在经过充分的推理尝试后，促进了适当的“我不知道”响应。课程自动调整奖励，鼓励在承认无能为力之前进行扩展推理，从而推动LLM推理的极限，并使其行为与这些极限相一致。我们将Auto-CEI与各种SOTA基线进行了比较，涵盖逻辑推理、数学和规划任务，其中Auto-CEI通过有效地平衡自信和保守性，实现了卓越的一致性。

发布时间: 10/11/2024

查看原文

墨韵：一种基于扩散模型的特定风格汉字书法生成方法

作者: Kaiyuan Liu, Jiahao Mei, Hengyu Zhang, Yihuai Zhang, Xingjiao Wu, Daoguo Dong, Liang He

尽管中文书法生成已经实现了风格迁移，但通过指定书法家、字体和字体的风格来生成书法仍然是一个挑战。为了解决这个问题，我们提出了一种新的中文书法生成模型“墨云”，它用 Vision Mamba 替换了 Diffusion 模型中的 Unet，并引入了 TripleLabel 控制机制来实现可控书法生成。该模型在超过 190 万张图像的大规模数据集“墨宝”上进行了测试，结果表明“墨云”可以有效地控制生成过程，并以指定风格生成书法。即使是书法家从未写过的书法，“墨云”也能生成与书法家风格相符的书法。

发布时间: 10/11/2024

查看原文

基于深度强化学习的网络入侵检测综述

作者: Wanrong Yang, Alberto Acuto, Yihang Zhou, Dominik Wojtczak

网络攻击日益复杂和频繁，突显了网络入侵检测系统的重要性。本文探讨了在网络入侵检测中使用深度强化学习 (DRL) 的潜力和挑战。文章首先介绍了 DRL 的关键概念和框架，例如深度 Q 网络和演员-评论家算法，并回顾了最近利用 DRL 进行入侵检测的研究。该研究评估了与模型训练效率、少数类和未知类攻击检测、特征选择以及处理不平衡数据集相关的挑战。对 DRL 模型的性能进行了全面分析，表明虽然 DRL 很有前景，但许多新技术仍未得到充分探索。一些 DRL 模型在公开数据集上取得了最先进的结果，有时甚至超过了传统的深度学习方法。文章最后提出了增强 DRL 在真实网络场景中部署和测试的建议，重点关注物联网入侵检测。文章讨论了最近的 DRL 架构，并为基于 DRL 的入侵检测提出了未来的策略函数。最后，文章建议将 DRL 与生成式方法相结合，以进一步提高性能，解决当前的差距，并支持更强大和适应性更强的网络入侵检测系统。

发布时间: 10/11/2024

查看原文