arXiv 论文列表

作者: Zhenhong Zhang, Jiajing Chen, Weiyan Shi, Lingjie Yi, Chihang Wang, Qian Yu

随着人工智能技术的快速发展，特别是问答系统的广泛应用，高质量的 प्रश्न निर्माण (问题生成) 已经成为支持这些系统发展的重要组成部分。本文重点研究基于知识的 प्रश्न निर्माण 技术，旨在使计算机能够基于对特定文本或知识库的理解来模拟人类的提问过程。针对大型语言模型在知识密集型任务中出现的幻觉和知识缺失问题，本文提出了一种结合对比学习的增强型 प्रश्न निर्माण 方法。该方法利用多个模型联合挖掘领域知识，并使用对比学习来引导模型减少生成过程中的噪音和幻觉。实验结果表明，通过设计包含对比例子的提示，模型在 प्रश्न निर्माण 方面的性能得到显著提高，特别是在同时使用对比指令和示例的情况下，生成的 प्रश्न 质量最高，准确率也得到提升。这些结果表明，本文提出的结合对比上下文和思维链提示的方法可以有效地提高 प्रश्न निर्माण 的质量和实用性。

发布时间: 9/30/2024

查看原文

大型语言模型的双层训练和解码：同时思考和表达

作者: Ningyuan Xi, Xiaoyu Wang, Yetao Wu, Teng Chen, Qingqing Gu, Jinxian Qu, Zhonglin Jiang, Yong Chen, Luo Ji

大型语言模型能够理解和生成人类表达，但可能缺乏深入的思考和推理机制。最近，有一些研究增强了语言模型的思考能力，但大多数研究并非数据驱动或基于训练的。本文受自然界认知机制的启发，设计了一种名为 TaS 的新型模型架构，该架构允许模型首先考虑想法，然后根据查询表达响应。我们设计了多个管道来注释或生成来自提示-响应样本的想法内容，然后在中间层添加语言头，作为思考层。我们使用想法增强数据训练语言模型，并成功地让思考层自动生成合理的想法，最终输出更合理的响应。定性和定量结果都验证了 TaS 的有效性和性能。我们的代码可在 https://anonymous.4open.science/r/TadE 获取。

发布时间: 9/30/2024

查看原文

从因果视角综述图机器学习的分布外泛化

作者: Jing Ma

图机器学习 (GML) 已成功应用于广泛的任务中。然而，GML 在泛化到超出分布 (OOD) 数据方面面临着重大挑战，这引发了对其更广泛适用性的担忧。最近的进展强调了因果驱动方法在克服这些泛化挑战中的关键作用。与主要依赖统计依赖关系的传统 GML 方法不同，因果关注策略深入研究数据生成和模型预测的潜在因果机制，从而显着提高了 GML 在不同环境下的泛化能力。本文对因果参与的 GML 泛化方面的最新进展进行了全面回顾。我们阐明了利用因果关系来增强图模型泛化的基本概念，并对各种方法进行了分类，详细描述了它们的方法论及其相互联系。此外，我们还探讨了因果关系在可信 GML 的其他相关重要领域（如解释、公平性和鲁棒性）中的整合。本文以对未来潜在研究方向的讨论结束，旨在阐明因果关系在增强图机器学习可信度方面的持续发展和未来潜力。

发布时间: 9/30/2024

查看原文

AnySkin：即插即用的机器人触觉皮肤感知

作者: Raunaq Bhirangi, Venkatesh Pattabiraman, Enes Erciyes, Yifeng Cao, Tess Hellebrekers, Lerrel Pinto

尽管触觉传感被广泛认为是一种重要且有用的传感方式，但其应用与视觉和本体感觉等其他传感方式相比仍然相形见绌。AnySkin 解决了阻碍触觉传感应用的关键挑战——通用性、可替换性和数据可重用性。AnySkin 基于 ReSkin 的简单设计，将传感电子设备与传感接口分离，简化了集成过程，使其如同安装手机壳和连接充电器一样简单。此外，AnySkin 是第一个无需校准的触觉传感器，具有跨实例泛化的学习操控策略。总而言之，这项工作做出了三个主要贡献：首先，我们介绍了一种简化的制造工艺和设计工具，用于创建无粘合剂、耐用且易于更换的磁性触觉传感器；其次，我们对 AnySkin 传感器的滑移检测和策略学习进行了表征；第三，我们演示了在 AnySkin 的一个实例上训练的模型对新实例的零样本泛化，并将其与 DIGIT 和 ReSkin 等流行的现有触觉解决方案进行了比较。实验视频、制造细节和设计文件可以在 https://any-skin.github.io/ 上找到。

发布时间: 9/30/2024

查看原文

大型语言模型检测器仍未达到现实世界水平：以大型语言模型生成的短新闻类帖子为例

作者: Henrique Da Silva Gameiro, Andrei Kucharavy, Ljiljana Dolamic

随着功能强大的大型语言模型 (LLM) 的广泛出现，大型语言模型 (LLM) 生成的虚假信息已成为一项重大关切。历史上，LLM 检测器被吹捧为解决方案，但它们在现实世界中的有效性仍有待证明。在本文中，我们关注信息操作中的一个重要场景——由中等水平的攻击者生成的简短新闻式帖子。我们证明，现有的 LLM 检测器，无论是零样本还是专门训练的，都还没有准备好用于该场景的现实世界应用。所有经过测试的零样本检测器在之前的基准测试中表现不一致，并且对采样温度增加高度敏感，而采样温度增加是一种简单的攻击，在最近的基准测试中缺失。可以开发一种跨 LLM 和未见攻击进行泛化的专门训练的检测器，但它无法泛化到新的由人类编写的文本。我们认为，前者表明需要特定领域的基准测试，而后者表明了对抗性规避弹性和过度拟合参考人类文本之间的权衡，两者都需要在基准测试中进行评估，目前尚不存在。我们认为，这表明需要重新考虑当前的 LLM 检测器基准测试方法，并提供一个动态可扩展的基准测试来允许它（https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection）。

发布时间: 9/30/2024

查看原文

I2EBench：一个全面的基于指令的图像编辑基准测试

作者: Yiwei Ma, Jiayi Ji, Ke Ye, Weihuang Lin, Zhibin Wang, Yonghan Zheng, Qiang Zhou, Xiaoshuai Sun, Rongrong Ji

基于指令的图像编辑 (IIE) 领域取得了重大进展。然而，评估这些模型是一个重大挑战。该领域的一个关键要求是建立一个全面的评估基准，以准确评估编辑结果并为其进一步发展提供宝贵的见解。为了满足这一需求，我们提出了 I2EBench，这是一个全面的基准，旨在自动评估 IIE 模型从多个维度生成的编辑图像的质量。I2EBench 包含 2,000 多张用于编辑的图像，以及 4,000 多张相应的原始和多样化的指令。它具有三个独特特征：1) 全面的评估维度：I2EBench 包含 16 个评估维度，涵盖高级和低级方面，对每个 IIE 模型进行全面评估。2) 人类感知一致性：为了确保我们的基准与人类感知一致，我们对每个评估维度进行了广泛的用户研究。3) 有价值的研究见解：通过分析现有 IIE 模型在 16 个维度上的优缺点，我们提供了宝贵的研究见解，以指导该领域的未来发展。我们将开源 I2EBench，包括所有指令、输入图像、人工标注、所有评估方法的编辑图像以及用于评估新 IIE 模型结果的简单脚本。代码、数据集和所有 IIE 模型生成的图像在 github 上提供：https://github.com/cocoshe/I2EBench。

发布时间: 9/30/2024

查看原文

针对定制化扩散模型的提示无关对抗性扰动

作者: Cong Wan, Yuhang He, Xiang Song, Yihong Gong

扩散模型彻底改变了定制文本到图像的生成，允许从个人数据和文本描述中高效地合成照片。然而，这些进步也带来了隐私泄露和未经授权复制艺术作品的风险。之前的研究主要集中在使用特定于提示的方法来生成对抗样本以保护个人图像，但现有方法的有效性受到对不同提示的适应性有限的阻碍。在本文中，我们介绍了一种用于定制扩散模型的提示无关对抗扰动 (PAP) 方法。PAP 首先使用拉普拉斯近似来对提示分布进行建模，然后通过基于建模分布最大化扰动期望来生成提示无关扰动。这种方法有效地解决了提示无关攻击，从而提高了防御稳定性。在人脸隐私和艺术风格保护方面的广泛实验表明，与现有技术相比，PAP 具有更好的泛化能力。我们的项目页面位于 https://github.com/vancyland/Prompt-Agnostic-Adversarial-Perturbation-for-Customized-Diffusion-Models.github.io。

发布时间: 9/30/2024

查看原文

克服任务无关持续学习中增长引起的遗忘问题

作者: Yuqing Zhao, Divya Saxena, Jiannong Cao, Xiaoyun Liu, Changlin Song

在持续学习（CL）中，模型增长增强了对新数据的适应能力，提高了对更多任务的知识保留。然而，不恰当的模型增长会导致先前学习的知识严重退化，我们将其称为增长诱导遗忘（GIFt），尤其是在使用整个增长模型进行推理的任务无关 CL 中。现有的工作，尽管采用了模型增长和随机初始化以获得更好的适应性，但往往未能认识到由不恰当的模型增长引起的 GIFt 存在。这种疏忽限制了对遗忘的全面控制，并阻碍了模型增长的充分利用。我们是 CL 中第一个识别这个问题并对 GIFt 的根本原因进行深入研究的，其中层扩展在模型增长策略中脱颖而出，扩大了层而不影响模型功能。然而，直接采用层扩展存在挑战。它缺乏数据驱动的控制和扩展参数的初始化，以平衡适应性和知识保留。本文提出了一种新的 SparseGrow 方法，以克服 GIFt 问题，同时增强对新数据的适应性。SparseGrow 采用数据驱动的稀疏层扩展来控制增长过程中的高效参数使用，减少过度增长和功能变化带来的 GIFt。它还将稀疏增长与训练后期的数据初始化相结合，创建部分为 0 值的扩展，以适应学习到的分布，增强保留和适应性。为了进一步减少遗忘，通过计算稀疏掩码应用冻结，允许数据驱动地保留重要参数。通过在具有各种设置、案例和任务数量的数据集上的实验，我们证明了层扩展的必要性，并展示了 SparseGrow 在克服 GIFt 方面的有效性，突出了其对增量任务的适应性和知识保留。

发布时间: 9/30/2024

查看原文

利用多模态大型语言模型进行多模态序列推荐

作者: Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong

大型语言模型 (LLM) 在推荐系统 (RS) 领域展现出巨大潜力。大多数现有研究集中于将用户行为日志转换为文本提示，并利用提示微调等技术使 LLM 能够执行推荐任务。与此同时，人们对融合图像、文本和其他来源数据的多模态推荐系统产生了越来越大的兴趣，这些系统使用模态融合技术。这为现有的基于 LLM 的推荐范式带来了新的挑战，该范式仅依赖于文本模态信息。此外，尽管能够处理多模态输入的多模态大型语言模型 (MLLM) 已经出现，但如何为 MLLM 装备多模态推荐能力在很大程度上仍未探索。为此，本文提出了多模态大型语言模型增强的多模态顺序推荐 (MLLM-MSR) 模型。为了捕捉动态的用户偏好，我们设计了一种两阶段的用户偏好概括方法。具体来说，我们首先利用基于 MLLM 的项目概括器提取给定项目的图像特征，并将图像转换为文本。然后，我们采用循环用户偏好概括生成范式，基于基于 LLM 的用户概括器捕捉用户偏好的动态变化。最后，为了使 MLLM 能够执行多模态推荐任务，我们建议使用监督微调 (SFT) 技术微调基于 MLLM 的推荐器。对各种数据集进行的广泛评估验证了 MLLM-MSR 的有效性，展示了其在捕捉和适应用户偏好演变动态方面的优越能力。

发布时间: 9/30/2024

查看原文

EasyRec：简单而有效的推荐语言模型

作者: Xubin Ren, Chao Huang

深度神经网络已成为协同过滤（CF）推荐系统中从用户-商品交互数据学习表示的强大技术。然而，许多现有方法严重依赖于唯一的用户和商品 ID，这限制了它们在实际零样本学习场景中的表现，因为在这些场景中可能无法获得足够的训练数据。受语言模型（LM）及其强大的泛化能力成功的启发，一个关键问题出现了：我们如何利用语言模型的潜力来赋能推荐系统，并将它的泛化能力提升到新的高度？在本研究中，我们提出了 EasyRec，这是一种有效且易于使用的方案，它将基于文本的语义理解与协同信号无缝整合。EasyRec 采用了一种文本行为对齐框架，它将对比学习与协同语言模型调优相结合，以确保文本增强的语义空间与协同行为信息之间紧密对齐。对各种真实世界数据集的广泛实证评估表明，与最先进的替代模型相比，EasyRec 的性能优越，特别是在具有挑战性的基于文本的零样本推荐场景中。此外，该研究强调了将 EasyRec 无缝集成到文本增强的协同过滤框架中作为即插即用组件的潜力，从而使现有推荐系统能够提升其推荐性能并适应动态环境中不断变化的用户偏好。为了更好地重现我们的 EasyRec 框架的结果，模型实现细节、源代码和数据集可在以下链接找到：https://github.com/HKUDS/EasyRec。

发布时间: 9/30/2024

查看原文