arXiv 论文列表

作者: Yanlong Li, Jindong Li, Qi Wang, Menglin Yang, He Kong, Shengsheng Wang

arXiv:2501.18653v1 Announce Type: cross 摘要：基于大型语言模型的多智能体系统（MAS）已经在提高代码生成任务的效率和准确性方面展示了令人鼓舞的表现。然而，大多数现有的方法遵循一种传统的规划、编码和调试顺序，这与人类学习过程的增长驱动性质相矛盾。此外，多个智能体之间频繁的信息交互不可避免地带来了高昂的计算成本。在本文中，我们提出了一种受神经生物学启发的多智能体框架Cogito，以较低的成本增强代码生成任务的问题解决能力。具体而言，Cogito采用了一种逆序流程：首先进行调试，然后编码，最后规划。这种方法模仿了人类学习和发展的过程，知识是逐步获得的。相应地，设计了一个类似海马体的记忆模块，具有不同的功能，与流水线一起工作，以在类似任务中提供快速检索。通过这种基于增长的学习模型，Cogito在每个阶段积累知识和认知技能，最终形成一个全能型的超级角色，执行代码生成任务。针对代表性的基线方法的广泛实验表明，Cogito在性能和效率方面表现优异。代码可在https://anonymous.4open.science/r/Cogito-0083公开获取。

发布时间: 2/3/2025

查看原文

伪新闻检测_after LLM漂洗：度量与解释

作者: Rupak Kumar Das, Jonathan Dodge

arXiv:2501.18649v1 类型: cross 摘要：随着其先进的能力，大型语言模型（LLMs）可以生成高度令人信服且上下文相关的假新闻，这可以促进错误信息的传播。尽管在人类撰写的文本假新闻检测方面已有大量研究，但在检测由LLM生成的假新闻方面，该领域仍相对未被充分探索。这项研究衡量了检测器在识别LLM改写假新闻方面的功效，特别是确定在检测流程中添加改写步骤是否会有助于或妨碍检测。本研究贡献如下：(1) 检测器在识别LLM改写假新闻方面比识别人类撰写的文本更加困难；(2) 我们发现哪些模型在哪些任务上表现突出（逃避检测、改写以逃避检测和为了语义相似性改写）；(3) 通过LIME解释，我们发现检测失败的一个可能原因：情绪转移；(4) 我们发现了一个令人担忧的改写质量测量趋势：尽管使用高BERTSCORE，仍表现出情绪转移的样本；(5) 我们提供了一组数据集，将改写输出和评分添加到现有数据集中。该数据集可在GitHub上获取。

发布时间: 2/3/2025

查看原文

面向多代理大语言模型系统的分层链式思考提示：一种全面的可解释大语言模型方法

作者: Manish Sanwal

arXiv:2501.18645v1 类别：交叉学科摘要：大语言模型（LLMs）利用链式推理（CoT）提示提供逐步推理说明，提高复杂任务的表现。尽管好处很多，但传统的CoT常常无法完全验证中间推断，并可能导致误导性的解释。在本文中，我们提出了分层链式推理（Layered-CoT）提示，这是一种新颖的框架，系统地将推理过程划分为多个层次，并对每个层次进行外部检查和可选的用户反馈。我们扩展了关键概念，介绍了三种场景——医疗分流、金融风险评估和敏捷工程——并展示了Layered-CoT在透明度、正确性以及用户参与度方面如何超越传统的CoT。通过结合来自最近arXiv论文中关于交互可解释性、多智能体框架和基于代理的合作等领域的参考，我们阐述了Layered-CoT为高风险领域提供更可靠和基于事实的解释铺平了道路。

发布时间: 2/3/2025

查看原文

3D重建鞋子以实现增强现实

作者: Pratik Shrestha, Sujan Kapali, Swikar Gautam, Vishal Pokharel, Santosh Giri

arXiv:2501.18643v1 Announce Type: cross 摘要：本文介绍了一种基于移动设备的解决方案，通过3D建模和增强现实（AR）来增强在线鞋类购物体验，利用3D Gaussian Splatting的高效性。该框架通过2D图像生成逼真的3D鞋类模型，平均峰值信噪比（PSNR）为0.32，并通过智能手机实现沉浸式AR交互。创建了一个包含3120张图像的定制鞋类分割数据集，性能最佳的分割模型的交并比（IoU）得分为0.95。本文展示了3D建模和AR在通过提供逼真的虚拟交互来革新线上购物方面的潜力，并适用于更广泛的时尚类别。

发布时间: 2/3/2025

查看原文

DebiasPI：文本到图像生成模型在推理时的提示迭代去偏见

作者: Sarah Bonna, Yu-Cheng Huang, Ekaterina Novozhilova, Sejin Paik, Zhengyang Shan, Michelle Yilin Feng, Ge Gao, Yonish Tayal, Rushil Kulkarni, Jialin Yu, Nupur Divekar, Deepti Ghadiyaram, Derry Wijaya, Margrit Betke

arXiv:2501.18642v1 交叉公告类型摘要：伦理干预提示已成为对抗文本到图像生成AI模型中的人口统计偏差的工具。现有的解决方案要么需要重新训练模型，要么难以生成反映性别和种族理想分布的图像。我们提出了一种名为DebiasPI的推理时过程，这是一种通过启用用户控制图像生成中个体人口统计属性分布的偏差消除-通过提示迭代。DebiasPI 通过探测模型的内部状态或使用外部属性分类器跟踪哪些属性已被生成。其控制循环引导文本到图像模型选择尚未充分代表的属性。借助DebiasPI，我们能够创建种族和性别平等代表的图像，以可视化具有挑战性的新闻标题概念。我们还实验了年龄、体型、职业和肤色等属性，并测量了当我们的干预提示针对无关属性类型分布时这些属性如何变化。例如，如果要求文本到图像模型平衡种族代表性，性别代表性会改善，但肤色则变得不那么多样化。我们使用各种干预提示尝试覆盖广泛的肤色范围，发现模型难以生成最浅的肤色。我们进行了多种消融研究，在这些研究中，我们移除了DebiasPI的属性控制，揭示了模型倾向于生成年轻男性角色的倾向。有时，模型通过生成两栏图像来可视化职业成功，其中预先成功的深肤色人物在成功后变浅肤色，或者从预先成功的女性角色变为成功的男性角色，从而进一步强调了使用DebiasPI进行伦理干预提示的重要性。

发布时间: 2/3/2025

查看原文

攻击图与剪枝：优化隐蔽的 Jailbreak 提示生成以增强大语言模型内容审核

作者: Daniel Schwartz, Dmitriy Bespalov, Zhe Wang, Ninad Kulkarni, Yanjun Qi

arXiv:2501.18638v1 类型: 交叉学科摘要: 我们提出了一种模块化管道，用于从高层内容政策自动生成隐蔽的越狱提示，从而增强LLM内容审核。首先，我们通过开发Graph of Attacks with Pruning (GAP)方法来解决查询效率低下和越狱强度低的问题，该方法利用了先前越狱的策略，在使用GPT-3.5的查询量仅为之前算法的54%的情况下，实现了92%的攻击成功率。其次，我们通过使用LLM自动从高层政策生成种子提示来解决冷启动问题。最后，我们展示了这些生成的越狱提示在通过微调PromptGuard模型以检测越狱后，提高了其在Toxic-Chat数据集上的准确率，从5.1%提高到93.89%。

发布时间: 2/3/2025

查看原文

SafeRAG：检索增强生成中安全性评估的基准研究

作者: Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang

arXiv:2501.18636v1 安全类型: 交叉摘要: 检索增强生成（RAG）中的索引-检索-生成范式通过将外部知识集成到大型语言模型（LLMs）中，在解决知识密集型任务方面取得了高度成功。然而，外部且未经验证的知识的融入增加了LLMs的脆弱性，因为攻击者可以通过操纵知识来执行攻击任务。在这篇论文中，我们介绍了名为SafeRAG的基准，旨在评估RAG的安全性。首先，我们将攻击任务分类为黄金噪声、跨上下文冲突、软广告和白帽子拒绝服务。接下来，我们主要通过手动构造SafeRAG数据集来为每个任务构建RAG安全评估数据集。然后，我们利用SafeRAG数据集模拟RAG可能遇到的各种攻击场景。针对14个代表性RAG组件进行的实验表明，RAG对所有攻击任务都表现出显著的脆弱性，即使是最明显的攻击任务也可以轻易绕过现有的检索器、过滤器或高级LLMs，导致RAG服务质量的下降。代码可在以下地址获得：https://github.com/IAAR-Shanghai/SafeRAG。

发布时间: 2/3/2025

查看原文

Indiana琼斯：总是有一些有用的古代遗物

作者: Junchen Ding, Jiahao Zhang, Yi Liu, Ziqi Ding, Gelei Deng, Yuekang Li

arXiv:2501.18628v1 Announce Type: 跨越摘要：本文介绍了Indiana Jones，这是一种创新的利用模型间对话和关键词驱动提示来破解大型语言模型（LLMs）的方法。通过协调三个专门化LLM之间的交互，该方法在白盒和黑盒LLMs中通过内容保护措施方面取得了近乎完美的成功率。该研究揭示了当代模型中的系统性漏洞，特别是这些模型在受历史或上下文框架下的看似无害提示引导下产生有害或不道德输出的易感性。实验评估突显了Indiana Jones的有效性和适应性，并证明其在现有破解方法中的优越性。这些发现强调了对大型语言模型开发过程中增强伦理保护和 robust 安全措施的紧迫需求。此外，这项工作为未来旨在强化LLMs对抗恶意利用的研究奠定了关键基础，同时保留了它们的实用性和灵活性。

发布时间: 2/3/2025

查看原文

冰山一角：揭示隐藏的基于提示的任务对抗攻击类别

作者: Sergey Berezin, Reza Farahbakhsh, Noel Crespi

arXiv:2501.18626v1 类型: cross 摘要: 我们提出了一种针对大模型（LLMs）的新颖类别 Jailbreak 恶意攻击，称为 Task-in-Prompt（TIP）攻击。我们的方法将序列到序列的任务（例如，密码解码、谜语、代码执行）嵌入模型的提示中，以间接生成禁止输入。为了系统地评估这些攻击的有效性，我们引入了 PHRYGE 基准。我们证明，我们的技术成功地绕过了六种最先进的语言模型（包括 GPT-4o 和 LLaMA 3.2）的安全防护措施。我们的发现凸显了当前大模型安全对齐中的关键弱点，并强调了需要更加复杂的防御策略的急迫性。警告：本文包含仅供研究目的使用的不道德查询示例。

发布时间: 2/3/2025

查看原文

针对视觉-语言模型的成员推断攻击

作者: Yuke Hu, Zheng Li, Zhihao Liu, Yang Zhang, Zhan Qin, Kui Ren, Chun Chen

arXiv:2501.18624v1 类型: cross 摘要: 基于预训练视觉编码器和大型语言模型（LLMs）的视觉-语言模型（VLMs）在多模态理解和对话能力方面表现出色，使其成为下一个技术革命的动力。然而，尽管大多数VLM研究集中在增强多模态交互上，但在数据滥用和泄露风险方面，现有研究仍相对空白。这促使我们对VLM中的这些风险进行全面研究。在本文中，我们首次从成员推理攻击（MIA）的角度分析了VLM中的滥用和泄露检测。具体来说，我们重点关注VLM的指令调整数据，这些数据更可能包含敏感或未经授权的信息。为了解决现有MIA方法的局限性，我们提出了一个新的方法，该方法根据样本集及其对温度（VLM中的一个独特参数）的敏感性推断成员身份。基于此，我们提出了四种成员推理方法，每种方法针对不同的背景知识水平，最终达到了最具挑战性的场景。我们的全面评估表明，这些方法能够准确确定成员身份状态，例如，在LLaVA中针对仅包含5个样本的小集合，AUC达到0.8以上。

发布时间: 2/3/2025

查看原文