arXiv 论文列表

作者: Yu Yan, Sheng Sun, Junqi Tong, Min Liu, Qi Li

arXiv:2412.12145v3 宣告类型: replace-cross 摘要：隐喻作为一种隐含的信息传递方式，能够促进复杂主题的一般理解。然而，隐喻可能会被用来规避大型语言模型（LLMs）的安全对齐机制，导致有害知识的盗窃。在我们的研究中，我们介绍了一种新的攻击框架，利用LLMs的想象能力实现逃逸，称为Jailbreak Via Adversarial MeTA-phoR（AVATAR）。具体来说，为了引发有害反应，AVATAR从给定的有害目标中提取有害实体，并基于LLMs的想象将它们映射到无害的对抗性实体。然后，根据这些隐喻，有害目标被嵌入到人类互动中，以适应性地实现逃逸。实验结果表明，AVATAR能够有效地且可转移地逃逸LLMs，并在多个高级LLMs中实现最先进的攻击成功率。我们的研究揭示了LLMs从其内生的想象能力中存在安全风险。此外，分析研究揭示了LLMs对抗隐喻的脆弱性以及防范由对抗隐喻引起的逃逸的防御方法的必要性。**注意：本文包含来自LLMs的潜在有害内容。**

发布时间: 2/20/2025

查看原文

预览：使白盒方法能够利用 proprietary 模型进行零样本 LLM 生成文本检测

作者: Guangsheng Bao, Yanbin Zhao, Juncai He, Yue Zhang

arXiv:2412.11506v2 宣告类型: 替换-交叉摘要: 先进的大语言模型（LLMs）可以生成几乎与人工撰写的文本无法区分的文本，突显了检测LLM生成文本的重要性。然而，当前的零样本技术面临着挑战，因为白盒方法受到限制，只能使用较弱的开源LLM，而黑盒方法则受限于较强的专业LLM的部分观察。似乎不可能让白盒方法使用专有模型，因为模型的API级访问既不提供全面的预测分布，也不提供内部嵌入。为了跨越这一鸿沟，我们提出了一种 **Glimpse** 概率分布估计方法，从部分观察中预测全面的分布。尽管Glimpse方法很简单，但我们成功地将白盒方法如熵、排名、对数排名以及Fast-DetectGPT扩展到了最新的专有模型。实验表明，与开源基线的其余空间相比，Glimpse与Fast-DetectGPT和GPT-3.5结合使用时，在五个最新的源模型中平均AUC-ROC达到约0.95，提高了51%的得分。这表明最新的LLM可以有效检测自己的输出，暗示高级LLM可能是最好的自我防护盾。我们将在 https://github.com/baoguangsheng/glimpse 释放我们的代码和数据。

发布时间: 2/20/2025

查看原文

表的片段：表-question answering中选择子表的一种分而治之方法

作者: Wonjin Lee, Kyumin Kim, Sungjae Lee, Jihun Lee, Kwang In Kim

arXiv:2412.07629v4 宣告类型: replace-cross 摘要: 将语言模型（LMs）应用于表格具有挑战性，因为二维表格与最初的LMs设计所针对的一维文本在内在结构上存在差异。此外，当将线性化的表格应用到LMs中时，自注意力计算中经常施加的最大标记长度限制使得难以全面理解分布在大型表格中的上下文信息。为了解决这些问题，我们提出了PieTa（Piece of Table）框架，这是一种基于子表的问答（QA）新框架。PieTa通过将表格迭代地划分为更小的窗口，使用LMs在每个窗口内选择相关单元格，并将这些单元格合并成一个子表来运行。这种多分辨率方法能够在多个行和列之间捕获依赖关系，同时避免了长上下文输入导致的限制。作为一种简单的迭代子表合并算法，PieTa在先前的基于子表的问答方法上表现出更好的性能。

发布时间: 2/20/2025

查看原文

SpecFuse：通过下一段预测集结大型语言模型

作者: Bo Lv, Chen Tang, Yanan Zhang, Xin Liu, Yue Yu, Ping Luo

arXiv:2412.07380v2 宣告类型: 交叉替换摘要：生成型大型语言模型（LLMs）的集成可以通过整合不同LLMs的优点来弥补单一模型的局限性。然而，近年来的工作主要集中在训练额外的融合模型以结合多个LLMs的完整响应，未能充分发挥它们在生成高质量响应方面的协作潜力。此外，由于额外的融合模型是在专门的数据集上进行训练的，这些方法在处理来自在线用户的开放领域查询时存在泛化困难。在这篇论文中，我们提出了SpecFuse，这是一种新颖的集成框架，通过LLMs之间的协作逐段生成融合结果。这通过其推理和验证组件的循环执行来实现。在每一轮中，推理组件并行调用每个基础LLM生成候选段，验证组件再次调用这些LLM预测段的排名。排名最高的段被广播给所有LLM，促使它们在下一轮生成更高质量的段。这种方法还允许基础LLM即插即用，无需任何训练或适应，从而避免了泛化限制。为进一步节省计算资源，我们提出了一个模型退出机制，在每次查询响应时动态排除上一轮表现不佳的模型。通过这种方式，它有效地减少了模型调用次数，同时保持总体性能。

发布时间: 2/20/2025

查看原文

细粒度元素建模重构对话交互

作者: Minzheng Wang, Xinghua Zhang, Kun Chen, Nan Xu, Haiyang Yu, Fei Huang, Wenji Mao, Yongbin Li

arXiv:2412.04905v3 Announce Type: replace-cross 摘要：大型语言模型（LLMs）推动的对话系统已成为人类-机器交互的核心模式之一，带来了大量的对话日志，并增加了对话生成的需求。对话的生命周期包含从$\textit{Prelude}$到$\textit{Interlocution}$再到$\textit{Epilogue}$的丰富对话元素。尽管有大量的对话相关研究，但对于对话阶段的系统性调查仍然不足，这阻碍了基于LLMs的对话系统的精准建模、生成和评估。为解决这一问题，本文引入了一个新的研究任务——$\textbf{D}$ialogue $\textbf{E}$lement $\textbf{MO}$deling（包括$\textit{Element Awareness}$和$\textit{Dialogue Agent Interaction}$），并提出了一种新型基准——$\textbf{DEMO}$，适用于全面的对话建模和评估。在此基础上，我们进一步构建了$\textbf{DEMO}$代理，该代理具备通过模仿学习建模对话元素的能力。对$\textbf{DEMO}$进行的大量实验表明，当前的代表性LLMs仍有很大的改进潜力，而我们的$\textbf{DEMO}$代理在对话元素建模和跨域任务中均表现良好。

发布时间: 2/20/2025

查看原文

WRF-GS: 基于三维高斯绘制的无线辐射场重构

作者: Chaozheng Wen, Jingwen Tong, Yingdong Hu, Zehong Lin, Jun Zhang

arXiv:2412.04832v2 通知类型: 替换交叉摘要：无线信道建模在设计、分析和优化无线通信系统中发挥着关键作用。然而，开发有效的信道建模方法始终是一项长期的挑战。随着5G及后续网络采用更密集的网络部署、更大的天线阵列和更宽的带宽，这一问题变得更加突出。为了解决这一挑战，我们提出了WRF-GS，这是一种基于无线辐射场（WRF）重建的新型框架，该框架使用三维高斯拟合进行信道建模。WRF-GS利用三维高斯基本元素和神经网络来捕捉环境与无线电信号之间的交互，从而能高效地进行WRF重建和传播特性的可视化。重建后的WRF可以用于综合无线信道特性化。值得注意的是，WRF-GS 只需要少量测量，就能在毫秒级内为给定的场景合成新的空间频谱，从而支持延迟敏感型应用。实验结果表明，WRF-GS 在空间频谱合成任务中优于现有方法，如射线追踪和其他深度学习方法。此外，WRF-GS 在信道状态信息预测任务中表现出色，比现有方法在性能上高出超过2.43 dB。

发布时间: 2/20/2025

查看原文

成人学习者的智能辅导系统：需求与挑战分析

作者: Adit Gupta, Momin Siddiqui, Glen Smith, Jenn Reddig, Christopher MacLellan

arXiv:2412.04477v3 社会技术类型：替换交叉摘要：本研究探讨了影响成人学习者在自我导向学习环境中采用和使用智能辅导系统的技术社会因素。研究分为两个部分。首先，我们介绍了面向成人学习者需求的新型智能辅导系统——学徒导师( Apprenti ce Tutors)，该平台包括自适应问题选择、实时反馈和可视化仪表盘，以支持高等代数主题的学习。其次，通过部署研究和一系列焦点小组讨论，我们考察了成人用户的具体需求和体验。通过主题分析，我们确定了改进辅导设计和采用的关键挑战和机会。基于这些发现，我们提出了可操作的设计建议，以帮助开发人员创建更符合成人学习者动机和学习偏好的智能辅导系统。本研究为如何改进教育技术以支持终生学习和职业发展提供了更广泛的理解。

发布时间: 2/20/2025

查看原文

DiffGuard：基于文本的安全检查器 for 扩散模型

作者: Massine El Khader, Elias Al Bouzidi, Abdellah Oumida, Mohammed Sbaihi, Eliott Binard, Jean-Philippe Poli, Wassila Ouerdane, Boussad Addad, Katarzyna Kapusta

arXiv:2412.00064v2 宣告类型: replace-cross 摘要：最近在扩散模型方面的进展使从文本生成图像成为可能，强大的闭源模型如DALL-E和Midjourney引领着这一方向。然而，开源替代品，如 StabilityAI 的 Stable Diffusion，也提供了相当的能力。这些开源模型托管在 Hugging Face 上，并配备了旨在防止生成 explicit 图像的伦理过滤保护措施。本文首先揭示了它们的局限性，然后提出了一种新型的文字安全过滤器，其性能优于现有解决方案。我们的研究受到对抗人工智能生成内容的滥用这一迫切需求的驱使，尤其是在信息战争的背景下。DiffGuard 提升了过滤效果，其性能比现有最佳过滤器高出超过 14%。

发布时间: 2/20/2025

查看原文

RevPRAG：通过LLM激活分析揭示检索增强生成中的中毒攻击

作者: Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai

arXiv:2411.18948v2 通知类型: 替换交叉摘要：检索增强生成（RAG）通过从相关的知识数据库中检索信息来丰富LLM的输入，使其能够生成更准确和上下文相关性的响应。值得注意的是，知识数据库来自诸如Wikipedia等公开渠道，不可避免地引入了新的攻击面。RAG污染涉及将恶意文本注入知识数据库，最终导致生成攻击者的目标响应（也称为被污染的响应）。然而，目前用于检测此类污染攻击的方法仍然有限。我们在此工作中力求弥补这一空白。特别地，我们引入了RevPRAG，这是一种灵活且自动化的检测管道，利用LLM的激活来检测被污染的响应。我们的研究发现，在生成正确响应与被污染响应时，LLM的激活表现出不同的模式。我们在多个基准数据集和RAG架构上的结果显示，我们的方法可以实现98%的真实阳性率，同时保持假阳性率接近1%。

发布时间: 2/20/2025

查看原文

ACROSS: 基于变形的跨模态表示用于机器人触觉感知

作者: Wadhah Zai El Amri, Malte Kuhlmann, Nicol\'as Navarro-Guerrero

arXiv:2411.08533v2 Announce Type: replace-cross 摘要：触觉感知对于人类与环境的交互至关重要，并且在机器人技术中变得越来越重要。类似BioTac的触觉传感器模拟人类指尖，提供详细的交互数据。尽管这种传感器在诸如滑动检测和物体识别等应用中有其实用性，但现在已被弃用，使许多有价值的数据库变得过时。然而，使用新的传感器技术重新创建类似的数据集既繁琐又耗费时间。因此，适应现有的数据库以供新的设置和模态使用是至关重要的。为应对这一挑战，我们提出了ACROSS，一种通过利用传感器变形信息来在触觉传感器之间转换数据的新框架。我们通过将BioTac信号转化为DIGIT传感器进行演示。我们的框架首先将输入信号转换为3D变形网格。然后，从一个传感器的3D变形网格过渡到另一个传感器的网格，并最终将生成的3D变形网格转换到相应的输出空间。我们展示了从低维度触觉表示到高维度表示这一最具挑战性的问题。具体来说，我们将BioTac传感器的触觉信号转移到DIGIT触觉图像上。我们的方法使有价值的数据库的继续使用以及不同设置之间的数据交换成为可能。

发布时间: 2/20/2025

查看原文