LLM2D
针对处理矛盾对话的语言模型进行红队攻击
Red Teaming Language Models for Processing Contradictory Dialogues
作者: Xiaofei Wen, Bangzheng Li, Tenghao Huang, Muhao Chen
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2405.10128v3

摘要

目前大多数语言模型在对话中容易出现自相矛盾。为了解决这个问题,本研究探索了一种新颖的矛盾对话处理任务,旨在检测和修改对话中的矛盾陈述。该任务的灵感来自上下文忠实度和对话理解方面的研究,这些研究表明,矛盾的检测和理解通常需要详细的解释。我们开发了一个包含矛盾对话的数据集,其中一方的对话自相矛盾。每个对话都附带一个解释标签,突出显示矛盾的位置和细节。利用该数据集,我们提出了一个用于矛盾对话处理的“红队”框架。该框架检测并尝试解释对话,然后利用解释修改现有的矛盾内容。我们的实验表明,该框架提高了检测矛盾对话的能力,并提供了有效的解释。此外,它还展示了修改此类对话的独特能力。我们的研究突出了对话式人工智能中逻辑不一致问题的严重性。