我们引入了一种新型对抗攻击方法,该方法利用语言模型无法解释ASCII艺术的特点。为了评估这些攻击,我们提出了ToxASCII基准测试,并开发了两种定制的ASCII艺术字体:一种利用特殊标记,另一种使用文本填充的字母形状。我们的攻击在十个模型中实现了完美的1.0攻击成功率,其中包括OpenAI的o1-preview和LLaMA 3.1。
警告:本文包含出于研究目的而使用的有害语言示例。
无监督领域自适应 (UDA) 的目标是从带标签的源域转移知识到无标签的目标域。最近的研究集中在源自由 UDA 上,其中只有目标数据可用。这具有挑战性,因为模型依赖于噪声伪标签,并且难以应对分布偏移。我们提出了一种名为主动对抗对齐 (A3) 的新颖框架,它结合了自监督学习、对抗训练和主动学习,用于鲁棒的源自由 UDA。A3 使用采集函数主动采样信息丰富且多样化的数据进行训练。它通过对抗性损失和一致性正则化来适应模型,在无需访问源数据的情况下对齐分布。A3 通过主动学习和对抗学习的协同整合,有效地进行领域对齐和降噪,从而推动了源自由 UDA 的发展。
机器人探索和学习的潜力无限,但所有这些知识都需要具备可搜索性和可操作性。在语言研究领域,检索增强生成 (RAG) 已成为大规模非参数知识的基石,然而现有技术并不能直接迁移到具身领域,因为具身领域是多模态的,数据高度相关,并且感知需要抽象。为了应对这些挑战,我们引入了具身-RAG框架,该框架使用能够自主构建用于导航和语言生成的层次化知识的非参数记忆系统来增强具身智能体的基础模型。具身-RAG处理各种空间和语义分辨率,涵盖不同的环境和查询类型,无论是针对特定物体还是对环境的整体描述。其核心是,具身-RAG的记忆结构为语义森林,存储不同详细程度的语言描述。这种层次化组织使系统能够高效地生成针对不同机器人平台的上下文相关输出。我们证明了具身-RAG有效地将RAG桥接到机器人领域,成功处理了19个环境中超过200个解释和导航查询,突显了其作为具身智能体通用非参数系统的潜力。
忠实性可以说是评估可解释人工智能可靠性的最关键指标。在自然语言处理领域,当前的忠实性评估方法存在诸多差异和偏差,往往无法捕捉模型的真实推理过程。我们引入对抗性敏感性作为一种新颖的忠实性评估方法,重点关注模型在对抗性攻击下的解释器的响应。我们的方法通过捕捉对对抗性输入变化的敏感性来衡量解释器的忠实性。这项工作解决了现有评估技术中的重大局限性,并且进一步从一个至关重要但尚未充分探索的范式量化了忠实性。
预训练用于多模态对比学习的大型模型(如CLIP)已被业界广泛认为极易受到数据投毒后门攻击,这给下游模型训练带来了重大风险。与使用增强数据重新训练大型模型相比,微调提供了一种更简单、更高效的防御选择。在监督学习领域,微调防御策略可以实现优异的防御性能。然而,在无监督和半监督领域,我们发现当CLIP面临一些复杂的攻击技术时,现有的微调防御策略CleanCLIP在防御性能方面存在一些局限性。其文本增强的同义词替换不足以增强文本特征空间。为了弥补这一弱点,我们提出了一种细粒度的文本对齐清理器(TA-Cleaner)来切断后门触发器的特征连接,从而对其进行改进。我们在CleanCLIP的每个epoch随机选择少量样本进行正负子文本生成,并将子文本与图像对齐以加强文本自监督。我们评估了我们的TA-Cleaner针对六种攻击算法的有效性,并在ImageNet1K上进行了全面的零样本分类测试。我们的实验结果表明,在基于微调的防御技术中,TA-Cleaner实现了最先进的防御能力。即使面对新颖的攻击技术BadCLIP,我们的TA-Cleaner也优于CleanCLIP,将Top-1和Top-10的ASR分别降低了52.02%和63.88%。
本报告介绍了ECCV 2024 BRAVO挑战赛的一等奖方案,该方案在Cityscapes数据集上训练模型,并在多个非独立同分布数据集上评估其鲁棒性。我们的方案利用视觉基础模型学习到的强大表示,通过将简单的分割解码器附加到DINOv2并微调整个模型。这种方法优于现有的更复杂的方法,并在挑战赛中获得第一名。我们的代码已公开发布在https://github.com/tue-mps/benchmark-vfm-ss。
认知偏差是思维中导致非理性判断和问题决策的系统性偏差,已在各个领域得到广泛研究。最近,大型语言模型 (LLM) 表现出先进的理解能力,但可能会从训练数据中继承人类偏差。虽然 LLMs 中的社会偏差已得到充分研究,但认知偏差却受到较少关注,现有研究集中在特定场景。认知偏差对 LLMs 在各种决策环境中的更广泛影响仍未得到充分探索。我们调查了 LLMs 是否受相关性判断中的阈值启动效应的影响,这是信息检索 (IR) 社区中的核心任务和广泛讨论的研究课题。启动效应是指接触某些刺激会无意识地影响随后的行为和决策。我们的实验使用了来自 TREC 2019 深度学习段落追踪集合的 10 个主题,并在不同的文档相关性分数、批处理长度和 LLM 模型(包括 GPT-3.5、GPT-4、LLaMa2-13B 和 LLaMa2-70B)下测试了 AI 判断。结果表明,无论使用何种组合和模型,如果较早的文档具有较高的相关性,LLMs 往往会给后面的文档打更低的分数,反之亦然。我们的发现表明,与人类判断类似,LLM 的判断也受到阈值启动偏差的影响,并建议研究人员和系统工程师在设计、评估和审核 IR 任务及其他任务中的 LLMs 时,应考虑潜在的人类认知偏差。
我们对四个版本的ChatGPT进行了受控实验偏差审计,要求它们推荐新员工薪资谈判的开场报价。我们向每个版本提交了98800条提示,系统地改变员工的性别、大学和专业,并测试了谈判双方(员工与雇主)的提示。我们发现,作为多模型平台的ChatGPT不够强大和一致,无法胜任此类任务。我们观察到,在所有四个模型中,当改变性别时,薪资报价存在统计学上的显著差异,尽管差距小于其他测试属性。最大的差距在于不同的模型版本以及员工与雇主提出的提示之间。我们还观察到,当改变大学和专业时,存在很大的差距,但许多偏差在不同模型版本之间并不一致。我们测试了虚构和欺诈性大学,发现不同案例和模型版本的结果差异极大。我们对人工智能/机器学习公平性文献做出了更广泛的贡献。我们的场景和实验设计在关键方面与主流人工智能/机器学习审计工作有所不同。偏差审计通常测试对受保护类别(如性别)的歧视,而我们则将其与测试大学和专业等非受保护类别进行对比。寻求谈判建议包括在已知的经验薪资分布和规模方面,一个人在谈判中应该有多强势,这是一个深度情境化和个性化的任务,没有客观的真相来验证。这些结果让我们对我们测试的特定模型版本以及作为持续开发中的多模型平台的ChatGPT产生了担忧。我们的认识论不允许我们最终认定这些模型在我们测试的属性上是普遍有偏差的还是无偏差的,但我们的研究提出了利益相关者需要进一步调查的问题。
我们提出统一的BRAVO挑战赛,以基准测试语义分割模型在现实扰动和未知非独立同分布(OOD)场景下的可靠性。我们定义了两种可靠性类别:(1)语义可靠性,反映模型在暴露于各种扰动时的准确性和校准性;(2)OOD可靠性,衡量模型检测训练期间未知的对象类别能力。这项挑战赛吸引了来自国际团队的近100份投稿,这些团队代表着著名的研究机构。结果揭示了大规模预训练和最小化架构设计在开发鲁棒且可靠的语义分割模型方面的重要性。
大型语言模型在许多自然语言处理任务中已经取代了传统方法。然而,在抑郁症诊断这一特定领域,现有方法仍面临挑战。本文介绍了代理精神诊所(AMC)系统,这是一个能够自我改进的对话代理系统,旨在通过模拟患者和精神科医生代理之间的对话来增强抑郁症的诊断。为了提高对话质量和诊断准确性,我们设计了一个精神科医生代理,它包含三级记忆结构、一个充当“监督者”的对话控制和反思插件以及一个记忆采样模块,充分利用精神科医生代理所体现的技能,从而在对话中实现对抑郁症风险和自杀风险诊断的高度准确性。在真实场景中收集的数据集上的实验结果表明,该系统模拟了培训精神科医生的过程,可以成为一种很有前景的优化方法,用于将大型语言模型与特定领域的真实分布对齐,而无需修改大型语言模型的权重,即使只有少量有代表性的标记案例可用。