arXiv:2404.10198v3 更新类型: 替换交叉
摘要:检索增强生成(RAG)经常被用来减轻语言模型(LLMs)幻觉,并提供最新的知识。然而,由于文档检索是一项不精确的任务,有时会导致错误甚至有害的内容出现在上下文中,这引发了这样的问题:LLMs如何处理检索到的信息:如果提供的内容是错误的,模型是否会知道忽略它,还是会重复错误?相反,当模型的初始响应是错误的时,它是否会始终知道使用检索到的信息来纠正自己,还是会坚持其先前的错误响应?为了回答这个问题,我们针对六个领域(例如,药物剂量、奥林匹克记录、地理位置)收集了超过1200个问题及其相关答案内容。我们进一步对内容中的答案应用从微妙到明显的精确扰动。我们在该数据集上对六种性能最佳的LLMs(包括GPT-4o)进行了基准测试,并发现LLMs在60%以上的情况下倾向于接受错误的检索内容,优先知识被覆盖。然而,检索内容越不现实(即,与事实的偏离越大),模型越不愿意接受它。此外,模型对其初始响应越不自信(通过测量token概率来衡量),它就越有可能接受检索内容中的信息。我们利用这一发现并展示了简单方法来改进存在矛盾检索内容时的模型准确性。我们的结果强调了一个对LLMs来说困难的任务和基准——即它们正确辨别何时存在正确检索内容但仍然错误的能力以及拒绝错误提供的内容的能力。
arXiv:2404.02314v2 宣告类型: replace-cross
摘要:少样本学习最近在药物发现领域引起了广泛关注,相关的文献迅速增长,多数涉及复杂的元学习策略。我们重新审视了分子数据的简单微调方法,并提出了一种基于马哈拉诺比斯距离的正则化二次探测损失。我们设计了一个专用的块坐标下降优化器,避免了我们损失函数中的退化解。有趣的是,我们简单的微调方法在与最先进的方法进行比较时,取得了高度竞争力的性能,同时适用于黑盒设置,无需特定的 episodic 预训练策略。此外,我们引入了一个新的基准来评估竞争方法对领域转换的鲁棒性。在这种设置下,我们的微调基线始终优于元学习方法。
arXiv:2403.13196v2 宣布类型: replace-cross
摘要:深度模型,包括视觉变换器,在对抗攻击面前已知其性能是脆弱的。许多现有的针对这些攻击的防御方法,如对抗训练,依赖于对整个模型进行精细调整以在模型中诱导鲁棒性。这些防御方法需要为每个任务保存整个模型的一个副本,该模型可能包含数十亿个参数。同时,参数高效的提示调优被用于在不需要保存大型副本的情况下,将大型基于变换器的模型适应下游任务。在本文中,我们从鲁棒性的角度研究了在下游任务中对视觉变换器进行参数高效的提示调优。我们展示了在提示调优范式中应用先前的对抗防御方法时,它们会遭受梯度混淆,并且对自适应攻击是脆弱的。我们提出了一种新的框架 ADAPT,用于在提示调优范式中执行适应性对抗训练。我们的方法通过仅调优约1%的参数数量,实现了与全模型调优的当前最佳鲁棒性方法相当的约40%的鲁棒准确性。
arXiv:2403.07277v2 宣告类型: replace-cross
摘要:计算机视觉中一个重要的未解决问题是确保算法在图像域发生变化时具有鲁棒性。我们在仅能访问目标域图像但没有标注的情况下解决这个问题。我们受到现实世界中的 Out-of-Domain (OOD) 杂质和遮挡问题的启发,提出了一种新的贝叶斯方法来提高对象分类的 OOD 鲁棒性。我们的工作扩展了已证明在遮挡情况下具有鲁棒性的组合神经网络(CompNets),但在测试 OOD 数据时表现较差。我们利用 CompNets 包含一个由 von Mises-Fisher (vMF) 核表示的功能向量生成头的事实,这些核大致对应于对象部分,并且可以在无监督的情况下进行学习。我们观察到不同域之间的 vMF 核中有一些相似但其他则不然。这使得我们可以学习一个介于源域和目标域之间的过渡字典 vMF 核,并在使用源域标注训练生成模型之后进行逐步优化。这种方法被称为无监督生成过渡(UGT),即使在遮挡存在的情况下也能在 OOD 场景中表现良好。UGT 在 Out-of-Domain (OOD) 基准测试中进行了评估,包括 OOD-CV 数据集、多个流行数据集(例如 ImageNet-C [9])、人工图像破坏(包括添加遮挡物)以及合成到真实域的转移,并在所有场景中都表现出色,优于最新替代方案(例如,Occluded OOD-CV 数据集的 top-1 准确率提高多达 10%)。
arXiv:2312.10269v4 Announce Type: replace-cross
摘要:自2023年9月以来,《数字服务法》(DSA)要求大型在线平台在欧盟(EU)内对其采取的每项内容审核行动提交详细数据,这些数据将提交给DSA透明数据库。自数据库创建以来,它就引起了学术界的兴趣,因为它是一个前所未有的、可能独一无二的内容审核数据宝库。在此,我们详细分析了欧盟前八大社交媒体平台在数据库运行前100天内提交的全部353.12百万条记录。具体来说,我们对它们进行了平台之间的比较研究:审核行动的数量、决策依据、采取的限制类型、被审核的内容类型、采取和提交审核行动的及时性,以及自动化使用的程度。此外,我们系统地将数据库中的内容与平台自身的透明报告进行了核对。我们的分析表明:(i) 平台仅部分遵守数据库的哲学和结构;(ii) 数据库的结构部分上无法满足平台的报告需求;(iii) 平台在内容审核行动上表现出显著差异;(iv) 数据库中的相当一部分数据不一致;(v) 平台X(原名Twitter)的数据不一致最多。我们的研究结果对跨学科的政策制定者和学者具有深远的指导意义。它们为未来能够满足在线平台报告需求的法规提供了指导,但也指出了改进和完善数据库自身的机遇。
arXiv:2311.02103v2 宣布类型: replace-cross
摘要:动态形状计算已成为现代机器学习工作负载中的关键要素,尤其是在新兴的大型语言模型中。这些模型的成功推动了它们在多样化后端环境中的广泛应用需求。本文介绍了一种名为Relax的编译器抽象,用于优化端到端的动态机器学习工作负载。Relax 引入了一种跨级别的抽象,该抽象将计算图、循环级别的张量程序以及外部库调用统一在一个表示中。Relax 还引入了一级符号形状注释,以在全球范围内跟踪程序中的动态形状计算,从而实现动态形状感知的跨级别优化。我们使用 Proposed 方法构建了一个端到端的编译框架来优化动态形状模型。实验结果表明,Relax 在各种GPU上的性能与最先进的系统相当,并能够将新兴模型部署到更广泛的新兴环境中,包括移动电话、嵌入式设备和网页浏览器。
arXiv:2306.05716v5 通告类型: replace-cross
摘要: 在现实世界中提高通用机器人操作代理的一般化能力长期以来一直是一个重大挑战。现有的方法往往依赖于收集大规模的机器人数据,这既昂贵又耗时,例如RT-1数据集。然而,由于数据多样性不足,这些方法通常在开放域场景中处理新对象和多样化环境时会受到限制。在本文中,我们提出了一种新的范式,该范式有效地利用了由互联网规模基础模型生成的语言推理分割掩模,以条件化机器人操作任务。通过将掩模模式整合到端到端策略模型中,该模式结合了来自视觉基础模型推断出的语义、几何和时间相关性先验,我们的方法可以有效地和鲁棒地感知物体姿态,并实现样本高效的泛化学习,包括新的物体实例、语义类别和未见过的背景。我们首先介绍了一系列基础模型,以跨多个任务ground自然语言需求。其次,我们基于模仿学习开发了一种双流二维策略模型,该模型处理原始图像和物体掩模,以局部-全局感知方式预测机器人动作。在Franka Emika 机器人臂上进行的广泛现实世界实验表明了我们提出的范式和策略架构的有效性。演示可以在我们提交的视频中找到,更全面的演示可以在link1或link2中找到。
arXiv:2305.18407v2 Announce Type: replace-cross
摘要:分子预训练已经迅速成为提升基于AI的药物发现性能的标准方案。自然地,分子可以表示为2D拓扑图或3D几何点云。尽管大多数现有相关方法仅关注单一模态,最近的研究表明,最大化这两种模态之间的互信息(MI)可以增强分子的表征能力。同时,现有的分子多模态预训练方法是通过从拓扑和几何编码的空间中近似计算MI,从而导致丢失了分子的关键结构信息。为了解决这一问题,我们提出了MoleculeSDE。MoleculeSDE利用群对称(例如,SE(3)-仿射和反射反对称)的随机微分方程模型,直接在输入空间中从2D拓扑生成3D几何,反之亦然。它不仅获得了更紧的MI界,而且在下游任务表现上也优于之前的成果。通过与17种预训练基线进行比较,我们实验证明MoleculeSDE在32个下游任务中的26个任务上取得了最先进的性能。
arXiv:2502.01503v2 通告类型:替换
摘要:海洋行业的不良行为者在禁用其船舶的自动识别系统(AIS)后进行非法行为,这使得分析师难以找到这些船舶。现有的机器学习方法只能在短期内识别这些“暗船”的位置。本文利用将归aptcha推理应用于定位敌对代理的文献中的想法来解决这一问题。具体而言,我们结合了归aptcha推理、逻辑编程和规则学习的概念,创建了一种高效的方法,该方法在要求搜索区域比机器学习方法更小的同时,能够接近完全召回暗船的能力。我们提供了一种基于逻辑的关于海洋船舶推理的范式、一种归aptcha推理查询方法、一种自动提取的基于规则的行为模型方法以及一套详尽的实验。
arXiv:2412.04060v2 宣告类型: 替换
摘要: 扩展现有的学习系统以为更多的领域,例如新用户,提供高质量的定制模型,面临着标注数据有限以及数据和设备异构性的挑战。虽然知识蒸馏方法可以克服标签稀缺和设备异构性的问题,但它们假设老师的模型完全可靠,并忽视了数据异构性,这阻碍了现有模型的直接应用。为了解决这一问题,本文提出了一种框架 HaT 以扩展学习系统。该框架首先以低成本从系统中选择多个高质量的模型,然后通过为它们的预测分配样本级别的权重来融合它们的知识。之后,基于知识的质量,选择性地将融合的知识注入到定制模型中。在不同任务、模式和设置下的广泛实验表明,与最先进的基线相比,HaT 的准确率提高了最多 16.5%,通信流量节省了最多 39%。