arXiv:2410.15954v3 通知类型: replace-cross
摘要:时间序列分类是诸如医疗诊断和多媒体场景中的手势驱动交互系统等关键应用的基础。然而,时间序列类增量学习(TSCIL)面临着两大挑战:灾难性遗忘和类内变异。灾难性遗忘是因为基于梯度的参数更新策略不可避免地会抹去过去的知识。与图像不同,时间序列数据表现出特定于个体的模式,这又被称为类内变异,指的是在同一类内观察到的模式差异。虽然基于示例的方法由于样本有限无法覆盖多样变异,现有的无示例方法缺乏处理类内变异的明确机制。为了应对这两个挑战,我们提出了TS-ACL,它利用一种无梯度的闭形式解决方案,以避免基于梯度优化方法固有的灾难性遗忘问题,同时学习全局分布以解决类内变异。此外,它还提供了隐私保护和效率。在五个涵盖各种传感器模态和任务基准数据集上的广泛实验表明,TS-ACL 在四个数据集上的性能接近于联合训练,优于现有方法,并在TSCIL 中建立了新的最佳水平(SOTA)。
arXiv:2410.08244v2 宣布类型: 替换-交叉
摘要:当人工智能日益普及的同时,人们对其的关注和需要法规也越来越强烈,包括对数据隐私的要求。在此背景下,联邦学习被提出作为一种解决不同数据来源场景下数据隐私问题的方案,因为它是一种分布式学习方法。文献中提出的防御机制仅集中在防御对抗性攻击上,并且关注性能,而忽略了其他重要的质量特性,如可解释性、对低质量客户机的公平性、攻击配置的动态性以及在面对不同类型的攻击时的通用性。在这项工作中,我们提出了一种名为 RAB$^2$-DEF 的防御机制,这是一种针对拜占庭和后门攻击具有弹性的方法,它具有动态性、可解释性和对低质量客户的公平性,并利用局部线性解释。我们测试了 RAB$^2$-DEF 在图像数据集中的性能以及拜占庭和后门攻击的情况,考虑到当前最先进的防御机制,发现 RAB$^2$-DEF 既是适当的防御手段,又能在其他方面增强信任人工智能的质量。
arXiv:2410.02644v3 安全类型: 替换交叉
摘要:尽管大型语言模型 (LLM) 动力的代理能够使用外部工具和记忆机制解决复杂的现实世界任务,它们也可能引入关键的安全漏洞。然而,现有文献并没有全面评估针对 LLM 基础的代理的攻击和防御。为了解决这一问题,我们引入了 Agent Security Bench (ASB),一个全面的框架,旨在形式化、基准测试和评估 LLM 基础的代理的攻击和防御,包括 10 种场景(如电子商务、自动驾驶、金融),10 种针对这些场景的代理,超过 400 种工具,27 种不同类型的攻击/防御方法,以及 7 种评估指标。基于 ASB,我们在 13 个 LLM 主干上基准测试了 10 种提示注入攻击、一个记忆投毒攻击、一种新颖的 Plan-of-Thought 后门攻击、4 种混合作击和 11 种相应的防御措施。我们的基准测试结果揭示了代理操作不同阶段的关键漏洞,包括系统提示、用户提示处理、工具使用和记忆检索,最高平均攻击成功率达到了 84.30%,但目前的防御效果有限,揭示了社区在代理安全方面仍需完成的重要工作。我们还引入了一个新的评估指标来评估代理在实用性和安全性之间的平衡能力。我们的代码可在 https://github.com/agiresearch/ASB 找到。
arXiv:2409.19022v2 宣告类型: 交叉替换
摘要: 诈骗是一种普遍的犯罪行为,其影响远不仅限于财务损失,还会给受害者带来心理和身体上的伤害。随着在线通信技术的进步,在如此广泛的网络中,诈骗者利用这些渠道进行欺骗行为,使在线诈骗得以盛行。伴随着技术的进步,如人工智能(AI),人们越来越担心诈骗活动会更加猖獗,利用诸如深度假信息等复杂手段进行钓鱼攻击等行动,所有这些都由像ChatGPT这样的语言生成模型生成。然而,将AI应用于检测和分析在线诈骗的研究仍相对较少。我们进行了一项系统文献综述,以探讨AI和自然语言处理(NLP)技术在在线诈骗检测中的应用。该综述遵循PRISMA-ScR协议,选取标准包括与在线诈骗的相关性、使用文本数据以及AI方法。我们筛选了2,457篇学术记录,其中有350篇符合我们的标准,并纳入了223篇。我们报告了最新的自然语言处理技术,用于分析各种在线诈骗类别;训练数据来源;构建的NLP算法和模型;以及用于模型评估的性能指标。我们发现现有关于在线诈骗的研究主要集中在各种诈骗活动,识别出研究人员关注的16种不同类型的诈骗。这项综述提升了学术界对于基于AI的在线诈骗检测方法的理解,并为政策制定者、执法机构和企业提供了一些减少这类活动影响的见解。我们得出结论,专注于特定诈骗活动会缺乏普遍性,因为不同的诈骗类型需要多种模型。诈骗形式的不断演变限制了使用过时数据训练的模型的有效性。我们还指出了数据限制、训练偏差报告和在模型性能报告中选择性呈现指标可能引起潜在偏差的问题。
arXiv:2409.04196v2 宣告类型: replace-cross
摘要:从单目图像重建摆姿势的人体3D模型在体育产业中有重要应用,包括表现跟踪、受伤预防和虚拟训练。在这项工作中,我们将3D人体姿态和形状估计与3D高斯点(3DGS)相结合,这是一种由高斯混合组成的场景表示。这使得我们可以在仅使用多视角图像的情况下训练或微调人体模型预测器,而无需3D地面实况。从单张输入图像预测这样的混合物由于自遮挡和关节依赖性而具有挑战性,同时也需要保留足够的灵活性以适应各种服装和姿态。我们的关键观察是,标准化人体网格(如SMPL)的顶点可以提供适当的空间密度并近似初始位置,从而用于高斯点。然后,我们可以训练一个变压器模型,联合预测这些位置的相对较小的调整,以及其他3DGS属性和SMPL参数。我们通过实验表明,这种组合(仅使用多视角监督)可以在不使用昂贵的扩散模型或3D点监督的情况下,从单张图像实时推断3D人体模型,因此使其成为任何水平体育产业的理想选择。更重要的是,渲染是一个有效的辅助目标,通过考虑衣物和其他几何变化来细化3D姿态估计。代码可在 https://github.com/prosperolo/GST 获取。
arXiv:2409.02920v3 通知类型: 替换-交叉
摘要:在机器人技术快速发展的领域中,双臂协调和复杂物体操作是开发高级自主系统的必备能力。然而,多样且高质量的示范数据的稀缺以及与现实世界接轨的评估基准极大地限制了这一发展。为了解决这一问题,我们引入了RoboTwin,一个使用3D生成基础模型和大型语言模型生成多样化专家数据集,并提供双臂机器人任务现实世界接轨评估平台的生成数字孪生框架。具体来说,RoboTwin 从单个2D图像中创建各种各样的数字孪生对象,生成现实且互动的场景。它还引入了一种空间关系感知的代码生成框架,结合对象注释与大型语言模型来分解任务、确定空间约束并生成精确的机器人运动代码。我们的框架提供了一个包含模拟和现实世界数据的综合性基准,使标准化评估成为可能,并在模拟训练和现实世界表现之间实现了更好的对齐。我们使用开源的COBOT Magic Robot平台验证了这种方法。基于RoboTwin生成的数据预训练并用有限的现实世界样本微调的策略提高了单臂任务超过70%的成功率,以及双臂任务超过40%的成功率,相比之下,仅基于现实世界数据训练的模型成功率较低。这一显著改进展示了RoboTwin在增强双臂机器人操作系统开发和评估方面的潜力。项目页面: https://robotwin-benchmark.github.io/early-version/。
arXiv:2408.14744v3 宣告类型: 替换交叉
摘要:遥感领域丰富的、注释良好的多模态数据对于将复杂的视觉遥感(RS)场景与人类语言对齐至关重要,这有助于在多样的RS解释任务中开发专门的视觉语言模型。然而,以大量丰富语言语义对遥感图像进行注释需要遥感领域的专业知识和大量的人工劳动,这使得这一过程成本高昂且常常不切实际。在本研究中,我们提出了一种工作流,利用大型语言模型(LLMs)从Google Earth Engine(GEE)平台获取的原始OpenStreetMap(OSM)数据生成具有丰富语义描述的多模态数据集。这种方法促进了遥感数据配对的生成,并且可以利用公开可用的数据进行扩展。在这一框架内,我们介绍了RSTeller数据集,该数据集包含超过130万幅遥感图像,每幅图像都配有两句描述性的说明。广泛的经验表明,RSTeller通过持续的预训练增强了多种现有视觉语言模型在遥感场景理解方面的性能。我们的方法大幅减少了对遥感图像进行人工注释所需的劳动和专业知识,同时也使高质量注释数据的获取更加公平。这一进展促进了视觉语言建模的发展,并鼓励更多人参与遥感研究和应用。RSTeller数据集可在https://github.com/SlytherinGe/RSTeller获得。
arXiv:2408.04820v3 通知类型: 替换-交叉
摘要:我们提出使用自然语言目录作为为开发人员在整个软件开发过程中提供AI辅助的新颖模态和交互表面。代码函数的自然语言目录包含用简洁的文字编写的多个语句,将代码分隔并以文档化编程的风格总结其主要内容。关键的是,我们发现现代语言模型在实践中可以生成准确且高质量的自然语言目录。此外,自然语言目录使代码和自然语言之间实现了双向同步:开发人员可以更改其中之一,而语言模型会自动更新另一个。我们讨论了许多自然语言目录的使用案例:它们可以加速代码和差异的了解和导航,简化代码维护,增强代码搜索,引导代码生成等。然后我们提出了几种生成目录的语言模型提示技术,并让专业开发人员判断目录的质量。最后,我们介绍了两个案例研究,将自然语言目录应用于代码审查和恶意软件检测。
arXiv:2407.17112v2 通知类型: replace-cross
摘要:上下文对决多臂老虎机用于建模多臂老虎机问题,其中学习者的目的是通过过去上下文选取的臂产生的有噪声的人类偏好反馈来找到给定上下文的最佳臂。然而,现有的算法假设奖励函数是线性的,这在许多现实生活中应用中(如在线推荐或排序网络搜索结果)可能是复杂且非线性的。为克服这一挑战,我们使用神经网络来利用过去选取臂的偏好反馈来估计奖励函数。我们提出了基于上置信边界的算法和坎普琳抽样算法,并且这些算法在每一轮中高效地选择臂,并且具有亚线性遗憾保证。我们还将我们的理论结果扩展到了二元反馈的上下文多臂老虎机问题中,这本身是一项非平凡的贡献。从合成数据集派生的问题实例的实验结果验证了我们的理论结果。
arXiv:2407.12879v4 宣传类型:替代交叉
摘要:大型视觉-语言模型(LVLMs)在各种跨模态基准测试中表现出卓越的视觉-语言推理性能。尽管取得了这些进展,但最近的研究表明,大型语言模型(LLMs),如GPT-3.5-turbo,在假新闻检测(FND)任务中不如精心训练的小型模型(如BERT)表现出色,这引发了对LVLMs在FND任务效果的疑问。虽然通过微调LVLMs可以提高其性能,但其庞大的参数量和所需的预训练权重使其在FND应用中成为一个资源密集型的挑战。本文首先评估了两种值得关注的LVLMs——CogVLM和GPT4V,在零样本情况下,与更小但训练良好的CLIP模型在FND能力上的对比。研究结果表明,LVLMs可以在性能上与更小的模型相竞争。接下来,我们将标准的上下文内学习(ICL)与LVLMs结合,注意到FND性能有所提升,尽管范围有限且一致性较低。为了解决这个问题,我们引入了**I**n-context **M**ultimodal **F**ake **N**ews **D**etection(IMFND)框架,在上下文内示例和测试输入中加入从精心训练的小型模型获得的预测及其相应概率。这种战略性的整合使LVLMs的焦点集中在与较高概率相关的新闻片段上,从而提高了它们的分析准确性。实验结果表明,IMFND框架显著提高了LVLMs的FND效率,在三个公开的FND数据集上实现了优于标准ICL方法的增强准确性。