arXiv:2502.13595v2 宣告类型: 替换-交叉
摘要:文本嵌入通常是在有限的任务集上进行评估,这些任务受到语言、领域和任务多样性的限制。为了解决这些限制并提供更全面的评估,我们提出了大规模多语言文本嵌入基准(MMTEB)——它是MTEB的社区驱动扩展,涵盖了超过250种语言中的500多个质量控制评估任务。MMTEB包括一系列具有挑战性和新颖性的任务,例如指令遵循、长文档检索和代码检索,代表了迄今为止最大的多语言评估任务集合。使用这个集合,我们开发了几种高度多语言的基准,用于评估代表性模型。我们发现,虽然具有数十亿参数的大语言模型(LLMs)在某些语言子集和任务类别中可以达到最佳性能,但公开可用的最佳性能模型是只有5.6亿参数的multilingual-e5-large-instruct。为了提高可访问性和减少计算成本,我们提出了一种基于任务间相关性的新颖下采样方法,确保多样选择的同时保留相对模型排名。此外,我们通过从难负值得样来优化检索任务,创建了更小但有效的分割。这些优化使得我们能够引入大幅减少计算需求的基准。例如,我们新引入的零样本英语基准在性能排名上与全规模版本类似,但计算成本仅为后者的几分之一。
arXiv:2502.12531v2 宣布类型: replace-cross
摘要:将大型语言模型(LLMs)集成到机器人控制中,包括无人机,有望彻底改变自主系统。研究表明,LLMs可以用来支持机器人操作。然而,在面对需要复杂推理的任务时,人们对LLMs生成的解决方案的可靠性提出了关切和挑战。在本文中,我们提出了一种增强推理的提示框架,以实现可靠的LLM驱动的无人机控制。我们的框架包含使用纲领、技能API、约束和示例(GSCE)设计的新技术组件。GSCE以其可靠的且符合约束的代码生成为特点。我们使用GSCE进行了广泛的实验,以控制具有不同复杂程度任务的无人机。我们的实验结果表明,与基线方法相比,GSCE可以显著提高任务的成功率和完整性,突显了其在可靠 的LLM驱动自主无人机系统方面的潜力。
arXiv:2502.12485v2 安全声明类型: replace-cross
摘要:在多样的语言环境中确保大型语言模型(LLMs)的安全性仍然颇具挑战性,特别是在低资源语言方面。现有安全对齐方法以英语为中心,限制了它们的有效性。我们系统地比较了监督微调(SFT)、直接偏好优化(DPO)和坎曼-特维斯基优化(KTO)在将SEA-Lion-v2.1-Instruct(一个Llama 3-8B变体)与 Singlish 中的毒性对齐方面的效果。结果显示,SFT+KTO 在减少毒性方面优于DPO,并且具有更高的样本效率。此外,我们引入了KTO-S,通过改进的KL散度正则化增强了稳定性。我们的方法将Singlish的毒性减少了99%,其效果适用于TOXIGEN,并在标准LLM基准测试中保持了强大的性能,提供了一种在多语言环境中安全部署AI的可扩展框架。
arXiv:2502.04760v2 通知类型: 交叉替换
摘要:随着移动数据流量的迅速增长和视频流媒体的不断普及,边缘计算中的主动内容缓存对于减少延迟和减轻网络拥塞变得至关重要。然而,传统缓存策略,如FIFO、LRU和LFU无法有效预测未来的内容流行度,而现有的主动缓存方法通常需要用户将数据上传到中央服务器,这引发了关于隐私和可扩展性的担忧。为了解决这些问题,本文提出了一种基于图联邦学习的主动内容缓存(GFPCC)方案,该方案在保护用户隐私的同时提高缓存效率。所提出的方法结合了联邦学习和图神经网络,使用户能够在本地训练轻量级图卷积网络(LightGCN),以捕捉用户-物品关系并预测内容流行度。而不是共享原始数据,只有训练好的模型参数传输到中央服务器,服务器通过联邦平均算法聚合更新,优化全局模型,并选择最受欢迎的文件进行主动缓存。在真实数据集,如MovieLens上进行的实验评估表明,GFPCC通过更准确的内容流行度预测比基线缓存算法实现了更高的缓存效率。此外,联邦学习框架增强了隐私保护,同时保持了高效的模型训练;然而,在动态用户偏好下的大规模网络中,可扩展性仍然是一项挑战。
arXiv:2502.02885v3 通知类型: 替换-交叉
摘要:视频-文本检索由于视频的个性化且不充分的文字描述而陷入了信息不匹配的困境。两种模态之间巨大的信息缺口阻碍了有效的跨模态表示对齐,导致检索结果含糊不清。虽然已经提出了文本重写方法来拓宽文字表达,但由于文本表示空间无法因缺乏语义丰富性而得到扩展,所以模态差距仍然显著。相反,本文转向增强视觉呈现,并通过标题生成将视频表达更接近文本表示,从而促进视频-文本匹配。尽管多模态大型语言模型(mLLM)展现了将视频内容转换为文本的强大能力,但精心设计的提示对于确保生成的标题的合理性和完整性是必不可少的。因此,本文提出了一种自动标题增强方法,通过自我学习提高表达质量并减轻生成标题中的经验主义。此外,设计并引入了一种专家级标题选择机制,为每个视频定制增强标题,进一步探索标题增强的利用潜力。我们的方法完全是数据驱动的,这不仅避免了沉重的数据收集和计算工作负载,还通过规避词典依赖性和引入个性化匹配来提高自我适应性。我们的方法在各种基准上的性能得到了验证,具体而言,在MSR-VTT上实现了Top-1召回准确率68.5%,在MSVD上为68.1%,在DiDeMo上为62.0%。我们的代码可在https://github.com/CaryXiang/ECA4VTR上公开获取。
arXiv:2501.13400v2 宣布类型: replace-cross
摘要:在基于深度学习的计算机视觉领域,YOLO引起了革命性的变革。对于深度学习模型而言,YOLO可能是发展速度最快的模型之一。不幸的是,并非每一个YOLO模型都拥有学术出版物。此外,还存在一个YOLO模型缺乏可公开访问的官方架构图。自然而然地,这引发了挑战,如复杂化了对模型实际运行方式的理解。此外,目前的综述文章并没有深入探讨每一个模型的细节。本研究的目的是全面且深入地比较最近四个YOLO模型(具体而言是YOLOv8到YOLO11)的架构,从而帮助读者快速了解每个模型的功能及其之间的差异。为了分析每个YOLO版本的架构,我们仔细检查了相关的学术论文、文档,并审查了源代码。分析结果显示,尽管每个版本的YOLO在架构和特征提取方面有所改进,但某些模块保持不变。缺乏学术出版物和官方图示造成了理解模型功能及其未来改进的挑战。未来开发者被鼓励提供这些资源。
arXiv:2501.09333v2 通告类型: replace-cross
摘要:我们提出了一种简单的方法,使预训练的视觉变换器(ViTs)适用于精细分析,旨在识别和定位区分视觉上相似类别(如鸟类物种)的独特特征。预训练的ViTs,如DINO,展示了在提取局部、区分性特征方面的卓越能力。然而,Grad-CAM等显著图往往无法识别这些特征,生成模糊、粗糙的热图,突出显示整个对象。我们提出了一种新的方法,即提示类注意图(Prompt-CAM),以解决这一局限性。Prompt-CAM 为预训练的ViT 学习类别特定的提示,并使用相应的输出进行分类。为了正确地对一张图像进行分类,正确的类提示必须关注其他类图像中不存在的独特图像块(即特征)。因此,正确类别的多头注意图揭示了特征及其位置。从实现角度来看,Prompt-CAM 几乎是一个“免费午餐”,只需对视觉提示调优(VPT)的预测头进行修改。这使得Prompt-CAM 容易训练和应用,与其他可解释方法相比,后者需要设计特定模型和训练流程。在鸟类、鱼类、昆虫、真菌、花卉、食物和汽车等各个领域的一打数据集上的广泛实验验证了Prompt-CAM 的优越解释能力。源代码和演示可在https://github.com/Imageomics/Prompt_CAM 获取。
arXiv:2501.07766v2 宣称类型: 替换-交叉
摘要:大规模语言模型(LLMs)因其在世界范围内众多知识驱动应用程序中的卓越表现而受到了广泛关注。这些模型旨在通过对大量文本数据进行训练数百百万乃至更多的参数,使其能够有效地理解和生成自然语言。随着LLMs卓越性能的逐渐显现,它们正在越来越多地应用于知识图谱嵌入(KGE)相关任务,以改善处理结果。传统KGE表示学习方法将实体和关系映射到低维向量空间中,使得知识图谱中的三元组在向量空间中满足特定的评分函数。然而,最近LLMs强大的语言理解和语义建模能力已经在不同的KGE相关场景中(如多模态KGE和开放KGE)不同程度地被调用和利用,根据任务特性。在本文中,我们探讨了不同类型的KGE场景中的LLMs相关任务的各种方法。为了更好地比较各种方法,我们将每个KGE场景进行了分类总结。最后,我们讨论了这些方法的主要应用,并提出了该新研究领域未来发展方向的几点建议。
arXiv:2501.04671v2 举报类型: replace-cross
摘要: 虽然在大规模语言模型中通过链式思考(CoT)提示提高了推理能力,但视觉-语言模型(VLMs)在其中的效果仍然有限,因为它们过度依赖文本线索和记忆中的知识。为了在复杂的现实世界场景中研究VLMs的视觉推理能力,我们引入了DrivingVQA,这是一个来源于驾驶理论考试的视觉问答数据集,包含3,931个带有专家撰写解释和相关推理过程实体的多项选择题。利用该数据集,我们提出了基于检索的交错视觉链式思考(RIV-CoT)方法,使VLMs能够使用这些相关实体对应的可视化切片进行推理。我们的实验结果表明,与原始的CoT提示相比,RIV-CoT将答案准确性提高了3.1%,推理准确性提高了4.6%。此外,我们展示了我们的方法可以通过利用自动生成的伪标签有效地扩展到更大的A-OKVQA推理数据集,并且在推理准确性方面优于CoT提示。
arXiv:2412.17867v4 声明类型:替换交叉
摘要:近年来,大规模语言模型(LLMs)在文本到SQL系统方面取得了显著进步。然而,大多数基于LLM的方法往往狭隘地专注于SQL生成,忽视了实际对话查询的复杂性。这种忽视可能导致响应可靠性降低,特别是那些无法直接用SQL解决的模棱两可的问题。为了弥补这一差距,我们提出了一种名为MMSQL的全面测试套件,旨在通过模拟具有多种问题类型和多轮问答互动的真实场景来评估LLMs的问题分类和SQL生成能力。使用MMSQL,我们评估了包括开源和封闭源在内的多个流行LLMs的性能,并识别了影响其在这种场景中表现的关键因素。此外,我们引入了一个基于LLM的多代理框架,该框架使用专门的代理来识别问题类型并确定适当的回答策略。我们的实验表明,这种方法极大地增强了模型处理对话动态复杂性的能力,有效地处理了用户查询的多样性和复杂性。我们的数据集和代码可以在https://mcxiaoxiao.github.io/MMSQL 公开获取。