arXiv:2412.08127v2 通知类型: 替换交叉
摘要:人们广泛观察到,语言模型(LMs)对看似无法理解的算法生成的提示做出了可预测的反应。这既表明我们对LMs的工作原理缺乏完整的理解,也是一项实际挑战,因为透明度的缺乏可以被利用于LMs的危害性用途,例如脱缰(jailbreaking)。我们首次对不同大小和家族的6种机器生成的提示进行了全面分析,称为autoprompt。我们发现,机器生成的提示具有一个通常可理解且强烈影响生成的最后一个标记。前一个标记中有一小部分可以修剪,这可能是因为优化过程固定了标记的数量,导致它们在提示中出现。其余的标记可分为两类:填充标记,可以被语义无关的替代品替换;关键词,通常与生成之间至少有松散的语义关系,尽管它们未与之形成良好的句法关系。此外,人类专家可以可靠地在事后识别autoprompt中最具影响力的标记,这表明这些提示并非完全不可理解。最后,我们应用于autoprompt的一些消融实验在自然语言输入中产生了类似的效果,表明autoprompt自然地源自LMs处理语言输入的一般方式。
arXiv:2412.01129v3 通告类型: replace-cross
摘要:低秩适应(LoRA)已成为参数高效大规模语言模型微调的主流方法,基于LoRA的量化误差补偿(LQEC)作为恢复压缩LLM准确性的一种强大工具逐渐崭露头角。然而,在低于4比特的场景中,LQEC的表现不佳,且在此之前还没有对这一局限性的深入探究。我们提出了RILQ(Rank-Insensitive LoRA-based Quantization Error Compensation)以理解根本的局限性,并提升2比特LLM的准确性。基于秩分析揭示模型层面激活偏差损失的秩不敏感特性,RILQ利用这种损失在网络上层协作调整适配器,从而实现基于低秩适配器的稳健误差补偿。在LLaMA-2和LLaMA-3上的评估表明,RILQ在各种顶级量化器上一致地提升了2比特量化推理的准确性,并且在特定任务的微调中提高了准确性。RILQ保持与现有LoRA方法相当的计算效率,能够实现合并适配器的重量量化LLM推理,并显著提高准确性,使其成为提升2比特LLM性能的有前途的方法。我们的代码可在https://github.com/aiha-lab/RILQ获取。
arXiv:2412.00749v2 Announce Type: replace-cross
摘要:随着对大规模数据分析需求的增长,许多数据库管理系统(DBMS)已经采用了复杂的底层查询执行机制,包括向量化操作、并行执行和动态管道修改。然而,目前仍然缺乏针对这些复杂执行机制及其相互作用的专门查询性能预测(QPP)方法,因为现有的大多数方法主要关注传统树形查询计划和静态串行执行器。为了解决这一挑战,本文提出了一种名为CONCERTO的复杂查询执行机制学习成本估计方法。CONCERTO首先为每个物理操作建立了独立的资源成本模型。然后,它构建了一个由数据流树骨干和并发操作之间的资源竞争关系组成的有向无环图(DAG)。通过使用带有附加注意机制的图注意力网络(GATs)校准并行操作执行的成本影响后,CONCERTO通过时间卷积神经网络(TCNs)提取并聚合成本向量树,最终实现了有效的查询性能预测。实验结果证明,CONCERTO在预测准确性上优于现有方法。
arXiv:2411.15557v3 宣告类型: replace-cross
摘要:无监督领域适应仍然是使模型在未见领域之间进行知识迁移的关键挑战。现有方法在平衡保持域不变表示与保留特定域特征的需求之间存在困难,这通常是由于将具有相似语义的样本在潜在空间中的投影限制在绝对坐标附近的对齐方法造成的,尽管这些样本在域之间存在显著差异。我们提出了 LAGUNA - 基于语言的无监督适应与结构化空间,这是一种新颖的方法,将注意力从在绝对坐标中对齐表示转移到对潜在空间中等效概念的相对定位对齐。LAGUNA 在语言空间中语义/几何关系之上定义了一种域无关的结构,并指导适应,确保在视觉空间中的样本组织反映了参考跨类别关系,同时保留特定域的特征。我们通过在四个不同的图像和视频数据集上的域适应任务中实证证明了LAGUNA的优势。特别的是,LAGUNA 在四个不同的图像和视频数据集的 18 种不同的适应场景中击败了先前的工作,在 DomainNet 上准确率平均提高了 +3.32%,在 GeoPlaces 上提高了 +5.75%,在 GeoImnet 上提高了 +4.77%,在 EgoExo4D 的平均类别准确率提高了 +1.94%。
arXiv:2411.15556v2 Announce Type: replace-cross
摘要:视觉-语言模型(VLMs)对于需要整合文字和视觉信息的应用至关重要。然而,现有的VLMs在处理长视频时遇到了计算效率低下、内存限制和在长时间序列中保持连贯理解的困难。为了解决这些挑战,我们提出了ReWind,这是一种新型的记忆型VLM,旨在实现高效的长视频理解同时保持时间连贯性。ReWind采用两阶段框架。在第一阶段,ReWind维持一个动态的可学习记忆模块,该模块使用新颖的“读-感知-写”周期来存储和更新与指令相关的时间展开的视觉信息。该模块利用可学习的查询和记忆内容与输入流之间的跨注意力,通过线性缩放与令牌数量保持低内存需求。在第二阶段,我们提出了一种根据记忆内容引导的自适应帧选择机制,以识别与指令相关的关键时刻。它通过选择少数高分辨率帧来丰富记忆表示中的详细空间信息,然后将这些帧与记忆内容结合,并输入大型语言模型(LLM)以生成最终答案。我们实验证明了ReWind在视觉问答(VQA)和时间定位任务上的优越性能,在长视频基准上超过了之前的方法。值得注意的是,ReWind在MovieChat-1K VQA数据集上的得分提高了13%,准确性提高了12%,在Charades-STA的时间定位上实现了8%的mIoU提升。
arXiv:2411.15216v3 公告类型: replace-cross
摘要:不均衡的数据分布在现实场景中十分普遍,给不平衡分类和不平衡回归任务带来了重大挑战。这些问题往往导致深度学习模型在高样本密度区域(许多样本区域)过度拟合,而在低样本密度区域(少数样本区域)表现不佳。这种特性限制了深度学习模型在各个领域的应用,特别是医疗保健领域,后者以少数样本区域的数据具有较大的临床意义。虽然最近的研究表明,在不平衡分类任务中融入分布信息的好处,但此类策略在不平衡回归任务中的应用却很少被探索。在本文中,我们通过引入一种新颖的损失函数,称为Dist Loss,解决了这一问题。Dist Loss旨在以可微的方式最小化模型预测与目标标签之间的分布距离,有效地将分布信息整合到模型训练中。Dist Loss使深度学习模型能够在训练期间正则化其输出分布,从而有效地增强其对少数样本区域的关注。我们进行了广泛实验,涵盖了计算机视觉和医疗保健领域的三个数据集:IMDB-WIKI-DIR、AgeDB-DIR 和 ECG-Ka-DIR。结果显示,Dist Loss有效地缓解了不均衡数据分布对模型性能的负面影响,在稀疏数据区域达到了最先进的结果。此外,Dist Loss易于集成,补充了现有方法。
arXiv:2411.09062v2 宣布类型: replace-cross
摘要:制造过程需要可靠的物体检测方法,以便精准地抓取和处理各种类型的制造零部件。传统的物体检测方法要么仅利用相机的二维图像,要么利用激光雷达或其他三维传感器的三维数据。然而,每种传感器都有其弱点和限制。相机没有深度感知能力,而三维传感器通常不携带颜色信息。这些弱点可能会削弱工业制造系统的可靠性和稳健性。为了解决这些挑战,本文提出了一种多传感器系统,结合了RGB摄像头和三维点云传感器。这两个传感器被校准以精确对齐来自两台硬件设备的多模态数据。开发了一种新颖的多模态物体检测方法,用于处理RGB和深度数据。该物体检测器基于Faster R-CNN基线,该基线最初只设计用于处理相机图像。结果显示,多模态模型在公认物体检测指标上显著优于只使用深度或RGB图像的基本模型。具体而言,与仅使用RGB图像的基本模型相比,多模态模型提高mAP 13%,提高Mean Precision 11.8%。与仅使用深度数据的基本模型相比,多模态模型提高mAP 78%,提高Mean Precision 57%。因此,该方法在智能制造应用中促进了更可靠和稳健的物体检测。
arXiv:2410.16593v3 宣告类型: replace-cross
摘要:图神经网络(GNNs)在许多图机器学习任务中表现出色,但在扩展到大型网络时面临挑战。GNN 的迁移性允许在较小的图上进行训练,并将模型应用于更大的图,但现有方法往往依赖于随机子采样,导致断开的子图和降低的模型表达性。我们提出了一种新的图采样算法,该算法利用特征同质性来保留图的结构。通过最小化数据相关矩阵的迹,我们的方法在保留图拉普拉斯矩阵的迹——图连接性的一个代理——方面比随机采样更有效,同时复杂度低于谱方法。实验结果表明,在保留拉普拉斯矩阵的迹和 GNN 迁移性方面,与随机采样相比,我们的方法性能更优。
arXiv:2410.13360v3 公告类型: replace-cross
摘要:大型语言模型(LLMs)的发展显著增强了多模态LLMs(MLLMs)作为通用助手的能力。然而,缺乏用户特定的知识仍然限制了它们在人们日常生活中的应用。在本文中,我们介绍了用于多模态LLMs个性化的一种检索增强个性化(RAP)框架。我们从一个通用的MLLM出发,通过三个步骤将其转变为个性化的助手。(a)记住:我们设计了一个键值数据库,用于存储用户相关信息,例如用户姓名、头像和其他属性。(b)检索:当用户发起对话时,RAP将使用多模态检索器从数据库中检索相关信息。(c)生成:将输入查询和检索到的概念信息输入MLLM,生成个性化、知识增强的响应。与之前的 方法不同,RAP允许通过更新外部数据库来进行实时概念编辑。为了进一步提高生成质量和与用户特定信息的一致性,我们设计了一个数据收集流水线,并创建了一个专门的数据集,用于个性化训练MLLMs。基于此数据集,我们训练了一系列个性化的多模态助手。利用大规模数据集进行预训练后,RAP-MLLMs可以在无需额外微调的情况下泛化到无限视觉概念。我们的模型在各种任务,如个性化图像字幕生成、问答和视觉识别方面展示了出色的灵活性和生成质量。相关代码、数据和模型可从https://hoar012.github.io/RAP-Project/ 获取。
arXiv:2410.09681v3 更新类型: replace-cross
摘要:操作领域之间的分布变化会严重影响自动驾驶车辆(SDVs)中学习模型的性能。虽然这是一个已知问题,但先前的工作主要探索了简单的解决方案,如微调,并集中在运动预测任务上。在本文中,我们探索了可微自治栈中预测、规划和控制的不同适应策略,在闭环环境下进行评估,并探讨了经常被忽视的灾难性遗忘问题。具体来说,我们引入了两种简单有效的技术:低秩残差解码器(LoRD)和多任务微调。通过在nuPlan和exiD两个现实世界的自动驾驶数据集上对三种模型进行实验,我们证明了我们方法的有效性,并指出了先前方法在开环和闭环评估之间的显著性能差距。我们的方法在与标准微调相比的遗忘量上提高了最多23.33%,在闭环OOI驾驶分数上提高了9.93%。