自动化红队攻击是识别大型语言模型(LLM)中行为偏差的有效方法。然而,现有的方法通常侧重于提高攻击成功率,而忽略了对全面测试用例覆盖的需求。此外,大多数这些方法仅限于单轮红队攻击,无法捕捉现实世界中人机交互的多轮动态。为了克服这些限制,我们提出了 HARM(整体自动化红队攻击),它使用基于可扩展、细粒度风险分类的自上而下方法来扩大测试用例的多样性。我们的方法还利用了一种新颖的微调策略和强化学习技术,以类似人类的方式促进多轮对抗性探测。实验结果表明,我们的框架能够更系统地理解模型漏洞,并为对齐过程提供更有针对性的指导。
本文旨在通过开发一种有效整合指数衰减和先进反过拟合策略的动态学习率算法来增强神经网络的优化过程。我们的主要贡献是建立了一个理论框架,在这个框架中我们证明了在我们的算法影响下,优化景观表现出独特的稳定性特征,这些特征由李雅普诺夫稳定性原理定义。具体来说,我们证明了受自适应学习率影响的损失函数的超水平集始终是连通的,确保了一致的训练动态。此外,我们建立了这些超水平集的“等连通性”属性,该属性在不同的训练条件和时期保持一致的稳定性。本文为神经网络中动态学习率机制的理论理解做出了贡献,也为开发更有效、更可靠的神经优化技术铺平了道路。本研究旨在将损失函数作为超水平集在神经网络训练中的等连通性形式化和验证,为自适应机器学习算法的未来研究开辟新的途径。我们利用之前的理论发现来提出训练机制,可以有效地处理复杂和高维数据景观,特别是在需要高精度和可靠性的应用中。
本文提出了一种用于对讲座视频与对应幻灯片进行对齐的基准数据集,并介绍了一种利用语音、文本和图像特征的多模态算法。该算法与 SIFT 相比,平均精度达到了 0.82,同时速度快了约 11 倍。该算法利用动态规划来确定最佳幻灯片序列。结果表明,对幻灯片转换进行惩罚可以提高准确率。通过光学字符识别 (OCR) 获得的特征对匹配精度贡献最大,其次是图像特征。研究结果表明,仅音频转录本身就能提供有价值的对齐信息,并且在缺少 OCR 数据时是有益的。不同讲座之间匹配精度的差异突出了与视频质量和讲座风格相关的挑战。这种新颖的多模态算法证明了对某些挑战的鲁棒性,突出了该方法的潜力。
强化学习(RL)在未来的智能无线网络中展现出巨大的潜力。在线 RL 已被用于无线资源管理(RRM),取代了传统的方案。然而,由于其依赖于与环境的在线交互,在线 RL 在实际的现实世界问题中作用有限,因为在线交互在这些问题中不可行。此外,传统 RL 在面对现实世界随机环境中的不确定性和风险时也显得力不从心。为此,我们提出了一种用于 RRM 问题的离线分布式 RL 方案,该方案能够使用静态数据集进行离线训练,无需与环境进行任何交互,并通过使用回报的分布来考虑不确定性的来源。仿真结果表明,该方案优于传统的资源管理模型。此外,它是唯一一种优于在线 RL 的方案,比在线 RL 提高了 16%。
随机向量函数连接 (RVFL) 网络是一种突出的分类模型,具有很强的泛化能力。然而,RVFL 对所有样本一视同仁,忽略了它们是纯净样本还是噪声样本,并且由于需要对整个训练矩阵进行求逆,其可扩展性受到限制。为了解决这些问题,我们提出了粒度球 RVFL (GB-RVFL) 模型,该模型使用粒度球 (GB) 作为输入,而不是训练样本。这种方法通过仅需要对 GB 中心矩阵进行求逆来增强可扩展性,并通过 GB 的粗粒度来提高对噪声和异常值的鲁棒性。此外,RVFL 忽略了数据集的几何结构。为了解决这个问题,我们提出了图嵌入 GB-RVFL (GE-GB-RVFL) 模型,该模型融合了粒度计算和图嵌入 (GE) 来保留 GB 的拓扑结构。我们提出的 GB-RVFL 和 GE-GB-RVFL 模型在 KEEL、UCI、NDC 和生物医学数据集上进行了评估,结果表明,与基线模型相比,它们具有优越的性能。
近年来,在微调视觉语言模型 (VLMs) 方面取得了进展,见证了提示微调和适配器微调的成功,而经典模型对固有参数的微调似乎被忽视了。人们认为,用少量样本微调 VLMs 的参数会破坏预训练的知识,因为即使微调 CLIP 模型也会降低性能。在本文中,我们重新审视了这一观点,并提出了一个新的视角:微调特定参数而不是所有参数将揭示经典模型微调在 VLMs 上的强大功能。通过我们的细致研究,我们提出了 ClipFit,这是一种简单而有效的方法,可以微调 CLIP,而无需引入任何额外参数的开销。我们证明,仅通过微调特定偏差项和归一化层,ClipFit 可以将零样本 CLIP 的性能提高 7.27% 的平均谐波平均精度。最后,为了了解 CLIPFit 中的微调如何影响预训练模型,我们针对内部参数和表示的变化进行了广泛的实验分析。我们发现,低级文本偏差层和第一层归一化层的变化比其他层要大得多。代码可在以下地址获取:\url{https://github.com/minglllli/CLIPFit}。
本文提出了 Pix2Next,一种新颖的图像到图像转换框架,旨在解决从 RGB 输入生成高质量近红外 (NIR) 图像的挑战。我们的方法在编码器-解码器架构中利用了最先进的视觉基础模型 (VFM),并结合了交叉注意力机制来增强特征集成。这种设计捕获了详细的全局表示并保留了重要的光谱特征,将 RGB 到 NIR 的转换视为不仅仅是一个简单的域转换问题。多尺度 PatchGAN 判别器确保在各种细节级别上生成逼真的图像,而精心设计的损失函数将全局上下文理解与局部特征保留结合在一起。我们在 RANUS 数据集上进行了实验,以展示 Pix2Next 在定量指标和视觉质量方面的优势,与现有方法相比,FID 分数提高了 34.81%。此外,我们通过展示使用生成的 NIR 数据来增强有限的真实 NIR 数据集,在后续目标检测任务中提高性能,从而证明了 Pix2Next 的实际效用。所提出的方法能够在没有额外数据采集或标注工作的情况下扩展 NIR 数据集,从而有可能加速基于 NIR 的计算机视觉应用的进步。
布局生成的任务是合成一个和谐的布局,其中元素具有类别、位置和大小等属性。人类设计师会尝试放置和修改元素以创建美观的布局,然而,我们观察到当前的离散扩散模型(DDMs)在生成布局后难以修正不和谐的布局。在本文中,我们首先对 DDMs 中的布局粘连现象提供了新的见解,然后提出了一种简单而有效的布局评估模块 Layout-Corrector,该模块与现有的 DDMs 协同工作以解决布局粘连问题。我们提出了一种基于学习的模块,能够识别布局中不和谐的元素,并考虑由复杂构图体现的整体布局和谐性。在生成过程中,Layout-Corrector 评估生成布局中每个标记的正确性,将得分低的标记重新初始化为未生成状态。然后,DDM 使用得分高的标记作为线索来重新生成和谐的标记。在常见基准上测试的 Layout-Corrector 与各种最先进的 DDMs 结合使用时,始终能提升布局生成性能。此外,我们广泛的分析表明 Layout-Corrector (1) 成功识别了错误的标记,(2) 便于控制保真度-多样性权衡,(3) 显着缓解了与快速采样相关的性能下降。
图解学习旨在消除特定节点、边或属性对已训练图神经网络 (GNN) 的影响,在隐私、偏差或数据过时成为问题的应用中至关重要。然而,现有的图解学习技术通常需要对剩余数据进行额外训练,导致巨大的计算成本,特别是在处理大型图时。为了解决这些挑战,我们提出了一种两阶段无训练方法,即擦除然后修正 (ETR),旨在实现高效且可扩展的图解学习,同时保留模型效用。具体来说,我们首先建立了一个理论基础,表明屏蔽对未学习样本至关重要的参数能够实现有效的解学习。基于这一洞察,擦除阶段战略性地编辑模型参数,以消除未学习样本的影响及其对相互关联节点的传播影响。为了进一步确保 GNN 的效用,修正阶段设计了一种梯度近似方法来估计模型在剩余数据集上的梯度,然后用它来增强模型性能。总的来说,ETR 实现了图解学习,无需额外训练或完整训练数据访问,显着减少了计算开销并保护了数据隐私。在七个公共数据集上的大量实验表明,ETR 在模型效用、解学习效率和解学习有效性方面始终优于其他方法,使其成为解决现实世界图解学习挑战的有希望的解决方案。
在目标检测任务中,通常使用全局阈值(例如,0.5)来确定哪些边界框应该包含在最终结果中。较高的阈值可以减少误报,但可能会导致遗漏大量真正例。较低的阈值可以提高检测召回率,但也可能导致更多误报。因此,对所有边界框候选者应用预设全局阈值(例如,0.5)可能会导致次优解决方案。在本文中,我们提出了一种测试时自引导边界框传播 (TSBP) 方法,利用地球移动距离 (EMD) 来增强组织学图像中的目标检测。TSBP 利用置信度高的边界框来影响置信度低的边界框,利用它们之间的视觉相似性。这种传播机制使边界框能够以可控、可解释和稳健的方式进行选择,这超越了使用简单阈值和不确定性校准方法的有效性。重要的是,与校准方法不同,TSBP 不需要额外的标记样本进行模型训练或参数估计。我们在组织学图像中的腺体检测和细胞检测任务上进行了实验。结果表明,我们的 TSBP 方法在与最先进的基于深度学习的检测网络结合使用时,显著改善了检测结果。与不确定性校准等其他方法相比,TSBP 在不使用任何额外标记样本的情况下,产生了更稳健和准确的目标检测预测。代码可在 https://github.com/jwhgdeu/TSBP 获得。