图像质量评估(IQA)是几乎所有计算机视觉领域中所有模型性能的黄金标准。然而,它仍然存在着泛化能力差和训练成本高昂的问题。为了解决这些问题,我们提出了Dog-IQA,一种标准引导的零样本混合粒度IQA方法,该方法无需训练,并利用了多模态大型语言模型(MLLM)的出色先验知识。为了获得准确的IQA分数,即与人类一致的分数,我们设计了一个基于MLLM的推理流程,该流程模仿人类专家。具体来说,Dog-IQA应用了两种技术。首先,Dog-IQA利用MLLM的行为模式,并最小化主观因素的影响,通过特定标准进行客观评分。其次,Dog-IQA综合考虑局部语义对象和整幅图像作为输入,并聚合它们的分数,利用局部和全局信息。我们提出的Dog-IQA在跨数据集场景中,与无需训练的方法相比,取得了最先进(SOTA)的性能,与基于训练的方法相比,取得了具有竞争力的性能。我们的代码将在https://github.com/Kai-Liu001/Dog-IQA上提供。
近年来,人们开发了适应方法,将深度基础模型应用于内窥镜深度估计。然而,这些方法通常在训练中表现不佳,因为它们将参数搜索限制在低秩子空间,并改变了训练动态。因此,我们提出了一种用于内窥镜深度估计的全参数和参数高效学习框架。在第一阶段,注意力、卷积和多层感知的子空间在不同的子空间内同时进行自适应。在第二阶段,提出了一种内存高效的优化方法,用于子空间组合,并在联合子空间中进一步提高性能。在 SCARED 数据集上的初步实验表明,与最先进的模型相比,第一阶段的结果将 Sq Rel、Abs Rel、RMSE 和 RMSE log 的性能从 10.2% 提高到 4.1%。
许多论文表明,注意力头协同工作以执行复杂的任务。人们通常假设注意力头之间的通信是通过向令牌残差添加特定特征来实现的。在这项工作中,我们试图分离并识别用于在 GPT-2 small 中实现注意力头之间通信和协调的特征。我们解决这个问题的关键是,这些特征通常以注意力头矩阵的奇异向量中稀疏编码的形式出现。我们描述了当 GPT-2 small 用于间接宾语识别 (IOI) 任务时,这些信号在整个注意力头中的维数和出现情况。注意力头奇异向量提供的信号稀疏编码,允许从残差背景中有效地分离信号,并直接识别注意力头之间的通信路径。我们通过追踪 IOI 任务中使用的电路的部分来探索这种方法的有效性。我们的追踪揭示了先前研究中没有的相当多的细节,揭示了 GPT-2 中存在的冗余路径的性质。我们的追踪超出了先前的工作,通过识别用于在执行 IOI 时在注意力头之间进行通信的特征。
ROC曲线下面积(AUC)是评估实例级长尾学习问题的常用指标。在过去的二十年中,许多AUC优化方法被提出,旨在提高长尾分布下模型的性能。本文探索了像素级长尾语义分割场景下的AUC优化方法,这是一个更为复杂的情况。该任务对AUC优化技术提出了两大挑战。一方面,像素级任务中的AUC优化涉及损失项之间的复杂耦合,存在结构化的图像内部和图像间成对依赖关系,使理论分析变得复杂。另一方面,我们发现这种情况下AUC损失的小批量估计需要更大的批量大小,导致空间复杂度过高。为了解决这些问题,我们开发了一个像素级AUC损失函数,并对算法的泛化能力进行了基于依赖图的理论分析。此外,我们设计了一个尾部类别记忆库(T-Memory Bank)来管理显著的内存需求。最后,跨多个基准的综合实验验证了我们提出的AUCSeg方法的有效性。代码可在https://github.com/boyuh/AUCSeg获取。
自动简答评分 (ASAS) 有助于减轻教育工作者的评分负担,但通常缺乏详细的可解释反馈。现有的 ASAS 带反馈 (ASAS-F) 方法依赖于对语言模型进行微调,而这些模型的数据集有限,资源密集且难以跨上下文泛化。最近使用大型语言模型 (LLMs) 的方法侧重于评分,而无需进行大量微调。然而,它们通常严重依赖于提示工程,要么无法生成详细的反馈,要么无法对其进行充分评估。在本文中,我们提出了一种基于模块化检索增强生成 (retrieval augmented generation) 的 ASAS-F 系统,该系统在严格的零样本和少样本学习场景中对答案进行评分并生成反馈。我们设计了我们的系统,使其无需大量提示工程即可适应各种教育任务,使用自动提示生成框架。结果表明,与微调相比,在看不见的问题上评分准确率提高了 9%,提供了一种可扩展且经济高效的解决方案。
工具增强的 LLMs 是一种很有前景的方法,可以创建能够进行现实对话、遵循程序并调用适当功能的 AI 代理。然而,由于可能的对话的多样性,评估它们具有挑战性,现有数据集只关注单次交互和函数调用。我们提出了一个测试生成管道来评估 LLMs 作为对话式 AI 代理。我们的框架使用 LLMs 来生成基于用户定义程序的多样化测试。为此,我们使用中间图来限制 LLM 测试生成器产生不基于输入程序的内容的倾向,并强制执行对可能对话的高覆盖率。此外,我们提出了 ALMITA,一个手动策划的数据集,用于评估客户支持中的 AI 代理,并用它来评估现有的 LLMs。我们的结果表明,虽然工具增强的 LLMs 在单次交互中表现良好,但它们往往难以处理完整的对话。虽然我们关注的是客户支持,但我们的方法是通用的,能够用于不同领域的 AI 代理。
开发一种能够从玻尔兹曼分布生成独立同分布 (IID) 样本的有效采样器是科学研究中的一项重大挑战,例如分子动力学。在本研究中,我们旨在学习给定能量函数的神经采样器,而不是从玻尔兹曼分布中采样的数据。通过学习噪声数据的能量,我们提出了一种基于扩散的采样器,即噪声能量匹配 (NEM),它在理论上与相关工作相比具有更低的方差和更高的复杂度。此外,一种新的自举技术被应用于 NEM 以平衡偏差和方差。我们在二维 40 高斯混合模型 (GMM) 和 4 粒子双势阱 (DW-4) 上评估了 NEM 和 BNEM。实验结果表明,BNEM 能够实现最先进的性能,同时更具鲁棒性。
情感识别在从医疗保健到人机交互的各个领域都具有重要意义。生理信号不受意志控制,因此可以提供可靠的信息,这与可以随意控制的语音和面部表情不同。它们反映了真实的情感反应,不受意识操纵,从而提高了情感识别系统的可信度。然而,使用深度学习模型的多模态情感识别仍然是一个相对未探索的领域。在本文中,我们介绍了一个具有层次学习结构的完全超复数网络,以完全捕获相关性。具体而言,在编码器级别,模型学习每个输入信号的不同通道之间的模内关系。然后,一个超复数融合模块学习不同模态嵌入之间的模间关系。主要的新颖之处在于,通过赋予编码器参数化的超复数卷积 (PHC) 来利用模内关系,这些卷积得益于超复数代数,可以捕获单一模态内的通道间交互。相反,融合模块包含参数化的超复数乘法 (PHM),可以模拟模间相关性。所提出的架构在 MAHNOB-HCI 数据集上超越了最先进的情感识别模型,特别是在从脑电图 (EEG) 和外周生理信号中分类情绪效价和唤醒方面。本研究的代码可在 https://github.com/ispamm/MHyEEG 获取。
本文提出了一种基于代理的自动事实核查方法来检测虚假信息。我们证明,将一个强大的 LLM 代理(无法访问互联网进行搜索)与一个在线网络搜索代理相结合,比单独使用每个工具的效果更好。我们的方法在多种模型中表现出鲁棒性,优于其他方法,并且与不带搜索功能的 LLM 相比,将虚假信息检测的宏观 F1 值提高了多达 20%。我们还对系统利用的来源及其偏差、系统构建过程中的决策(如搜索工具和知识库)、所需证据类型及其对结果的影响以及整体过程的其他部分进行了广泛的分析。通过将强大的性能与深入的理解相结合,我们希望为未来的搜索驱动的虚假信息缓解系统提供构建模块。
视频动作定位旨在从长视频中找到特定动作的时间。尽管现有的基于学习的方法已经取得成功,但它们需要对视频进行标注,这会带来相当大的劳动成本。本文提出了一种基于新兴的现成视觉语言模型 (VLM) 的无学习、开放词汇方法。挑战源于 VLM 既不是为处理长视频而设计的,也不是专门用于寻找动作的。我们通过扩展迭代视觉提示技术克服了这些问题。具体来说,我们对视频帧进行采样,并创建一个带有帧索引标签的串联图像,让 VLM 猜测被认为最接近动作开始和结束的帧。通过缩小采样时间窗口来迭代此过程可以找到与动作开始和结束相对应的特定帧。我们证明了这种技术可以产生合理的性能,取得的结果与最先进的零样本动作定位相当。这些结果说明了 VLM 在理解视频方面的实用扩展。示例代码可在 https://microsoft.github.io/VLM-Video-Action-Localization/ 上找到。