arXiv:2410.10291v3 Announce Type: replace-cross
摘要:准确解读和可视化人类指令对于文本到图像(T2I)合成至关重要。然而,当前的模型难以捕捉因单词顺序改变所引发的语义变化,而现有的评估依赖于文本-图像相似度等间接指标,无法可靠地评估这些挑战。这往往通过关注常见的短语组合而模糊了复杂或不常见的语言模式的 poor 表现。为了解决这些缺陷,我们提出了一种新的度量标准称为 SemVarEffect 和一个名为 SemVarBench 的基准,旨在评估输入和输出之间在 T2I 合成中的因果关系。通过两种类型的语言排列实现语义变化,同时避免可预测的字面变化。实验结果显示,CogView-3-Plus 和 Ideogram 2 表现最佳,得分为 0.2/1。对象关系的语义变化比属性更难理解,得分为 0.07/1,而属性的得分为 0.17-0.19/1。我们发现,在 UNet 或 Transformer 中的跨模态对齐起着关键作用,而在关注文本编码器时,这一因素之前被忽略了。我们的工作建立了一个有效的评估框架,促进了人类指令理解在 T2I 合成社区中的探索。我们的基准和代码可在 https://github.com/zhuxiangru/SemVarBench 获取。
arXiv:2410.10166v2 公告类型: 交叉替换
摘要:使用人类反馈对文本到图像扩散模型进行微调是一种有效的方法,用于使模型行为与人类意图保持一致。然而,由于人类反馈数据集中存在噪声和数据量大,这一对齐过程往往受到收敛缓慢的困扰。在本文中,我们提出了一种名为FiFA的新型自动化数据过滤算法,旨在通过直接偏好优化(DPO)增强使用人类反馈数据集对扩散模型进行微调的效果。具体来说,我们的方法通过解决一个优化问题来选择数据,以最大化三个组成部分:偏好边距、文本质量和文本多样性。偏好边距的概念被用来识别能够有效应对反馈数据集中的噪音的样本,该距离由代理奖励模型计算得到。此外,我们通过大型语言模型评估文本质量,以防止内容有害,并通过k最近邻熵估计器考虑文本多样性,以提高泛化能力。最后,我们将所有这些组成部分整合到一个优化过程中,通过为每个数据对分配重要性分数并选择最重要的数据对来近似解决方案。因此,我们的方法能够自动过滤数据,无需手动干预,并可以适用于任何大规模数据集。实验结果表明,FiFA显著提高了训练稳定性并实现了更好的性能,相比于使用完整的全人类反馈数据集,它被人类偏好17%更优,同时仅使用了不到0.5%的完整数据和因此仅使用了1%的GPU小时。
arXiv:2410.02675v4 宣布类型: replace-cross
摘要: 尽管通用神经网络,如多层感知机(MLP)和变换器(Transformers),取得了显著的成功,但我们发现它们在建模和推理周期现象时存在明显不足,仅在训练域内获得边缘性能,并且不能有效地泛化到域外(OOD)场景。周期现象在自然界和科学中无处不在。因此,神经网络应该具备建模和处理周期性的基本能力。在这项工作中,我们提出了FAN,这是一种新型的通用神经网络,其适用性类似于MLP,同时能够有效解决周期性建模的挑战。通过引入傅里叶原则,周期性自然而然地整合到了FAN的结构和计算过程中。与现有的基于傅里叶的方法不同,这些方法通常针对特定任务进行设计,我们的方法保持了通用建模能力。因此,FAN可以无缝替代MLP在各种模型架构中,同时参数和FLOPs更少。通过广泛的实验,我们证明了FAN在周期性建模任务中具有优越性,并且FAN在一系列实际任务中具有有效性和泛化性,例如符号公式表示、时间序列预测、语言建模和图像识别。
arXiv:2410.01810v2 宣布类型: 替换-交叉
摘要: 由于机器学习(ML)仍然是一门相对年轻的学科,尤其是在抽象数学和计算机科学之外的领域,关于大型语言模型(LLMs)的政治方面的研究工作较少,特别是在对齐过程及其政治维度的研究上。对齐过程可以很简单,比如提示工程,但也非常复杂,可能会对完全不相关的概念产生影响。例如,政治导向的对齐对LLM的嵌入空间以及此类空间中政治概念的相对位置有着非常强烈的影响。利用特殊的工具来评估一般的政治偏见并分析对齐的影响,我们可以收集新的数据以了解其原因和对社会可能产生的后果。确实,通过采取一个社会政治的方法,我们可以假设大多数大型LLM都与马克思哲学所称的“主导意识形态”保持一致。随着人工智能在政治决策中的角色——无论是对公民还是政府部门——这样的偏见可能会对社会变革产生巨大的影响,无论是通过创造新的、隐秘的社会同质化路径,还是通过使伪装的极端观点在公众中获得支持。
arXiv:2409.17538v5 宣告类型: replace-cross
摘要:自然语言处理的一个重要方法是,在泛化领域数据上对模型进行大规模预训练,然后将其适应到特定任务或领域。随着模型规模的增大,对所有参数进行全面微调变得越来越不实际。为了解决这个问题,一些语言模型的低秩任务适应方法已被提出,例如 LoRA 和 FLoRA。这些方法保持预训练模型权重不变,在变压器架构的某些层中引入可训练的低秩分解矩阵,称为适配器。这种方法显著降低了与全面微调所有参数相比,下游任务所需的可训练参数数量。在本文中,我们从数据隐私的角度研究低秩适应。我们理论证明,LoRA 和 FLoRA 中使用的低秩适应会在适配器参数的批梯度中注入一些随机噪声。我们量化了注入噪声的方差,并展示了低秩适应的适应秩越小,噪声方差越大。通过在注入噪声的分布和具有相同方差的高斯分布之间建立贝里-艾森类型界,我们证明了低秩适应的动力学接近于对适配器进行差分隐私微调的动力学。最后,利用约翰逊-林德施特拉uss 引理,我们证明当与梯度缩放结合使用时,低秩适应非常接近执行带有固定噪声尺度的 DPSGD 算法以微调适配器。我们的理论发现和实验结果表明,除了减轻空间和计算复杂性外,低秩适应还隐式地提供了对微调数据的隐私保护,而不会引入 DPSGD 的高空间复杂性。
arXiv:2409.16902v3 宣布类型: replace-cross
摘要:在过去的十年中,得益于大规模数据集的支持,视觉对象跟踪取得了显著进展。然而,这些数据集主要集中在露天场景,对于水下动物跟踪尤其是伪装的海洋动物带来的复杂挑战则关注较少。为弥合这一差距,我们提出了一种大规模多模态水下伪装物体跟踪数据集,即UW-COT220。基于该数据集,本研究首次全面评估了当前先进的视觉对象跟踪方法,包括基于SAM和SAM2的跟踪器,在例如珊瑚礁等具有挑战性的水下环境中进行评估。我们的发现强调了SAM2相较于SAM的改进,显示了其增强的处理水下伪装物体复杂性的能力。此外,我们基于视频基础模型SAM2提出了一个新的视觉-语言跟踪框架VL-SAM2。实验结果表明,我们的VL-SAM2在UW-COT220数据集上达到了最先进的性能。数据集和代码可在以下链接获取:\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{这里}。
arXiv:2409.08596v2 宣告类型: 交叉替换
摘要:近年来大型语言模型(LLMs)的进步彻底改变了各种领域,带来了显著的进步和新的机遇。尽管在语音相关任务方面取得了一些进展,但LLMs在多说话人场景中的应用尚不充分。在本项工作中,我们介绍了探索LLMs在多说话人环境中转录语音能力的开创性努力,遵循了与多说话人自动语音识别(ASR)、目标说话人ASR以及基于特定说话人属性(如性别、发言顺序、语言和所讲关键词)的ASR相关的多种指令。我们采用WavLM和Whisper编码器提取对说话者特征和语义上下文敏感的多方面语音表示,然后将这些表示输入使用LoRA微调的LLM中,从而赋予了语音理解和转录的能力。综合实验展示了我们提出的MT-LLM系统在鸡尾酒party场景中的出色表现,突显了LLM在复杂环境中根据用户指令处理语音相关任务的潜力。该系统的所有代码、模型和样本均可在 https://github.com/cuhealthybrains/MT-LLM 获取。
arXiv:2409.00592v3 公告类型: 替换交叉
摘要:大规模模型的迅速增长远远超过了计算资源的增长速度。为了弥合这一差距,受到大脑在生长和发展过程中基因型和表型之间简约关系的启发,我们提出了一种所谓的超压缩方法,将模型压缩转换为参数表示问题,通过超函数实现。具体来说,已知某些低维动态系统的轨迹最终可以填充高维空间。因此,使用这些动态系统作为超函数的超压缩,通过其相应的组合数或轨迹长度表示目标网络的参数。这表明了一种新的模型压缩机制,与现有的剪枝、量化、蒸馏和分解方法显著不同。沿着这一方向,从方法论上我们选择了具有无理缠绕的合适动态系统作为超函数,并理论推导了其相关误差界限。接下来,根据我们的理论见解,我们提出了几种工程上的调整,使超压缩更加实用和有效。最后,系统而全面的实验表明,超压缩具有以下优点:1) **P** 更优的压缩比;2) **N** 无后处理重训练;3) **A** 可承受的推理时间;4) **S** 短压缩时间。它在一小时内压缩了LLaMA2-7B,并实现了接近int4-量化的效果,无需重训练且性能下降不到1%。我们已在https://github.com/Juntongkuki/Hyper-Compression.git 开源了我们的代码,供免费下载和评估。
arXiv:2408.08083v2 宣布类型: replace-cross
摘要:大型语言模型(LLMs)已成为各个领域中强有力的技术工具。近期研究表明,在某些任务中,例如预测神经科学研究的结果,LLMs 的表现甚至超过了人类。在整体决策过程中,人类的作用会如何变化?一种可能性是,尽管人类在某些任务上的表现不如LLMs,但与LLMs 结合时仍然可以增加价值。当团队成员对自己的判断进行了准确校准,且团队成员在哪些任务上发现困难不同(即校准和多样性是必要的),人类和机器的团队可以在某些任务上表现优于个别成员。我们简化并扩展了将判断结合的贝叶斯方法,在逻辑回归框架中整合了任意数量团队成员的加权判断。使用这种方法,我们在一项神经科学预测任务中表明,即使人类在某些任务上不如LLMs,但与一个或多个LLMs 结合时,团队的整体表现始终有所提升。我们希望这种整合人类和机器判断的简单而有效的方法能够促进富有成效的合作。
arXiv:2408.04667v5 通告类型: replace-cross
摘要:大规模语言模型(LLM) practitioners 通常注意到,在预期为确定性的设置中,对相同的输入,输出可能会有所不同。然而,这种情况的普遍性以及对其结果的影响尚未系统地进行过研究。我们在这项研究中,在10次运行中,分别在零样本和少量样本设置下,将五种LLM配置为在八种常见任务上执行,并调查了它们的非确定性。我们观察到,在自然运行中,精度变异高达15%,从最佳可能性能到最差可能性能的最大差距达到70%。实际上,没有一种LLM在所有任务上都能始终如一地提供可重复的准确性,更不用说提供完全相同的输出字符串了。与内定人员分享初步结果后发现,非确定性也许是通过在输入缓冲区中混合数据来高效利用计算资源所必不可少的,因此这一问题不会很快消失。为了更好地量化我们的观察结果,我们引入了旨在量化确定性的指标,包括TARr@N(N次运行的原始输出总一致率)和TARa@N(解析答案的总一致率)。我们的代码和数据可在 https://github.com/breckbaldwin/llm-stability 公开获取。