arXiv:2504.11431v1 Announce Type: cross
摘要:男性默认是一种广泛认可的性别偏见形式,但由于研究不足而往往未被注意。男性默认包括三个关键部分:(i)文化背景,(ii)男性特征或行为,以及(iii)对这些男性特征或行为的奖励,或者仅仅是对其的接受。在本文中,我们研究基于话语的男性默认,并提出了一种双管齐下的框架:(i)通过我们的性别话语相关性框架(GDCF)大规模发现和分析口头内容中的性别化话语词汇;(ii)通过我们的话语词汇嵌入关联测试(D-WEAT)测量这些性别化话语词汇在LLM中的性别偏见程度。我们重点研究了播客这种流行且不断增长的社交媒体形式,分析了15,117集播客片段。我们通过LDA和BERTopic分析性别和话语词汇之间的相关性,自动形成性别化话语词汇列表。然后,我们研究这些性别化话语词汇在特定领域的频次,并发现在商业、技术和政治以及电子游戏等领域存在基于话语的男性默认。接下来,我们从OpenAI的先进LLM嵌入模型中研究这些性别化话语词汇的表现,发现男性话语词汇比女性话语词汇有更稳定和可靠的表示,这可能导致先进的语言模型在后续任务上对男性有更好的系统性能。因此,男性通过先进的语言模型表现出更好的话语模式获得更好的系统性能——这种嵌入差异是一种表示伤害,并且是男性默认。
arXiv:2504.11426v1 类型: cross
摘要:知识蒸馏(KD)是一种通过将大型语言模型(LLMs)的知识转移到较小的模型中来压缩大型语言模型的有前途的解决方案。在这个过程中,白盒KD方法通常通过最小化老师模型和学生模型输出分布之间的距离来转移更多信息。然而,我们揭示了当前的白盒KD框架存在两个局限性:a) 从不同输出空间桥接概率分布将限制老师模型和学生模型之间的相似性;b) 该框架不能应用于词汇表不同的LLMs。这些局限性的根本原因是用于KD的老师和学生模型的输出是由不同的预测头生成的,这导致了不同的输出空间和维度。因此,在本文中,我们提出了一种双空间知识蒸馏(DSKD)框架,该框架统一了老师和学生模型的预测头。具体地,我们首先引入了两个带有理想初始化的投影器,将老师的/学生的隐藏状态投影到学生的/老师的表示空间中。然后,来自不同模型的隐藏状态可以共享相同的头,并统一分布的输出空间。此外,我们开发了一种精确令牌对齐(ETA)算法,用于在两个不同标记化的序列中对齐相同的令牌。基于上述内容,我们的DSKD框架是一种通用的KD框架,既支持脱策和在线KD,也支持任何两个LLM之间的KD,无论它们的词汇表如何。在指令跟随、数学推理和代码生成基准测试中的广泛实验表明,DSKD在当前白盒KD框架基础上显著优于现有方法,并且在具有不同词汇表的LLM之间超过了其他跨标记器KD方法。
arXiv:2504.11423v1 Announce Type: cross
摘要:通过反转从前向加噪过程,扩散模型能够近似真实的数据分布,从而实现了卓越的图像生成。在训练过程中,这些模型在单次前向传递中从被加噪声的真实样本中预测扩散分数,而推理则需要从白噪声开始迭代去噪。这种训练与推理之间的差异阻碍了推理数据分布与训练数据分布之间的对齐,可能由于预测偏见和累积误差累积。为了解决这一问题,我们提出了一种直观但有效的微调框架,称为对抗扩散微调(ADT),通过在优化过程中激活推理过程,并通过对抗监督将最终输出与训练数据对齐。具体而言,为了实现稳健的对抗训练,ADT 特征包括一个由固定预训练骨干和轻量级可训练参数组成的双支网络判别器,结合了一种图像到图像的采样策略来平滑判别的困难,并保留原始的扩散损失以防止判别器作弊。此外,我们仔细地约束了沿着推理路径回传梯度的反向路径,而不会导致内存过载或梯度爆炸。最后,对 Stable Diffusion 模型(v1.5、XL 和 v3)进行的广泛实验表明,ADT 显著改善了数据分布对齐和图像质量。
arXiv:2504.11412v1 Announce Type: cross
摘要:风险规避强化学习(RARL)在不确定性的决策制定中至关重要,特别是在高风险应用中尤为重要。然而,现有的大多数研究侧重于风险衡量标准,如条件值风险(CVaR),而变异性衡量标准则未被充分探索。在本文中,我们全面研究了九种常见的变异性衡量标准,即方差、基尼偏差、均值偏差、均值中位数偏差、标准差、四分位间距、CVaR偏差、半方差和半标准差。其中,有四种指标在RARL中尚未被研究。我们为这些未研究的指标推导了策略梯度公式,改进了基尼偏差的梯度估计,分析了它们的梯度特性,并将它们与REINFORCE和PPO框架结合,以限制回报的分散性。
我们的实证研究表明,基于方差的指标会导致策略更新不稳定。相比之下,CVaR偏差和基尼偏差在不同的随机性和评估领域表现出一致性性能,能够实现高回报并有效学习风险规避策略。均值偏差和半标准差在不同场景下也具有竞争力。本工作提供了RARL中变异性衡量标准的全面概述,为风险意识决策提供了实用见解,并指导未来关于风险衡量标准和RARL算法的研究。
arXiv:2504.11406v1 交叉类型:
摘要:在深度学习显著目标检测(deep SOD)和更广泛的深度学习领域中,大量标注数据和复杂的网络架构的必要性提出了一个重大挑战。这一挑战在计算资源有限的发展中国家医疗应用中尤为突出。结合现代和经典技术提供了一条在保持竞争力的同时使实际应用成为可能的道路。图像标记特征学习(FLIM)方法使专家能够通过用户绘制的标记设计卷积编码器,过滤器直接从这些注释中学习。最近的研究表明,将FLIM编码器与自适应解码器结合使用可以创建一种轻量级网络,所需参数远少于轻量级模型,并且可以消除反向传播的需求。在数据稀缺的情况下,基于细胞自动机(CA)的方法已被证明是有效的,但需要适当的初始化——通常通过用户输入、先验知识或随机性实现。我们提出了一种实用的结合这些方法的方式:使用FLIM网络通过专家知识初始化CA状态,而不需要为每张图像进行用户交互。通过从FLIM网络的每一层解码特征,我们可以同时初始化多个CA,创建一个多级框架。我们的方法利用了不同网络层中编码的分层知识,将多个显著性图合并成一个高质量的最终输出,作为一个CA集成器。在两个具有挑战性的医疗数据集上的基准测试表明,与深度SOD文献中已建立的模型相比,我们的多级CA方法具有竞争力。
arXiv:2504.11389v1 Announce Type: cross
摘要:高分辨率全景视频内容对于虚拟现实中的沉浸式体验至关重要,但采集这类内容并不容易,因为这需要专门的设备和复杂的相机设置。在这项工作中,我们介绍了一种新颖的方法,名为VideoPanda,它可以基于文本或单视角视频数据合成功能完整的360°视频。VideoPanda利用多视角注意力层增强了视频扩散模型,使其能够生成一致的多视角视频,从而可以组合成沉浸式全景内容。VideoPanda联合训练使用两种条件:仅文本和单视角视频,并支持长视频的自回归生成。为了克服多视角视频生成的计算负担,在训练过程中我们随机采样使用的持续时间和相机视角,并展示了模型在推断过程中能够优雅地泛化生成更多帧的能力。在真实世界和合成视频数据集上的广泛评估表明,与现有方法相比,VideoPanda在所有输入条件下生成了更加逼真和连贯的360°全景图。请访问项目网站https://research-staging.nvidia.com/labs/toronto-ai/VideoPanda/ 查看结果。
arXiv:2504.11386v1 Announce Type: cross
摘要:时间图网络(TGNs)在链接预测和节点分类等动态图任务中展现了显著的成功。这两个任务包括归纳设置,模型在已知节点之间预测链接,以及_transductive_设置,模型将学习到的模式泛化到以前未见过的节点。现有的TGN设计在这两种场景下遇到了困境。匿名TGNs仅依赖于时间和结构信息,提供了强大的归纳泛化能力,但难以区分已知节点。相反,非匿名TGNs利用节点特征在_transductive_任务中表现出色,但在适应新节点方面失败。为了解决这一挑战,我们提出了一种轨迹编码TGN(TETGN)。我们的方法引入了自动生成可扩展的节点标识符(IDs)作为可学习的时间位置特征,并通过这些标识符进行消息传递,以捕捉每个节点的历史上下文。通过将此轨迹感知模块与标准TGN结合使用并采用多头注意力机制,TETGN有效地平衡了_transductive_准确性与归纳泛化能力。在三个真实世界数据集上的实验结果表明,TETGN在链接预测和节点分类任务中显著优于强基线模型,证明了其将匿名和非匿名模型的优势统一起来进行动态图学习的能力。
arXiv:2504.11374v1 宣布类型:交叉
摘要:我们提出了一种新的中枢模式发生器设计框架,该框架利用了神经元的固有复激发活性与胜者全取计算相结合。我们的方法在一个简单而强大的网络架构中统一了决策和节律模式生成,该架构采用了全连接的抑制性连接,同时还具备可设计的兴奋性相互作用。该设计在实现的简便性、适应性和鲁棒性方面具有显著优势。我们通过环形振荡器模型展示了其有效性,该模型表现出自适应的相位和频率调制,使该框架特别适用于神经形态系统和机器人技术的应用。
arXiv:2504.11369v1 宣告类型: cross
摘要:开放型大型语言模型(OLLMs)在生成人工智能应用中的使用日益增加,这为检测其生成的内容带来了新的挑战。我们提出了OpenTuringBench,这是一个基于OLLMs的新基准,旨在通过图灵测试和作者归属问题来训练和评估机器生成文本的检测器。OpenTuringBench关注一组代表性的OLLMs,并包含了一系列具有挑战性的评估任务,包括人工/机器操纵的文本、领域外文本以及来自之前未见过模型的文本。我们还提供了一种对比学习框架OTBDetector,用于检测和属性基于OLLM的机器生成文本。结果突显了OpenTuringBench任务的相关性和不同难度的程度,我们的检测器在各种任务中都表现出显著的能力,并且优于大多数现有检测器。有关资源可以在https://huggingface.co/datasets/MLNTeam-Unical/OpenTuringBench上的OpenTuringBench Hugging Face存储库中获取。
arXiv:2504.11364v1 类型: cross
摘要: 在大规模语言模型中利用推理时的搜索方法已被证明能够进一步增强训练模型解决复杂数学和推理问题的能力。然而,这种方法会显著增加计算成本和推理时间,因为模型必须生成和评估多个候选解决方案以确定一个可行的推理路径。为了解决这个问题,我们提出了一种有效的方法,通过使用来自多种搜索方法的成功(学习)和失败(遗忘)推理路径直接将搜索能力集成到模型中,并使用这些数据对模型进行微调。尽管使用这些数据对模型进行微调看起来似乎很容易,但我们发现了一个关键问题:如果粗心地进行微调,模型的搜索能力会迅速下降。我们展示了通过采用较小的学习率可以显著缓解这种下降。在具有挑战性的Game-of-24和Countdown数学推理基准测试中进行的广泛实验表明,我们的方法不仅在性能上超过了标准的微调和推理时搜索基准,还显著将推理时间减少了180倍。