arXiv:2503.22988v2 Announce Type: replace-cross
摘要:差分隐私梯度下降(DP-SGD)是广泛采用的隐私保护深度学习技术。DP-SGD 中的关键挑战是在裁剪阈值 C 选择最优值时平衡裁剪偏差和噪声幅度之间的权衡,这在超参数调优过程中会带来显著的隐私和计算开销。
在这篇论文中,我们提出了一种动态裁剪 DP-SGD(DC-SGD)框架,该框架利用差分隐私直方图估计梯度范数分布并动态调整裁剪阈值 C。我们的框架包括两种新型机制:DC-SGD-P 和 DC-SGD-E。DC-SGD-P 根据梯度范数的百分位数调整裁剪阈值,而 DC-SGD-E 通过最小化梯度的均方误差来优化 C。这些动态调整显著减轻了裁剪阈值 C 的超参数调优负担。在各种深度学习任务上的广泛实验,包括图像分类和自然语言处理,表明我们提出的方法在超参数调优方面比 DP-SGD 快多达 9 倍。而且,在相同的超参数调优隐私预算下,DC-SGD-E 在 CIFAR10 上可以实现比 DP-SGD 高 10.62% 的准确性改进。我们进行了严格的理论隐私和收敛分析,表明我们的方法可以无缝集成 Adam 优化器。我们的结果突显了 DC-SGD 的稳健性能和效率,提供了一种具有减少计算开销和增强隐私保证的实用解决方案,适用于差分隐私深度学习。
arXiv:2503.22968v2 通知类型: 替换-交叉
摘要:近期韩语大规模语言模型(LLMs)的发展激发了众多基准和评估方法的出现,但缺乏标准化的评估框架导致了结果的一致性问题和对比性受限。为了解决这个问题,我们引入了HRET Haerae评估工具包,这是一个专为韩语LLMs定制的开源、自我演化的评估框架。HRET 统一了多种评估方法,包括基于logit的评分、精确匹配、语言一致性惩罚和LLM作为裁判的评估。其模块化、基于注册表的架构整合了主要基准(HAE-RAE Bench、KMMLU、KUDGE、HRM8K)和多种推断后端(vLLM、HuggingFace、OpenAI兼容端点)。通过自动化的持续演化管道,HRET 提供了一个坚实的基础,以实现可再现、公平和透明的韩语NLP研究。
arXiv:2503.22829v2 Announce Type: replace-cross
摘要:非人类灵长类动物(NHPs)因其与人类密切的进化关系,成为了解人类大脑功能和神经疾病的关键模型。在NHPs中准确分割大脑组织对于理解神经疾病至关重要,但受到标注NHP大脑MRI数据稀缺、NHP大脑体积小、可用成像数据的有限分辨率以及人类和NHP大脑的解剖差异的挑战。为了解决这些挑战,我们提出了一种利用STU-Net结合迁移学习的新方法,以利用从人类大脑MRI数据中获得的知识来增强NHP大脑MRI的分割准确性,特别是当训练数据有限时。STU-Net与迁移学习的结合有效地区分了复杂的大脑组织边界,并捕捉到NHP大脑特有的精细解剖细节。值得注意的是,我们的方法在分割苍白球和丘脑等小亚皮质结构方面表现出改善,这些结构在有限的空间分辨率和组织对比度下难以分辨,达到了DSC超过0.88、IoU超过0.8和HD95低于7。本研究介绍了一种鲁棒的多分类NHP大脑组织分割方法,有望加速进化神经科学和与人类健康相关的神经疾病前临床研究的进展。
arXiv:2503.22517v2 通知类型: 替换-交叉
摘要: 在这项工作中,我们致力于将现有的预训练纯文本大型语言模型(LLMs)的生成能力与多模态生成能力相结合,同时满足两项核心约束:C1 保留原始语言生成能力,且几乎不降低性能,C2 遵循较小的参数预算来学习新模态,确保可扩展性和效率。与当前增加专用模块的方法不同,这会显著增加参数数量,我们提出了一种利用深度模型中未充分利用的容量的方法。具体而言,我们利用专家混合(MoEs)中的参数冗余作为学习新模态的额外容量来源,从而实现更好的参数效率(C1)。此外,我们通过仅对新模态的标记进行低秩适应来保留原始的语言生成能力(C2)。此外,我们引入了一种基于广义 Wasserstein 距离的新参数初始化方案,以提高收敛性和训练稳定性。通过对路由机制的广泛分析,我们发现模态特定的路径的出现和专家内部冗余的减少,这可以高效地解锁多模态生成能力。总体而言,我们的方法可以无缝应用于各种 Contemporary LLMs,为从单模态向多模态架构过渡提供了新的途径。
arXiv:2503.21074v2 通知类型: 替换交叉
摘要:本文采用了一种混合CNN-Transformer架构,并结合详细的民族志框架,以探究印度河谷文字的视觉形态与其西藏-彝走廊象形文字系统之间的潜在历史联系。通过三个目标文字的集成方法,在15个独立训练的模型中,我们表明西藏-彝走廊的文字系统在视觉相似性方面比古代铜器时代的楔形文字原始体系(10.2%-10.9%)或埃兰文字原始体系(7.6%-8.7%)高约六倍(61.7%-63.5%)。此外,与我们目前对印度河文明网络的理解相反,印度河文字意外地与西藏-彝走廊的文字系统更为接近,平均余弦相似性为0.629,而上述同时代的西亚符号系统分别为0.104和0.080,尽管它们地理位置接近且显然存在贸易关系。在各种降维方法和聚类方法中,印度河文字始终与西藏-彝走廊的文字系统聚类最近。我们的计算结果与特定记数系统、性别标记和关键图象元素中的定性观察结果一致;这进一步得到了古代蜀- Kendrick 路线持续接触网络的考古证据支持,该路线与印度河谷文明的衰落同时存在,提供了可溶性的传播途径。虽然其他解释尚无法排除,但观察到的相似性的确切性和一致性挑战了孤立文字发展的传统叙事,并表明南亚和东亚之间更复杂的古代文化交流网络,超过目前所认识的程度。
arXiv:2503.20290v2 通知类型: replace-cross
摘要: 本文通过利用自然语言描述探索了一种新的语音质量评估视角,提供了比传统数值评分方法更为丰富、细腻的见解。自然语言反馈提供了有指导意义的建议和详细评估,但现有数据集缺乏进行这种做法所需的全面注释。为弥合这一差距,我们介绍了QualiSpeech,这是一个全面的低级语音质量评估数据集,涵盖了11个关键方面,并包含详细自然语言注释,其中包括推理和上下文见解。此外,我们提出了QualiSpeech基准,以评估听觉大规模语言模型(LLLMs)的低级语音理解能力。实验结果表明,微调后的听觉LLLMs能够可靠地生成关于噪声和失真的详细描述,有效地识别它们的类型和时域特征。结果还进一步突显了在质量评估中融入推理以提高准确性和可靠性的潜力。该数据集将在https://huggingface.co/datasets/tsinghua-ee/QualiSpeech发布。
arXiv:2503.19823v2 宣告类型: replace-cross
摘要:理解人类大脑的结构和功能组织需要对皮层折叠模式进行详细的检查,其中三铰回(3HG)已被识别为关键结构地标。GyralNet 是一种皮层折叠的网络表示,将 3HGs 表示为节点,将皮层褶皱脊表示为边,突出了它们在皮层-皮层连接中的关键枢纽作用。然而,现有的 3HGs 分析方法面临重大挑战,包括在典型神经影像学分辨率下 3HGs 的亚体素尺度、在建立跨被试对应关系时的计算复杂性以及将 3HGs 视为独立节点而未考虑到其社区级关系时的过分简化。为了解决这些限制,我们提出了一种完全可微分的子网络分区框架,该框架采用谱模ularity最大化优化策略来模块化 GyralNet 中 3HGs 的组织。通过将拓扑结构相似性和基于DTI的连接模式作为属性特征纳入其中,我们的方法提供了皮层组织的生物意义表征。在人类连接组项目(HCP)数据集上的 extensive 实验表明,我们的方法能够在个体层次有效分区 GyralNet 的同时,保持 3HGs 在被试间的社区级一致性,为理解脑连接提供了稳健的基础。
arXiv:2503.18942v2 宣告类型: replace-cross
摘要:随着训练数据、模型规模和计算成本的扩大能力,视频生成已经在数字创作中取得了令人印象深刻的成果,使用户能够在各个领域表达创造力。最近,在大型语言模型(LLMs)的研究人员将扩展到测试时,这可以通过更多的推理时计算显著提高LLM的表现。相反,通过昂贵的训练成本来扩大视频基础模型的规模,我们探索了视频生成的测试时缩放(TTS)的力量,旨在回答这样一个问题:如果允许视频生成模型使用非平凡数量的推理时计算,给定一个具有挑战性的文本提示,它能提高生成质量多少。在本文中,我们将视频生成的测试时缩放重新解释为一个搜索问题,以从高斯噪声空间中采样更好的轨迹到目标视频分布。具体而言,我们构建了测试时验证器的空间,以提供反馈和启发式算法来指导搜索过程。给定一个文本提示,我们首先通过在推理时增加噪声候选者来探索直观的线性搜索策略。由于同时对所有帧进行全步去噪需要大量的测试时计算成本,我们还设计了一种更高效的TTS方法,称为帧树(ToF),该方法以自回归的方式适当地扩展和修剪视频分支。在文本条件下的视频生成基准上进行的广泛实验表明,增加测试时的计算成本始终会导致视频质量的显著提高。项目页面:https://liuff19.github.io/Video-T1
arXiv:2503.18497v2 宣告类型: replace-cross
摘要:从数据训练得到的人工智能模型仅能与其基础数据一样优秀。训练数据中的偏差传导到机器学习模型的输出中是文献中记载且理解良好的现象,但防止这些不良影响的机制却发展较少。确保在数据收集过程中数据清洁的努力,例如使用有偏差意识的采样,当控制数据收集的实体同时训练AI模型时最为有效。在数据已经可用的情况下,我们如何找出数据已被操纵,即“污染”,以确保不会将不良行为训练进机器学习模型中?这是一项与仅仅提升逼近精度或效率根本不同的挑战,我们提供了一种方法来测试训练数据中的缺陷,建立可靠的地面真实值,以用于后续机器学习模型的训练(任何类型的)。与广泛研究的使用从数据生成的模糊规则来逼近数据的问题不同,我们的方法依赖于在看到测试数据之前定义规则。因此,所提出的方法还可以发现隐藏的错误模式,这些模式也可能有重大影响。我们的方法扩展了传统统计测试的能力,让“测试条件”可以是任何布尔条件,以描述我们希望确定的数据模式。该方法将模糊推理纳入回归模型,以获得两者的优点:模糊逻辑的可解释性与回归的统计特性和诊断功能,并且还可以适用于“小数据”,因此不需要像深度学习方法那样需要大型数据集。我们提供了一个开源实现进行演示和实验。
arXiv:2503.18258v2 宣告类型: replace-cross
摘要:已证明深度神经网络会学习并依赖于它们所训练的数据中存在的虚假相关性。依赖这些虚假相关性会使这些网络在现实世界中部署时发生故障,因为在现实世界中这些相关性可能不再成立。为克服学习和依赖这些虚假相关性,近期研究提出了能够取得良好结果的方法。然而,这些研究主要关注虚假信号的强度远大于内在不变信号强度的情景,使得检测单独训练样本中的虚假特征变得相对容易,并允许进一步处理。在这篇论文中,我们识别出了一种新的情景,在这种情景中虚假信号的强度相对较弱,使得难以检测到虚假信息的存在,同时仍然会导致灾难性的后果。我们还发现,大部分虚假相关性主要是由于极少数包含虚假特征的样本而被学习,开发了一种新的数据修剪技术,识别并修剪包含这些样本的小数据子集。我们提出的技术不需要推断的领域知识、有关样本级虚假信息的存在或性质的信息,或人类干预。最后,我们展示了这种数据修剪在先前研究中虚假信息可识别的情景中取得了最先进的性能。