arXiv:2504.16000v1 交叉公告类型
摘 要:上下文学习(ICL)——基于转换器的模型在推理时根据提供的示例执行新任务的能力——已成为现代语言模型的一个核心特征。尽管近期研究已探讨了ICL背后的机制,但在正式隐私约束下的可行性仍未得到充分探索。在本文中,我们提出了一种用于线性注意力头的差异隐私预训练算法,并首次对线性回归中ICL的隐私-准确性的权衡进行了理论分析。我们的结果刻画了优化和隐私引起的噪声之间的基本矛盾,正式捕捉了通过迭代方法进行隐私培训时观察到的行为。此外,我们展示了我们的方法对训练提示的对抗性扰动具有鲁棒性,这与标准岭回归不同。所有理论发现都得到了各种情况下广泛模拟的支持。
arXiv:2504.15995v1 宣告类型: 交叉
摘要: 垂直联邦学习(VFL)让具有分离特征空间但共享用户基础的组织可以在不共享原始数据的情况下协作训练模型。然而,现有的VFL系统面临着关键性的限制:它们往往缺乏有效的激励机制,难以平衡隐私-效用权衡,并且无法适应具有异质资源能力的客户端。这些挑战阻碍了有意义的参与,降低了模型性能,并限制了实际部署。为了解决这些问题,我们提出了OPUS-VFL,一种VFL的最优隐私-效用权衡策略。OPUS-VFL引入了一种新颖的、具有隐私意识的激励机制,根据模型贡献、隐私保护和资源投入的原则性组合来奖励客户端。它采用轻量级的“删除一法”(LOO)策略来量化每个客户端的特征重要性,并集成了一个自适应的差分隐私机制,使客户端能够动态调整噪声水平以优化其个体效用。我们的框架设计旨在可扩展、预算平衡,并且能够抵御推断和投毒攻击。在基准数据集(MNIST, CIFAR-10, 和 CIFAR-100)上的广泛实验表明,OPUS-VFL在效率和鲁棒性方面显著优于现有的VFL基线。它将标签推断攻击的成功率降低了高达20%,增加了超过30%的特征推断重构误差(MSE),并且对于那些有意义地贡献的客户端,实现了高达25%更高的激励,同时尊重隐私和成本约束。这些结果突显了OPUS-VFL作为一种安全、公平且高性能的解决方案的实用性和创新性,适用于实际的VFL场景。
arXiv:2504.15983v1 交叉公告类型: cross
摘要:对高效自然语言处理(NLP)系统的高需求推动了轻量级语言模型的发展。先前在这个领域的大部分工作主要集中在手动设计或基于训练的神经架构搜索(NAS)方法上。最近,提出了零样本NAS方法,可以在无需训练的情况下评估语言模型。然而,常用的零样本NAS方法往往面临偏见评估指标和计算效率低下的挑战。在本文中,我们引入了一种名为W-PCA(加权主成分分析)的新型零样本NAS方法,该方法特别针对轻量级语言模型。我们的方法利用了两个评估代理指标:模型参数数量和前馈神经网络(FFN)层中累积贡献超过阈值η的主要成分数量。此外,通过消除梯度计算的需求,我们优化了评估时间,从而提高了设计和评估轻量级语言模型的效率。我们分别在GLUE和SQuAD数据集上进行了比较分析,以评估我们的方法。结果表明,与一-shot NAS方法相比,我们的方法显著减少了训练时间,并在测试阶段获得了比先前最先进的基于训练的方法更高的分数。此外,我们还在FlexiBERT搜索空间采样的数据集上进行了排名评估。我们的方法表现出更高的排名相关性,并进一步减少了求解时间,相比其他需要梯度计算的零样本NAS方法。
arXiv:2504.15972v1 类型: cross
摘要:本研究探索了一种新颖的方法,利用Eclipse项目中的Bugzilla数据来预测关键的Bug相关结果,包括解决时间、修复时间和最终状态。具体来说,我们利用在Bug解决之前可用的特征来提高预测准确性。我们的方法结合了情感分析,从中提取出情绪得分和情感分类(正面或负面)。此外,我们还整合了使用BERTopic模型提取的Bug优先级和主题,作为卷积神经网络(CNN)和多层感知机(MLP)的特征。我们的研究表明,BERTopic和情感分析的结合可以提高某些模型性能指标。此外,我们观察到,平衡模型输入可以增强其实用性,但通常会导致准确性显著降低。为了实现我们的主要目标——预测解决时间、修复时间和Bug命运,我们采用了二分类和精确时间值预测两种方法,允许对这两种预测有效性进行比较评估。结果表明,情感分析在预测Bug最终结果方面具有重要作用,尤其是在判断它是否会得到修复时。然而,当对Bug进行更复杂或非传统的结果类别分类时,其效用就不那么明显了。
arXiv:2504.15956v1 类型: cross
摘要: 我们证明了通过线性变换,(i) 两层自注意力和 (ii) 一层自注意力后跟一个softmax函数,都可以作为紧凑域上连续序列到序列函数的通用逼近器。我们的主要技术是一种新的基于插值的方法,用于分析注意力的内部机理。这导致我们得出关键洞察:自注意力能够以任意精度逼近广义ReLU函数,因此涵盖了多种已知的通用逼近器。基于这些结果,我们展示了仅两层多头注意力就足够作为序列到序列的通用逼近器。相比之下,先前的工作依靠前馈网络来证明Transformer的通用逼近性质。此外,我们扩展了这些技术,展示了仅注意力层能够逼近各种上下文中的统计模型。我们相信这些技术具有独立的兴趣。
arXiv:2504.15941v1 类型:交叉
摘要:大型语言模型(LLMs)越来越多地被用于翻译任务,但在翻译包容性语言时常常表现不佳——例如包含单数“they”代词的文本或以其他方式体现公平的语言规范。由于这些挑战跨越了计算和社会领域,因此亟需从一个坚实的框架出发,批判性地评估LLMs在包容性翻译方面的处理能力。
本文介绍了FairTranslate,这是一个全新的、完全由人类注释的数据集,旨在评估英法翻译系统中的非二元性别偏见。FairTranslate 包括2418个与职业相关的英法句子对,并进行了丰富元数据的注释,包括职业的刻板印象对齐、语法性别指示的模糊性以及真实的性别标签(男性、女性或包容性)。
我们使用四种领先的LLM(Gemma2-2B、Mistral-7B、Llama3.1-8B、Llama3.3-70B)在不同的提示程序下对FairTranslate数据集进行了评估。我们的结果揭示了LLMs在性别表示方面的显著偏见,突显了在机器翻译中实现公平结果的持续挑战。这些发现强调了在基于LLM的翻译系统中确保公平和包容的语言使用需要有重点的策略和干预措施。
我们将FairTranslate数据集在Hugging Face上公开,并在GitHub上披露了所有实验的代码。
arXiv:2504.15929v1 交叉类型公告
摘要:诊断影像依赖于解析图像和放射学报告,但不断增加的数据量给医疗专家带来了巨大的压力,导致了错误的增加和工作流程的延误。医疗视觉语言模型(med-VLMs)作为高效处理多模态影像数据的强大框架,特别是胸部X光(CXR)评估中涌现了出来,尽管其性能取决于图像和文本表示的精确对齐。现有的对齐方法,主要基于对比学习,优先考虑不同疾病类别的分离,而忽视了细粒度病理属性如位置、大小或严重程度的区分,从而导致了次优的表示方法。在这里,我们提出了MedTrim(元实体驱动的 triplet 提取),这是一种新颖的方法,通过多模态 triplet 学习协同地指导疾病类别以及形容词和方向性病理描述,增强图像文本对齐。与常规的分离广泛疾病类别的对齐方法不同,MedTrim 利用结构化的元实体信息来保留重要的但细微的类别内变异。为此,我们首先引入了一个基于本体的实体识别模块,从 CXR 报告中提取与病理属性相关的元实体,因为公共数据集中病理属性的标注很少。对于 triplet 提取中的细致样本选择,我们引入了一个新颖的评分函数,该函数捕获了基于疾病类别和形容词/方向性描述的样本间相似性的综合度量。最后,我们引入了一个多模态 triplet 对齐目标,明确进行具有详细病理特征的样本之间的跨模态和模内对齐。我们的演示表明,与最先进的对齐方法相比,MedTrim 在下游检索和分类任务中提高了性能。
arXiv:2504.15928v1 Announce Type: cross
摘要:人工 intelligence (AI) 在医疗成像诊断方面展现了显著的潜力,但当前模型在部署到不同的临床中心时通常需要重新训练,这限制了它们的广泛应用。我们提出了 GlobeReady,一个用户友好的 AI 平台,可以在无需重新训练/微调或技术专长的情况下进行眼病诊断。GlobeReady 实现了多种影像模态的高准确性:对于 11 类别的视网膜照片数据集,准确率达到了 93.9-98.5%;对于 15 类别的 OCT 数据集,准确率达到了 87.2-92.7%。通过训练免费的特征增强方法,它解决了不同中心和人群之间的领域转移问题,使其在中国五家中心的平均准确率达到 88.9%,在越南达到 86.3%,在英国达到 90.2%。内置的可量化诊断置信度方法进一步将准确率提升至眼底图像的 94.9-99.4%,OCT 数据的 88.2-96.2%,同时识别出 49 个眼底照片类别中的 86.3% 和 13 个 OCT 类别中的 90.6% 的离群案例。来自多个国家的临床医生普遍认为 GlobeReady(平均评分为 4.6/5)易于使用且临床相关。这些结果证明了 GlobeReady 稳健且可扩展的诊断能力,并为其在没有技术障碍的情况下支持眼科护理提供了潜在可能。
arXiv:2504.15927v1 交叉类型:
摘要: 半监督社区检测方法广泛用于识别特定社区,因为标签稀缺。现有的半监督社区检测方法通常涉及到两个学习阶段,在初始识别和后续调整中进行学习,通常从一个不合理的核心社区候选开始。此外,由于这些方法依赖于强化学习和生成对抗网络,它们还面临着可扩展性问题,导致计算成本较高,并限制了候选人的选择。为了应对这些局限性,我们将结晶动力学与社区检测相类比,将退火过程的自发性融入到社区检测中。具体来说,我们将社区检测类比为通过类似于退火的过程识别晶体亚晶粒(核心),并扩展为完整的晶粒(社区)。基于这一发现,我们提出了CLique ANNealing (CLANN),通过将动力学原理集成到优化过程中来强化社区核心的一致性。随后,我们使用学习自由的传递退火器对第一阶段的候选人进行精炼,通过合并邻近的团簇并重新定位社区核心,从而实现一个自发的增长过程,增强了可扩展性。在**43**种不同的网络设置上进行的广泛实验表明,CLANN在多个实际数据集上优于最先进的方法,展示了其在社区检测中的出色效果和效率。
arXiv:2504.15924v1 宣告类型:交叉
摘要:联邦学习中的客户端公平性度量用于确保联邦中的所有客户端要么:a) 其本地数据分布的最终性能相似(即客户端平等待遇),或者 b) 其本地数据分布的最终性能与其对联邦学习过程的贡献相比较(即贡献公平性)。虽然提出了一些基于平等社会理论(如分配正义)来定义和决策客户端平等待遇或贡献公平性的作品,但大多数作品随意选择与何种公平观念相对应,这使得从业者难以选择最符合其公平伦理的公平度量标准。在本文中,我们提出了UDJ-FL(基于不确定性分配正义的联邦学习),这是一种灵活的联邦学习框架,可以实现多种基于分配正义的客户端公平性度量。通过利用启发自公平资源分配的技术,结合进行不确定性不确定性基于客户端的加权,我们的UDJ-FL框架能够实现等价论、功利主义、罗尔斯差原则或根据应得的客户端公平性。我们实证展示了UDJ-FL实现所有四种定义的基于分配正义的客户端公平性度量的能力,同时还提供了与(或超越)其他流行公平联邦学习作品相当或更优的公平性。此外,我们为UDJ-FL框架中为什么需要不确定性加权提供了理由,并推导了UDJ-FL的泛化界理论保证。我们的代码可在 https://github.com/alycia-noel/UDJ-FL 公开获取。