arXiv:2504.12323v2 更新类型: 交叉替换
摘要: 通过从外部知识源检索相关文档来增强大型语言模型 (LLMs) 的检索增强生成 (RAG) 技术,通过引用这些外部知识,RAG 有效减少了 LLMs 生成事实错误内容的问题,并解决了 LLMs 中的幻觉问题。最近,从多个角度提高 RAG 系统的性能和效率引起了越来越多的关注。尽管这些进步取得了显著成果,但在具有重大社会影响的领域应用 RAG 也引发了一个关键问题:RAG 架构引入的影响对 LLMs 的公平性有何影响?为了解答这个问题,我们通过改变 LLMs、检索器和检索源进行了广泛的实验。我们的实验分析表明,LLM 的规模在 RAG 框架内的公平性结果中起着重要作用。当模型规模小于 8B 时,检索机制的整合往往会加剧小型规模 LLMs(例如,LaLaMA3.2-1B、Mistral-7B 和 LaLaMA3-8B)的不公平性。为缓解由 RAG 引入的小型规模 LLMs 的公平性问题,我们提出了两种方法,FairFT 和 FairFilter。具体来说,在 FairFT 中,我们将检索器与 LLM 在公平性方面对齐,使其能够检索出有利于更公平模型输出的文档。在 FairFilter 中,我们提出了一种公平性过滤机制,在检索后过滤掉有偏见的内容。最后,我们在实际数据集上验证了我们提出的两种方法,展示了它们在提高公平性的同时保持性能的有效性。
arXiv:2504.12322v2 通报类型: replace-cross
摘要:尽管数据合成和蒸馏是增强小型语言模型的有效策略,但当前的方法严重依赖大型语言模型(LLMs),而这些模型面临着高额的计算成本、环境效率低下以及可能继承自单一架构的偏见等问题。相比之下,较小的LLMs更为易获取且可持续,但它们的个体能力往往不足以生成高质量、多样性和可靠的海量数据。受合作人类过程(如同行评审)的启发,我们提出了一种涉及多个小型LLMs的框架,命名为GRA,该框架通过跨小型LLMs汇总专业角色,实现迭代优化和质量控制,这些功能通常由单一的大型LLM来完成。在这个合作框架中,多个小型LLMs分别担任生成者、评审员和法官的角色,模拟了基于同行评审的数据合成管道。生成者提出初始数据样本,评审员评估样本的质量和多样性,法官解决冲突以最终确定输出。通过将合成过程分解为专门的子任务,合作的小型LLMs可以在数据级别上达到基于大型LLMs的蒸馏所能达到的质量性能。通过在多个基准上的实验,我们证明了由GRA生成的数据在质量上与单一大型LLM(如Qwen-2.5-72B-Instruct)输出相当或更优。我们的结果挑战了单一大型模型在高质量数据合成中的必要性,相反,倡导更有效的较小代理协调策略。我们的数据集、模型和代码已在 https://github.com/GX-XinGao/GRA 公开可用。
arXiv:2504.12210v2 宣告类型: replace-cross
摘要:去中心化的联邦学习(DFL)是一种将人工智能(AI)能力带到网络边缘的有前途的机器学习范式。然而,将DFL运行在边缘网络上由于代理间广泛的参数交换面临着严重的性能挑战。目前解决这些挑战的大多数解决方案基于简化的通信模型,无法捕捉多跳带宽有限网络上的学习情况。在这项工作中,我们通过联合设计由代理形成的覆盖网络的通信方案以及控制代理间通信需求的混合矩阵来解决这一问题。通过仔细分析我们问题的性质,我们将每个设计问题转化为可处理的优化问题,并开发出具有保证性能的高效算法。基于实际拓扑和数据的评估显示,所提出的算法能够将总训练时间减少超过80%(同时不牺牲准确性),并且与现有最先进的方法相比,大幅提高了计算效率。
arXiv:2504.11986v2 宣告类型: 替换交叉
摘要:本文提出了一个关于大型语言模型(LLMs)和准晶体之间解义类比的观点。准晶体是一种在系统中表现出全局一致性但没有周期性重复的现象,这种现象是通过局部约束产生的。尽管LLMs通常是从预测准确性、事实性或一致性的角度来进行评估,但这种结构视角表明,它们最典型的特征之一是生成内部共振的语言模式。准晶体的历史迫使人们对物理系统中的结构有序重新定义,这个类比突显了一种生成语言的替代模式:在没有重复或象征意图的情况下基于约束的组织。我们不将LLMs视为不完美的代理或随机近似,而是建议将其理解为产生准结构输出的生成器。这种框架补充了现有的评估范式,突出了形式的一致性和模式作为模型行为可解释特征的重要性。尽管这种类比有一定的局限性,但它提供了一个概念工具,用于探索在意义是涌现的、部分的或无法获得的系统中,一致性是如何产生和被评估的。为支持这一观点,本文借鉴了科学哲学和语言哲学,包括基于模型的科学表征解释、结构现实主义以及意义的推断观点。此外,我们还提出了结构评估的概念:一种评估方式,旨在考察输出如何在生成文本的不同段落中传播约束、变化和秩序。本文旨在重新框架当前关于大型语言模型的讨论,并非通过拒绝现有方法,而是通过提供一种基于结构而不是语义的解释轴。
arXiv:2504.11793v3 更新类型: 替换-交叉
摘要:联邦学习(FL)在训练大规模语言模型(LLMs),特别是在医疗保健应用中,面临着通信开销和模型隐私的重大挑战。为了解决这些问题,我们提出了选择性注意力联邦学习(SAFL),这是一种新颖的方法,能够动态微调仅那些被识别为关注关键的变压器层。通过使用注意力模式来确定层的重要性,SAFL 显著减少了通信带宽并增强了差分隐私的抵抗力。在临床自然语言处理基准测试(i2b2 临床概念提取和 MIMIC-III 离院摘要)上的评估表明,SAFL 在性能上与集中式模型相当,同时显著提高了通信效率和隐私保护。
arXiv:2504.11478v2 宣告类型: replace-cross
摘要:我们提出了一种简单而有效的零样本框架,用于基于主题的图像生成,使用了一个普通的Flux模型。通过将任务框架化为基于网格的图像补全,并在马赛克布局中简单地复制主题图像(多个),我们激活了强大的身份保持能力,无需任何额外的数据、训练或推理时的微调。“免费午餐”方法通过新颖的级联注意力设计和元提示技术得到了进一步加强,从而提高了保真度和灵活性。实验结果表明,我们的方法在多个基准测试和人类偏好研究中,在多个关键指标上超过了基线方法,但某些方面存在权衡。此外,该方法支持多种编辑,包括徽标插入、虚拟试穿以及主题替换或插入。这些结果表明,预训练的文本到图像基础模型可以实现高质量且资源高效的基于主题的生成,为下游应用中的轻量级定制开辟了新可能。
arXiv:2504.11344v2 宣告类型: replace-cross
摘要:时间点过程(TPPs)广泛用于医学领域各种时间序列建模,如疾病发病预测、进展分析和临床决策支持。尽管TPPs能够有效捕捉时间动态,但其缺乏可解释性仍然是一个关键问题。最近的进步引入了可解释的TPPs,但这些方法未能融入数值特征,从而限制了其生成精确预测的能力。为了解决这一问题,我们提出了Hybrid-Rule时间点过程(HRTPP),这是一种新颖的框架,将时间逻辑规则与数值特征结合在一起,既提高了可解释性,又提升了事件建模的预测准确性。HRTPP包括三个关键组件:基本强度用于固有事件的可能性,基于规则的强度用于结构化的时间依赖性,以及数值特征强度用于动态概率调制。为了有效发现有效规则,我们引入了一种包含贝叶斯优化的两阶段规则挖掘策略。为了评估我们的方法,我们建立了一个多标准评估框架,包括规则的有效性、模型拟合和时间预测准确性。实验结果表明,HRTPP在预测性能和临床解释性方面优于最先进的可解释TPPs。在案例研究中,从HRTPP提取的规则解释了疾病进展,为医疗诊断提供了有价值的贡献。
arXiv:2504.11014v3 Announce Type: replace-cross
摘要:计算机视觉领域的一个新兴趋势是开发能够同时处理多种多样任务的通用模型。这种通用性通常需要在多域数据集上联合训练以确保有效的泛化。然而,单目3D物体检测在多域训练中面临着独特的挑战,这主要是由于缺乏带有准确3D地面真实标签的数据集,尤其是在传统的基于道路的自动驾驶场景之外的环境中。为了应对这一挑战,我们提出了一种新颖的弱监督框架,利用伪标签。当前的预训练模型在非道路环境中的行人检测上往往难以准确地进行检测,这主要是由于数据集自身的偏差所致。与通用的基于图像的2D物体检测模型不同,实现类似水平的泛化在单目3D检测领域仍然很少被探索。本文中,我们提出了一种名为GATE3D的新框架,该框架专门用于通过弱监督实现通用的单目3D物体检测。GATE3D通过在2D和3D预测之间的使用一致性损失有效地弥合了领域间的差距。令人值得注意的是,我们的模型在KITTIData基准以及我们收集的一个室内办公室数据集上达到了竞争力的表现,该数据集用于评估我们框架的泛化能力。我们的结果表明,GATE3D通过有效的预训练策略显著加速了从有限标注数据的学习过程,突显了其在机器人技术、增强现实和虚拟现实应用中更广泛影响的潜力。项目页面:https://ies0411.github.io/GATE3D/
arXiv:2504.10663v2 宣告类型:替换交叉
摘要:Wikipedia 由 MediaWiki 驱动,这是一种免费且开源的软件,也是许多其他基于维基的在线百科全书的基础架构。这些包括最近推出的网站 Ruwiki,它已复制并修改了原始的俄罗斯维基百科内容,以符合俄罗斯法律。为了识别可能与不同形式的知识操纵相关的行为和叙事,本文对这一俄罗斯维基百科分支进行了深入分析。我们提出了一种方法学,以识别与原始版本相比的主要变化。这项研究的基石是对来自俄罗斯维基百科及其分支的超过 190 万篇文章进行了全面的比较分析。利用元信息和地理、时间、类别和文本特征,我们探讨了 Ruwiki 编辑所做的更改。此外,我们还对这个分支中知识操纵的主要主题进行了分类,并提供了其影响范围的数字估计。这项研究不仅揭示了 Ruwiki 内部的重要变化,还提供了一种方法学,该方法学可以应用于分析其他维基百科分支和其他类似的合作项目。
arXiv:2504.10539v2 Announce Type: replace-cross
摘要:本文提出了一种改进的方法,使用物理信息神经网络(PINNs)在多相格点玻尔兹曼方法(LBM)模拟中保留清晰的界面。多相LBM中的界面扩散是一个常见的挑战,导致在界面动力学至关重要的现象模拟中降低了准确性。我们提出了一种耦合的PINN-LBM框架,该框架在保持界面清晰的同时保留了模拟的物理准确性。我们的方法通过液滴模拟得到了验证,使用了度量界面宽度、最大梯度、相分离、有效界面宽度和界面能量的量化指标。本工作中使用增强的可视化技术清楚地展示了PINN-LBM在多相模拟中的优越性能,特别是在整个模拟过程中保持清晰定义的界面方面。我们对结果进行了全面分析,展示了神经网络集成如何有效地对抗数值扩散,同时保持与底层流体动力学的物理一致性。