arXiv:2504.14530v1 Announce Type: 归类交叉
摘要:因果推理是人类智能的基石,也是旨在实现高级理解和决策的人工系统的关键能力。本论文深入探讨了大型语言模型(LLMs)在因果推理和理解方面的各个方面。它涵盖了对LLMs因果推断能力、其性能背后的机制以及因果学习和反因果学习对自然语言处理(NLP)任务的影响的研究。此外,该论文还探讨了因果推理在基于文本的计算社会科学中的应用,特别是关注政治决策以及通过引用评估科学影响力。通过新颖的数据集、基准任务和方法论框架,本文识别了改进LLMs因果能力的关键挑战和机遇,为这一不断发展的领域未来的研究所奠定全面的基础。
arXiv:2504.14522v1 宣传媒TYPE: cross
摘要:本文探讨了使用大规模语言模型(LLMs)设计宣传检测工具的设计。鉴于人工智能模型固有的偏见,特别是在政治背景下,我们研究了这些偏见如何被利用以增强新闻消费中的批判性思维。我们的研究反对接纳AI偏见通常被视为不利的观点,提出了一种针对用户政治立场的用户选择和个人化策略,应用了确认偏差和认知不协调的心理概念。我们从定性的用户研究中提出见解,并为宣传检测中的AI工具提供了设计建议(包括偏见意识、个人化和选择,以及逐步引入多元观点)。
arXiv:2504.14519v1 宣告类型: cross
摘要:管道并行ism(PP)是一种关键的技术,用于训练大型语言模型(LLMs),因为它能够在相对较低的通信开销下缓解模型状态带来的内存压力。然而,在长上下文场景中,现有的管道并行方法无法解决显著的激活内存压力,主要原因在于多个微批量累积的激活导致的峰值内存消耗。此外,这些方法不可避免地引入了大量的管道泡,进一步妨碍了效率。
为了应对这些挑战,我们提出了SlimPipe,这是一种新颖的细粒度管道并行方法,结合了均匀序列分割和一次前向一次后向(1F1B)调度。它将多个微批量的累积激活减少到仅一个,并将其划分为多个片段。尽管这些片段均匀分区,但由于因果注意力机制,计算成本在片段之间是不均匀的。我们开发了一种复杂的工作负载再分配技术来解决这一负载不平衡问题。SlimPipe 同时实现了(1)近乎零的内存开销和(2)最小的管道泡。通过使用多种模型架构、上下文窗口大小和SlimPipe特定配置的全面测试,证明了SlimPipe的有效性。例如,在Llama 70B模型中,与最先进的方法相比,对于512K的上下文长度,SlimPipe 显著提高了模型浮点运算利用率(MFU)至高达1.57倍。更为值得注意的是,在2048K的上下文长度下,它在256块NVIDIA Hopper 80GB GPU 上维持了超过45%的利用率,而其他方法则由于内存约束要么显著性能下降,要么完全失败。
arXiv:2504.14514v1 类型: 交叉
摘要: 首次描述了变压器中每一部分的矩阵表达式。基于矩阵的半张量积(STP)重考虑了超向量,并通过投影构建了超向量的线性变换。得到了其性质和计算公式。利用基于投影的超向量变换(PBTH),通过验证变压器中的每一项线性变换并用合适的PBTH替换,提出了维度无关变压器(DFT)的框架,这使得输入和输出可以具有任意维度。利用所有条目均衡的信息,DFT在处理信号方面必须更高效。
arXiv:2504.14509v1 声称类型: cross
摘要: 在本文中,我们引入了DreamID,这是一种基于扩散的面部换脸模型,实现了高度的ID相似性、属性保留、图像保真度和快速推理速度。与传统的面部换脸训练过程不同,后者通常依赖隐式监督并难以达到满意的效果。DreamID 通过构建三重ID组数据集建立了显式监督,显著增强了身份相似性和属性保留。扩散模型的迭代性质为利用高效的空间图像损失函数带来了挑战,在训练过程中进行耗时的多步采样以获得生成图像是不切实际的。为解决这一问题,我们利用加速扩散模型SD Turbo,将推理步数减少到单步迭代,从而在具有显式三重ID组监督的情况下实现高效的像素级端到端训练。此外,我们提出了一个改进的基于扩散模型的模型架构,其中包括SwapNet、FaceNet和ID适配器。这一稳健的架构充分释放了三重ID组显式监督的全部功能。最后,为了进一步扩展该方法,我们在训练过程中明确修改三重ID组数据,以微调并保留特定的属性,例如眼镜和面部轮廓。广泛的实验表明,DreamID 在身份相似性、姿态和表情保留以及图像保真度方面,优于现有最先进的方法。总体而言,DreamID 在 512*512 分辨率下只需 0.6 秒即可实现高质量的面部换脸结果,并且在复杂光照、大角度和遮挡等具有挑战性的场景中表现出色。
arXiv:2504.14494v1 类型: 交叉
摘要:在本文中,我们提出了LBM-GNN,这是一种将图神经网络(GNNs)增强的传统格子玻尔兹曼方法(LBM)的新方法。我们将此方法应用于流体动力学模拟,与标准的LBM实现相比,展示了改进的稳定性和准确性。该方法使用Taylor-Green涡流等基准问题进行验证,重点关注不同雷诺数和网格分辨率下的精度、守恒性质和性能。我们的结果显示,增强GNN的LBM可以在更高的雷诺数下保持更好的守恒性质,并提高数值稳定性。
arXiv:2504.14493v1 宣告类型: cross
摘要:在实际应用中利用大型语言模型通常需要使用领域特定的数据和工具,以遵循使用时必须遵守的复杂法规。在金融领域中,现代企业越来越多地依靠检索增强生成(RAG)系统来解决金融文档工作流中复杂的合规要求。然而,现有的解决方案难以应对数据的固有异质性(例如,文本、表格、图表)和监管标准的不断变化,导致关键信息提取的准确率受到严重影响。为此,我们提出了FinSage框架,它是一种专门用于多模态金融文档合规分析的多方面RAG框架。FinSage引入了三个创新组件:(1)一个多模态预处理管道,统一了多种数据格式并生成切片级的元数据摘要,(2)一个增强查询扩展(HyDE)和元数据感知语义搜索的多路径稀疏密集检索系统,以及(3)一个通过直接偏好优化(DPO)微调的领域专化重排序模块,以优先处理合规关键内容。广泛的实验表明,在75个由金融基准问答数据集中的专家整理的问题上,FinSage实现了92.51%的召回率,比最佳基线方法高出24.06%的准确率。此外,FinSage已经在在线会议中成功部署为金融问答代理,已经为超过1,200人服务。
arXiv:2504.14452v1 交叉类型
摘要:语言模型(LMs)可以在非对抗性环境中从预训练数据中记忆并复制文本片段,即使这些环境并非有意为之,这也引发了版权、学术抄袭、隐私和创造力方面的担忧。我们引入了“语义等价优化”(ParaPO),这是一种后训练方法,可以在减少无意重述的同时保留模型的整体功能。ParaPO 使模型更偏好语义等价版本的记忆片段,而不是预训练数据中的原话内容。为保持在适当情况下引用名言的能力,我们开发了一种 ParaPO 的变体,使用系统提示来控制重述行为。在对 Llama3.1-8B 的评估中,ParaPO 一致地减少了所有测试数据集中的重述现象(例如,在创意写作中,重述度从 17.3 减少到 12.9),而先前工作中用于减轻重述现象的学习遗忘方法,在未针对遗忘的特定领域之外效果较差(从 17.3 减少到 16.9)。当应用于指令调优的 Tulu3-8B 模型时,带有系统提示的 ParaPO 成功地保存了引用名言的能力,同时减少了未经允许的重述现象(在创意写作中,重述度从 8.7 减少到 6.3)。相比之下,没有 ParaPO 调优的情况下,提示模型不要重述仅产生了微小的减少效果(从 8.7 减少到 8.4)。
arXiv:2504.14439v1 Announce Type: cross
摘要:个性化大型语言模型(LLMs)以适应多样化的用户偏好对于提升对齐度和用户满意度至关重要。传统的人类反馈强化学习(RLHF)方法往往依赖于单一的价值表示,这限制了它们适应个体偏好能力。我们提出了一种新颖的框架,利用低秩偏好建模来高效学习和泛化用户特定的奖励函数。通过在低维子空间中表示奖励函数,并将个人偏好建模为共享基函数的加权组合,我们的方法避免了僵硬的用户分类,同时实现了可扩展性和少样本适应。我们在多个偏好数据集上验证了该方法,证明了其在面对未见过的用户时的优越泛化能力和在偏好预测任务中的改进准确性。
arXiv:2504.14432v1 类别: cross
摘要: 在本文中,我们介绍了一种新型跨模态框架 ResNetVLLM (ResNet 视觉 LLM),该框架将基于 ResNet 的视觉编码器与大型语言模型 (LLM) 结合起来,用于零样本视频理解。ResNetVLLM 通过避免依赖预训练的视频理解模型,而是使用一个未预训练的 ResNet 来提取视觉特征,从而解决了零样本视频模型面临的挑战。这种设计确保了模型在统一架构中学习视觉和语义表示,增强了其从视频输入生成准确且上下文相关文本描述的能力。我们的实验结果表明,ResNetVLLM 在 MSRVTT-QA、MSVD-QA、TGIF-QA FrameQA 和 ActivityNet-QA 等多个基准测试中实现了零样本视频理解 (ZSVU) 的最佳性能。