arXiv 论文列表

作者: Patrick Haller, Jonas Golde, Alan Akbik

arXiv:2504.14366v1 宣告类型: cross 摘要: 知识蒸馏是一种压缩大型语言模型（LLMs）的技术，通过训练一个较小的student模型来模仿较大的teacher模型。通常，老师和学生都是基于Transformer的架构，并利用softmax注意力机制进行序列建模。然而，在推理过程中，自我注意力的二次复杂性仍然是一个显著的瓶颈，因此激发了对次二次替代方法的研究，如结构化状态空间模型（SSMs）、线性注意力和递归架构。在本文中，我们系统地评估了从Transformer教师向九种次二次学生架构转移知识蒸馏的效果。我们的研究旨在确定哪种次二次模型与教师学习到的表示最一致，以及不同的架构约束如何影响蒸馏过程。我们还研究了智能初始化策略的影响，包括矩阵混合和查询-键-值（QKV）复制，这些策略如何影响适应过程。我们在多个自然语言处理（NLP）基准上的实证结果提供了效率与性能之间的权衡见解，并突显了成功将知识传递给次二次架构的关键因素。

发布时间: 4/22/2025

查看原文

使用全数字计算-in-内存加速器实现灵活的N:M稀疏性以加速LLM推理

作者: Akshat Ramachandran, Souvik Kundu, Arnab Raha, Shamik Kundu, Deepak K. Mathaikutty, Tushar Krishna

arXiv:2504.14365v1 通知类型: 交叉摘要: 固定N:M结构稀疏性的大型语言模型（LLM）剪枝显著限制了稀疏模型的表达能力，导致性能不佳。相比之下，支持多种N:M模式以提供稀疏表示自由度会带来高昂的硬件开销。为了解决这些LLM挑战，我们首先介绍了灵活的逐层异常密度感知N:M稀疏性（FLOW）选择方法。FLOW能够在同时考虑异常值的存在和分布的情况下，确定最佳的逐层N和M值（来自给定范围），从而提供更多表示自由度。为了部署具有这种N:M灵活性的稀疏模型，我们随后引入了一种灵活的低成本数字计算存内架构（FlexCiM）。FlexCiM通过将数字计算存内宏（DCiM）宏分割成更小的子宏，并通过分配和合并机制在不同N和M值下适应性地进行聚合和拆分，支持多种稀疏模式。在基于变换器和基于循环的状态空间基础模型（SSMs）上的广泛实验表明，与现有替代方案相比，FLOW的准确率提高了高达36%，而FlexCiM相较于现有稀疏加速器实现了1.75倍的更低推理延迟和1.5倍的更低能耗。代码可在以下地址获得：https://github.com/FLOW-open-project/FLOW

发布时间: 4/22/2025

查看原文

一个多模态重述框架，以考虑多模态跨语言视觉-语言建模中的感知多样性

作者: Kyle Buettner, Jacob Emmerson, Adriana Kovashka

arXiv:2504.14359v1 Announce Type: cross 摘要：当描述、命名和分组图像中的对象时，存在许多方式。当说话者来自不同的文化时，由于其独特的经验会影响感知，差异是显而易见的。机器翻译caption已经推动了视觉语言模型(VLMs)的多语言能力，但数据主要来自英语母语者，这表明存在感知偏向，并且模型缺乏灵活性。在这项工作中，我们应对这一挑战，并提出一个数据高效框架，以使多语言VLMs更好地理解感知多样性。我们特别提出了一种基于LLM的多模态重述策略，在翻译之前更改英语caption的对象描述。最大的受益之处体现在由母语者数据指导的有针对性的多模态机制中。通过将生成的重写作为训练中的增强，我们在德文和日文本图检索案例研究中取得了改进（总体均召回率提高至+3.5%，在非母语错误案例中提高至+4.7%）。我们进一步提出了一种机制，以分析数据集之间特定对象描述的差异，并提供了跨数据集和跨语言泛化的见解。

发布时间: 4/22/2025

查看原文

将LLM生成的观点集成到基于Black-Litterman模型的均值 variance 优化中

作者: Youngbin Lee, Yejin Kim, Suin Kim, Yongjae Lee

arXiv:2504.14345v1 宣布类型: cross 摘要: 传统的均值-方差模型由于敏感性问题使得组合优化面临挑战。Black-Litterman模型通过整合投资者的观点来缓解这一问题，但定义这些观点仍然很困难。本研究探讨了如何在组合优化中利用Black-Litterman框架将大型语言模型（LLMs）生成的观点整合进来。我们的方法利用LLMs从历史价格和公司元数据中估算预期股票回报，并通过预测的不确定性来考虑不确定性。我们对2024年6月至2025年2月间的LLM优化的投资组合进行了回测，每周重新平衡一次，使用前两周的价格数据。作为基准，我们将结果与S&P 500指数、等权重投资组合以及使用相同股票集合的传统均值-方差优化投资组合进行了比较。实证结果表明，不同的LLM在预测乐观性和置信稳定性方面表现出不同的水平，这影响投资组合的表现。源代码和数据可在 https://github.com/youngandbin/LLM-MVO-BLM 获取。

发布时间: 4/22/2025

查看原文

无需倒置的一次性可控视频编辑的视觉提示方法

作者: Zhengbo Zhang, Yuxi Zhou, Duo Peng, Joo-Hwee Lim, Zhigang Tu, De Wen Soh, Lin Geng Foo

arXiv:2504.14335v1 宣告类型: cross 摘要: 一对一可控视频编辑（OCVE）是一项重要但具有挑战性的工作，旨在将用户对视频第一帧所做的任何图像编辑工具编辑进行传播到所有后续帧，同时确保编辑帧与源帧之间的内容一致性。为实现这一目标，先前的方法采用DDIM反向变换将源帧转换为潜在噪声，然后将该潜在噪声在用户编辑的第一帧的条件下输入预训练的扩散模型以生成编辑后的视频。然而，DDIM反向变换过程累积了错误，阻碍了潜在噪声准确地重构源帧，最终影响生成的编辑帧的内容一致性。为克服这一问题，我们的方法通过基于视觉提示的新型视角进行OCVE，从而消除DDIM反向变换的需要。此外，受到可以执行多步骤一致采样以生成一系列内容一致图像的一致性模型的启发，我们提出了一种内容一致性采样（CCS），以确保生成的编辑帧与源帧之间的内容一致性。此外，我们基于Stein变分梯度下降引入了一种时间-内容一致性采样（TCS），以确保编辑帧之间的时序一致性。广泛的经验验证了我们方法的有效性。

发布时间: 4/22/2025

查看原文

通过结构化提示和多模态接口扩展生成式AI的设计空间

作者: Nimisha Karnatak, Adrien Baranes, Rob Marchant, Huinan Zeng, Tr\'iona Butler, Kristen Olson

arXiv:2504.14320v1 公告类型: cross 摘要: 基于文本的提示仍是生成AI的主要交互范式，然而它常常导致不熟悉该领域的用户，如小型企业主（SBOs），在为广告目的阐述创意或细分市场目标时产生高摩擦体验。为调查这一挑战，我们在英国与六名SBOs进行了研究，重点关注他们在广告实践中的看法及在这一背景下使用AI工具的情况。我们的研究发现目前生成AI系统的两大持续性缺陷：首先，提示工程的认知负担，用户在尝试将抽象的创意目标转化为有效的文本输入时遇到了困难；其次，频繁生成与用户所表达的品牌愿景不匹配的通用输出。为解决这些问题，我们开发了ACAI（为广告和创意协作的AI），这是一种多模态的、由生成AI驱动的广告创作工具，旨在通过重新设计提示界面来支持初学者设计师。ACAI 以结构化的面板界面呈现，包含三个模块：品牌面板、目标与受众面板以及灵感板面板，为SBOs提供与他们创意愿景相匹配的输出，通过减少提示的歧义性来提高与用户定义的背景的对齐和提示能力。本研究通过对生成系统中的结构化界面如何突出用户自定义的背景以提高初学者工作流程中的对齐性和提示可操作性的研究，为HCI研究做出了贡献。

发布时间: 4/22/2025

查看原文

学习评分

作者: Yogev Kriger, Shai Fine

arXiv:2504.14302v1 宣告类型: cross 摘要: 常见的机器学习设置从监督任务开始，在这种任务中可以访问准确标注的数据，然后是半监督和弱监督任务，在这种任务中目标标签稀缺或噪声较大，最后是无监督任务，在这种任务中无法获得标签。在本文中，我们研究一种目标标签不可用但额外相关信息可用的场景。这种信息称为辅助信息，它可以与未知标签相关联，也可以对特征空间施加约束。我们将问题表述为三个语义组件的集成：表示学习、辅助信息和度量学习。提出的一种评分模型在多种应用场景中具有优势。例如，在医疗保健领域，当已知疾病症状但疾病进展的评判标准不明确时，可以使用该评分模型来创建疾病的严重程度评分。我们通过知名的基准数据集和生物医学患者记录来展示所建议的评分系统的实用价值。

发布时间: 4/22/2025

查看原文

平衡隐私与行动表现：一种惩罚驱动的图像匿名化方法

作者: Nazia Aslam, Kamal Nasrollahi

arXiv:2504.14301v1 交叉类型: cross 摘要：视频监视系统在对象检测、跟踪、活动识别和异常检测方面的快速发展，已经彻底改变了我们的日常生活，同时也引发了隐私担忧。在大多数计算机视觉模型中，要在视觉隐私和动作识别性能之间找到平衡并不容易。不牺牲性能就能保护隐私是否可能？这是一个巨大的挑战，因为即使是微小的隐私增强也会导致显著的性能下降。为了解决这一挑战，我们提出了一种隐私保护图像匿名化技术，通过从效用分支施加的惩罚来优化匿名化器，从而在不影响隐私泄露最小化的同时提高动作识别性能。这种方法解决了最小化隐私泄露与保持高动作性能之间的权衡。该方法主要设计为了符合欧盟AI法案和GDPR的监管标准，以保护个人可识别信息的同时保持动作性能。据我们所知，这是首次引入基于特征的惩罚方案，该方案专门控制动作特征，允许对私人属性进行匿名化。进行了大量的实验以验证所提方法的有效性。结果表明，从效用分支对匿名化器施加惩罚可以提高动作性能，同时在不同的惩罚设置下保持隐私泄露的一致性。

发布时间: 4/22/2025

查看原文

使用弱监督训练和权重选择的GAN学习和生成多样化的住宅负荷模式

作者: Xinyu Liang, Hao Wang

arXiv:2504.14300v1 生成类型: cross 摘要：住宅负载数据的稀缺性可能会阻碍住宅部门的低碳化以及有效电网规划和运营。上述挑战激发了生成合成负载数据的研究，但现有方法在可扩展性、多样性和相似性方面存在局限。本文提出了一种基于生成对抗网络的合成住宅负载模式（RLP-GAN）生成模型，这是一种新颖的弱监督GAN框架，利用欠完备自编码器捕获复杂且多样的负载模式之间的依赖关系，并在大规模范围内学习家庭级数据分布。我们引入了一种模型权重选择方法来解决模式崩溃问题，并生成高多样性的负载模式。我们开发了一种整体评估方法，使用417户家庭的实际数据验证RLP-GAN的有效性。结果表明，RLP-GAN在捕捉时间依赖性以及生成与实际数据更相似的负载模式方面优于现有模型。此外，我们已公开发布由RLP-GAN生成的合成数据集，该数据集包含一百万条合成住宅负载模式简档。

发布时间: 4/22/2025

查看原文

基于经验的任务规划知识细化在自主机器人中的应用

作者: Hadeel Jazzaa, Thomas McCluskey, David Peebles

arXiv:2504.14259v1 交叉类型：公告摘要：自主机器人展示出更高层次的认知技能，通过在不断变化的环境中进行规划和适应，确实对人工智能社区来说是一个巨大的挑战。在自动规划社区中，已经在通过改进代理的符号知识来进行任务规划的模型不完整或变化方面取得了进展，但在现阶段，这些进展尚未被转移到真实的物理机器人上。本文展示了如何通过利用机器人执行动作的经验来驱动知识的改进，使物理机器人能够适应其对环境的符号知识，从而提高机器人创建的任务计划的成功率。为了构建更加健壮的规划系统，我们提出了一种改进领域知识的方法，以提高基于这种知识的智能机器人行为的准确性。该架构已使用NAO机器人进行实施和评估。改进后的知识导致未来任务计划的合成，随着错误知识的去除或调整，失败率随时间降低。

发布时间: 4/22/2025

查看原文