arXiv 论文列表

作者: Nikolaos Giakoumoglou, Tania Stathaki

arXiv:2407.11802v4 宣告类型: replace-cross 摘要：知识蒸馏（KD）旨在将大型教师模型的知识转移到小型学生模型中。虽然对比学习在通过创建区分性表示自我监督学习中显示出前景，但在知识蒸馏中的应用仍然受限，主要侧重于区分性，而忽略了教师模型捕捉到的结构关系。为了弥补这一局限，我们提出了区分性与一致性蒸馏（DCD），该方法结合了对比损失与一致性正则化，以最小化教师和学生表示分布之间的差异。我们的方法引入了学习温度和偏置参数，这些参数在训练过程中适应以平衡这些互补目标，取代了对比学习方法中常用的固定超参数。通过在CIFAR-100和ImageNet ILSVRC-2012上的广泛实验，我们证明了DCD实现了最先进的性能，有时学生模型的准确率甚至超过了教师模型的准确率。此外，我们展示了当将DCD的学习表示转移到Tiny ImageNet和STL-10时，其跨数据集泛化能力更优。

发布时间: 2/11/2025

查看原文

LRQ：通过学习低秩权重缩放矩阵来优化大型语言模型的后训练量化

作者: Jung Hyun Lee, Jeonghoon Kim, June Yong Yang, Se Jung Kwon, Eunho Yang, Kang Min Yoo, Dongsoo Lee

arXiv:2407.11534v2 宣告类型: replace-cross 摘要：随着大型语言模型（LLMs）的商业化，权重-激活量化已出现，用于压缩和加速LLMs，实现高吞吐量同时减少推理成本。然而，现有针对LLMs权重和激活量化的后训练量化（PTQ）技术仍然会导致显著的准确率下降，尤其是在大规模的多任务语言理解中。为解决这一问题，我们提出了低秩量化（LRQ）——一种针对LLMs的有效后训练权重量化方法，通过利用低秩权重缩放矩阵重构中间Transformer块的输出，替代传统的全秩权重缩放矩阵，后者包含与其关联的权重数量相当的可学习尺度。得益于低秩结构中的参数共享，LRQ只需要学习显著更少的参数，同时允许权重的独立缩放，从而增强了量化的LLMs的泛化能力。我们在以下三种量化方案中展示了LRQ相对于先前的LLM PTQ工作的优越性：(i) 8位权重和张量级激活量化，(ii) 4位权重和8位张量级激活量化，以及(iii) 低位数权重唯量化方案。我们的代码可在Software中获得。

发布时间: 2/11/2025

查看原文

Panza: 设计与分析一个全本地个性化文本写作助手

作者: Armand Nicolicioiu, Eugenia Iofinova, Andrej Jovanovic, Eldar Kurtic, Mahdi Nikdan, Andrei Panferov, Ilia Markov, Nir Shavit, Dan Alistarh

arXiv:2407.10994v4 宣告类型: replace-cross 摘要：强大的开源大型语言模型（LLMs）的可用性为许多激动人心的应用打开了大门，比如使用个人数据来微调这些模型以模仿用户独特的写作风格。这种助手的两个关键要求是个性化——即助手应该能够在可辨认的程度上反映用户的写作风格——以及隐私——用户可能适当地担心向第三方服务上传极其个人化的数据，例如他们的电子邮件存档。在本文中，我们提出了一个新设计和评估，适用于特定的电子邮件生成用例，我们称之为Panza。Panza的个性化功能基于一种结合了Reverse Instructions技术变体和Retrieval-Augmented Generation (RAG)的方法。我们展示了这种结合允许我们在有限的数据和资源下（例如，在一个免费的Google Colab实例上）微调一个LLM，使它反映用户的写作风格。我们的主要方法贡献是首次对这个个性化写作风务的评估指标进行了详细的研究，以及不同系统组件选择（使用RAG和不同的微调方法）如何影响系统性能的研究。此外，我们证明了非常少量的数据——不到100封电子邮件样本——已经足够创建能够令人信服地模仿人类写作风格的模型。这一发现展示了一个以前未知的语言模型攻击向量——访问少量的写作风格样本可以使恶意行为者以低成本创建能够模仿目标写作风格的生成模型。我们正在将完整的Panza代码以及三个新的电子邮件数据集发布，这些数据集已获得研究使用许可，可以在https://github.com/IST-DASLab/PanzaMail找到。

发布时间: 2/11/2025

查看原文

在模型不确定性下的马尔可夫_agents_自主导向学习

作者: Jiawei Huang, Vinzenz Thoma, Zebang Shen, Heinrich H. Nax, Niao He

arXiv:2407.10207v3 宣布类型: replace-cross 摘要：设计适应性人群的激励机制是广泛应用于各种经济应用乃至更广泛领域的普遍问题。在本文中，我们研究如何在没有先验了解代理学习动态的情况下，设计额外的奖励来引导多智能体系统向期望的策略演变。受现有研究工作限制的启发，我们考虑了一种新的、更一般的学习动态类别，称为 \emph{马尔可夫代理}。我们为我们的引导问题引入了一种基于模型的非时期性强化学习（RL）形式化方法。重要的是，我们专注于学习一种 \emph{历史依赖性}的引导策略，以应对代理学习动态的固有模型不确定性。我们引入了一个新的目标函数，以编码实现良好引导结果的期望，同时控制成本。理论上，我们确定了引导策略存在的条件，可以引导代理达到期望的策略。为了补充我们的理论贡献，我们提供了近似的算法来解决我们的目标，这些算法能够有效地应对学习历史依赖性策略的挑战。通过实证评估，我们证明了我们算法的有效性。

发布时间: 2/11/2025

查看原文

ViTime：一种基于视觉智能的基础模型用于时间序列预测

作者: Luoxiao Yang, Yun Wang, Xinqi Fan, Israel Cohen, Jingdong Chen, Yue Zhao, Zijun Zhang

arXiv:2407.07311v3 Announce Type: replace-cross 摘要：时间序列预测（TSF）在各个领域中都有着巨大的实用价值，包括电力和能源、交通运输等。TSF方法从经典统计学知识到现代深度学习都有所研究。然而，所有这些方法都是基于一个基本概念——数值数据拟合——发展起来的。因此，这些模型长期以来被认为是特定于问题的，缺乏应用的通用性。一个针对不同应用的TSF基础模型可以扭转这种印象。核心问题是应该如何开发这样的TSF基础模型。本文进行了开创性的研究，首次提出了一种基于视觉智能框架ViTime。在ViTime中，开发了一种方法来综合真实的时间序列周期性和趋势模式，以丰富样本模式多样性。设计了一种深度架构在图像度量空间中进行TSF，以实现显著增强的TSF通用性。广泛的实验表明，ViTime在多个场景中的性能处于领先地位。在零样本场景中，ViTime比TimesFM高出9-15%。在仅使用10%微调数据的情况下，ViTime超过了在完整数据集上训练的基础模型和完全监督基准模型，随着100%微调数据的使用，性能差距进一步拉大。此外，ViTime展示了出色的鲁棒性，在处理缺失数据时无需补全，并在各种数据扰动下比TimesFM高出20-30%。

发布时间: 2/11/2025

查看原文

从环到 Oops：语言模型在不确定性下的退备行为

作者: Maor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva

arXiv:2407.06071v2 Announce Type: replace-cross 摘要：大型语言模型（LLMs）经常表现出不良行为，如幻觉和序列重复。我们提出将这些行为视为模型在认识不确定性下表现出的退步，并探讨了它们之间的联系。我们将退进步行为分类为序列重复、退化文本和幻觉，并在预训练令牌数量、参数数量或包含指令跟随训练的不同家族模型中对其进行了广泛的分析。我们的实验揭示了退进步行为在所有这些轴上的清晰且一致的排序：一个LLM越先进（即，训练更多令牌、更多参数或指令调整），其退进步为会从序列重复转向退化文本，最终转向幻觉。此外，在生成单一序列时，即使对于表现最佳的模型，也观察到了相同的排序；随着不确定性增加，模型会从生成幻觉转向生成退化文本，最终转向序列重复。最后，我们展示了虽然常见的解码技术，如随机采样，可以缓解如序列重复等不良行为，但它们会增加更难以检测的幻觉。

发布时间: 2/11/2025

查看原文

LLMs 被正确集成到软件系统中了吗？

作者: Yuchen Shao, Yuheng Huang, Jiawei Shen, Lei Ma, Ting Su, Chengcheng Wan

arXiv:2407.05138v2 宣布类型: replace-cross 摘要：大型语言模型（LLMs）在各种应用场景中提供了有效的解决方案，配备了检索增强生成（RAG）的支持。然而，由于缺乏接口规范、软件上下文中的各种需求以及复杂的系统管理，开发者在将LLM和RAG集成到软件系统中时面临着挑战。在这篇论文中，我们对100个集成LLM和RAG支持的开源应用程序进行了全面研究，并确定了18种缺陷模式。我们的研究揭示了其中77%的应用程序包含多种降低软件功能、效率和安全性的集成缺陷。受研究的指导，我们提出了软件生命周期中解决这些缺陷的系统性指南。我们还构建了一个开源缺陷库Hydrangea。

发布时间: 2/11/2025

查看原文

基于latent类分析 towards 公平性量化的跨部门交集分歧在多个群体中的使用

作者: Yingfang Yuan, Kefan Chen, Mehdi Rizvi, Lynne Baillie, Wei Pang

arXiv:2407.03133v3 公告类型: replace-cross 摘要：公平的人工智能开发日益受到关注。"不让任何一个人掉队"的倡议敦促我们解决获取服务、资源和机会过程中的多种交织形式的不平等，并强调了公平性在人工智能中的重要性。随着越来越多的人工智能工具应用于决策过程，如资源分配和服务方案开发，涵盖各行各业，如健康、能源和住房等领域，因此，在这些领域内探索交织的不平等现象对于全面理解和分析总体不平等和不公平问题具有重要意义。本研究引入了一种新的方法，利用潜在类别分析量化用户定义群体之间的跨部门交织差异。这些差异可以用来估算不平等并提供关于公平问题的重要见解。我们通过公共和私有数据集对这种方法进行了验证，包括EVENS和2021年人口普查（英格兰和威尔士）数据集，以研究不同族裔群体在不同领域的交织差异。我们还通过与政府公开指标进行相关性分析来验证量化差异的可靠性。我们的发现揭示了少数族裔群体之间和少数族裔群体与非少数族裔群体之间的显著差异，强调了在政策制定过程中需要采取针对性的干预措施。此外，我们展示了所提出的这种方法如何在确保机器学习系统的公平性方面提供有价值的见解。

发布时间: 2/11/2025

查看原文

一种用于直接高比列特征上采样的刷新相似性上采样器

作者: Minghao Zhou, Hong Wang, Yefeng Zheng, Deyu Meng

arXiv:2407.02283v2 宣布类型: replace-cross 摘要：特征上采样是几乎所有的当前网络结构中用于密集预测任务的基本且必不可少的组件。最近，提出了一种基于相似性的流行特征上采样管道，它利用高分辨率特征作为指导，帮助根据局部相似性上采样低分辨率的深层特征。尽管取得了令人鼓舞的性能，但该管道仍存在特定的局限性：1）高分辨率查询特征和低分辨率键特征对齐不佳；2）查询键特征之间的相似性是基于固定内积形式计算的；3）在低分辨率特征上粗略地选择邻居，导致马赛克伪影。这些不足使现有方法主要适用于具有迭代特征指导的分层网络架构，并且不容易扩展到更广泛的结构，尤其是直接的高比例上采样。针对这些问题，我们仔细优化了每一种方法设计。具体来说，我们首先从语义感知和细节感知的角度提出了一种明确可控的查询键特征对齐方法，然后构建了一个参数化的配对中心差分卷积块，以灵活计算对齐良好的查询键特征之间的相似性。此外，我们还开发了一种细粒度的高分辨率特征邻居选择策略，这简单而有效，可以缓解马赛克伪影。基于这些精心设计，我们系统地构建了一个更新的基于相似性的特征上采样框架，名为ReSFU。广泛的实验表明，我们提出的ReSFU可以精细适用于各种类型的架构，在直接高比例上采样的方式下表现出满意的效果，并且在不同的密集预测应用中始终保持良好的通用性和部署简便性。

发布时间: 2/11/2025

查看原文

当我们谈论语言模型时谈论了什么：隐含的 paradigm 转移和语言模型之船

作者: Shengqi Zhu, Jeffrey M. Rzeszotarski

arXiv:2407.01929v3 公告类型: 替换交叉摘要：语言模型（LMs）这一术语作为一个随时间不断重塑的模型集合，其指代对象如同“特修斯之船”般不断更新，但其本质仍然保持不变。在本文中，我们研究了这一“语言模型之船”问题，其中科学研究以持续的、隐含的关键现有术语再加工形式进行。我们试图发起一种新的科学进步视角，而不仅仅着眼于新术语的出现。为此，我们基于近期的自然语言处理（NLP）出版物构建了数据基础设施。然后，我们进行了一系列基于文本的分析，以对语言模型作为专门术语的使用进行详细的定量理解。我们的工作突显了系统和理论在科学研究中的相互影响，并呼吁关注我们所有人为之贡献的这一转变中的船只。

发布时间: 2/11/2025

查看原文