arXiv 论文列表

作者: SeongYeub Chu, JongWoo Kim, Bryan Wong, MunYong Yi

arXiv:2410.14202v2 宣告类型: 替换交叉摘要：现有的自动作文评分(AES)方法仅依赖于作文文本而不使用评分解释性理由，从而丧失了捕捉评分标准指示器所评估的具体方面的细粒度机会。本文介绍了基于解释性理由的多项特质评分(Rational-based Multiple Trait Scoring, RMTS)，这是一种结合基于提示工程的大型语言模型(Large Language Models, LLMs)和使用小型LLM进行微调的作文评分模型的新型多项特质作文评分方法。RMTS采用基于LLM的特质级理由生成系统，其中独立的LLM代理根据评分标准指南生成特定于特质的理由，评分模型利用这些理由准确预测多项特质评分。在包括ASAP、ASAP++和Feedback Prize在内的基准数据集上的广泛实验表明，RMTS在特质特定评分方面显著优于最先进的模型和纯S-LLMs。通过使用细粒度的定性理由辅助定量评估，RMTS增强了特质级可靠性，并提供了一些关于作文的解释。代码可在 https://github.com/BBeeChu/RMTS.git 获取。

发布时间: 2/5/2025

查看原文

P4GCN：带有隐私保护双重图卷积网络的垂直联邦社交推荐

作者: Zheng Wang, Wanwan Wang, Yimin Huang, Zhaopeng Peng, Ziqi Yang, Ming Yao, Cheng Wang, Xiaoliang Fan

arXiv:2410.13905v3 说明类型: replace-cross 摘要：近年来，图神经网络（GNNs）被广泛用于社交推荐系统。然而，现实场景往往存在用户隐私和业务约束方面的挑战，限制了直接访问其他平台上的宝贵社交信息。虽然许多现有方法已经处理了基于矩阵分解的社交推荐问题，而无需直接访问社交数据，但在类似条件下开发基于GNN的联邦社交推荐模型仍然很大程度上未被探索。为了解决这一问题，我们提出了一种利用隐私保护的双方图卷积网络（P4GCN）的垂直联邦社交推荐方法，以在无需直接访问敏感社交信息的情况下提高推荐准确性。首先，我们引入了一个Sandwich-Encryption模块，以确保合作计算过程中的全面数据隐私。其次，我们对隐私保证进行了全面的理论分析，考虑了好奇方和诚实方的参与。在四个真实世界数据集上的大量实验表明，P4GCN在推荐准确性方面优于现有最先进的方法。

发布时间: 2/5/2025

查看原文

LightTransfer：你的长上下文LLM其实是具有无障碍适应性的混合模型

作者: Xuan Zhang, Fengzhuo Zhang, Cunxiao Du, Chao Du, Tianyu Pang, Wei Gao, Min Lin

arXiv:2410.13846v2 Announce Type: replace-cross 摘要：将语言模型扩展以处理更长的上下文引入了重大的内存挑战，因为键值（KV）缓存的成本随着规模的增加而增加。受混合模型效率提升以及大型预训练变压器基础架构的广泛可用性的启发，我们探索了将变压器模型转换为混合架构以实现更高效的生成。在本文中，我们提出了一种名为LightTransfer的轻量级方法，将LLaMA等模型转换为混合变体。我们的方法识别出懒惰层——这些层专注于最近或初始的令牌——并用流式注意力替换它们的全注意力。对于长上下文理解任务，此转换可以在没有任何训练的情况下进行；而对于需要更强推理能力的类似o1的长推理生成任务，可以通过最少的微调来实现。跨多种基准和模型（例如，LLaMA、Mistral、QwQ-STILL）的实验表明，即使有一半的层被识别为懒惰层，LightTransfer仍能实现最多2.17倍的吞吐量提升，并且性能损失最小（LongBench上<1.5%）；并且在高级类似o1的长推理模型QwQ-STILL的数学基准AIME24上实现了53.3%的性能。

发布时间: 2/5/2025

查看原文

大型语言模型的通道级混合精度量化

作者: Zihan Chen, Bike Xie, Jundong Li, Cong Shen

arXiv:2410.13056v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在广泛的语言任务中表现出色，但由于其庞大的参数量带来的大量内存需求，其在边缘设备上的部署仍然颇具挑战。仅权重量化提供了一种减少LLM内存占用的有前途的解决方案。然而，现有的方法主要集中在整数位量化上，限制了其对分数位量化任务的适应性，并限制了设备上可用存储空间的充分利用。在本文中，我们介绍了通道级混合精度量化（CMPQ），这是一种基于激活分布按通道分配量化精度的新颖混合精度量化方法。通过为不同的权重通道分配不同的精度等级，CMPQ 可以适应任何位宽约束。CMPQ 采用非均匀量化策略，并结合了两种异常值提取技术，协作保存关键信息，从而最小化量化损失。在不同大小的LLM上的实验表明，CMPQ 不仅在整数位量化任务中提高了性能，而且在内存使用量略有增加的情况下实现了显著的性能提升。因此，CMPQ 代表了一种对LLM量化具有适应性和有效性的方法，为各种设备能力提供了巨大的优势。

发布时间: 2/5/2025

查看原文

无信号交叉口的自动驾驶车辆：混合人为-自动驾驶交通的安全性和效率影响

作者: Saeed Rahmani, Zhenlin Xu, Simeon C. Calvert, Bart van Arem

arXiv:2410.12538v2 通告类型: 替换-交叉摘要：自动驾驶车辆（AVs）融入交通系统为提升道路安全和效率带来了前所未有的机遇。然而，理解自动驾驶车辆和人类驾驶车辆（HVs）在同一交叉口的行为互动仍然是一个开放的研究问题。本研究旨在通过利用来自Waymo和Lyft的两大规模自动驾驶车辆数据集，研究自动驾驶车辆和人类驾驶车辆在无信号交叉口的行为差异和适应性，从而弥合这一差距。研究采用系统的方法，通过计算关键的安全性和效率指标，包括碰撞时间（TTC）、后侵入时间（PET）、最大必需减速（MRD）、时间优势（TA）以及速度和加速度轮廓，来识别并分析合并和穿越冲突。研究发现，在混合交通流中存在一个悖论：虽然自动驾驶车辆保持更大的安全距离，但其保守行为可能导致对人类驾驶员来说出乎意料的情况，从而可能造成不安全的条件。从表现角度看，人类驾驶员在与自动驾驶车辆互动时表现出比与其他人类驾驶车辆更具一致性的行为，这表明自动驾驶车辆可能有助于交通流模式的和谐。此外，Waymo和Lyft车辆之间观察到了显著差异，这强调了在交通建模和管理策略中考虑制造商特定的自动驾驶车辆行为的重要性，以确保自动驾驶车辆的安全融合。本研究使用的处理数据集已公开发布，以促进自动驾驶车辆与人类驾驶车辆互动的研究。

发布时间: 2/5/2025

查看原文

_RATE: 奖励模型中不完美反事实的因果可解释性_

作者: David Reber, Sean Richardson, Todd Nief, Cristina Garbacea, Victor Veitch

arXiv:2410.11348v2 宣告类型: 替换交叉摘要：奖励模型在对齐或评估大语言模型（LLM）时，常被用作人类偏好的代理。然而，奖励模型是黑箱模型，通常不清楚它们实际上在奖励什么。在本文中，我们开发了基于重写属性处理估计器（RATE）作为一种有效方法，用于测量奖励模型对响应的高层属性（如情感、有用性或复杂性）的敏感性。重要的是，RATE 测量的是属性对奖励的因果效应。RATE 使用大语言模型（LLM）重写响应，以生成可用于测量因果效应的不完美反事实示例。一个关键挑战在于，这些重写在一定程度上不完美，可能会在估计奖励模型对属性敏感性中引入大量偏差。RATE 的核心思想是通过两次重写来调整这种不完美重写的影响。我们证明了RATE程序的有效性，并且通过实验展示了其作为估计器的有效性。

发布时间: 2/5/2025

查看原文

基于多周期学习的潮流速预测模型

作者: Tengfei Cheng, Yangdi Huang, Yunxuan Dong

arXiv:2410.09718v2 宣告类型: 替换-交叉摘要：潮汐能是提高可再生能源渗透率的关键组成部分之一。潮汐能并入电力电网的程度取决于潮电流速度预测的准确性。潮电流速度预测的准确性受到潮汐建模不准确性的阻碍。此前的研究主要使用物理模型来预测潮电流速。然而，由天体轨道周期引起的潮汐电流变化使得准确的物理建模变得具有挑战性。准确预测潮电流速的关键在于研究潮汐的多周期性。本文中，我们提出了一种小波增强卷积网络（WCN）来学习多周期性。框架将一维潮电流数据内的周期内变化和周期间变化嵌入到二维张量的行和列中，随后采用卷积核对序列的二维变化进行处理。我们还将一种时频分析方法整合进该框架中，以进一步处理局部周期特征。此外，为了增强框架的稳定性，我们利用树结构核估计算法优化了框架的超参数。所提出的框架避免了学习多周期性的不足之处。与基准方法相比，所提框架在10步预测中的平均绝对误差和均方误差最多分别降低了90.36%和97.56%。

发布时间: 2/5/2025

查看原文

SLiM：基于低秩逼近的一次性量化和稀疏性压缩用于LLM权重压缩

作者: Mohammad Mozaffari, Amir Yazdanbakhsh, Maryam Mehri Dehnavi

arXiv:2410.09615v2 通知类型: 替换交叉摘要: 用于大语言模型（LLMs）的传统模型压缩技术解决了高内存消耗和慢推理挑战，但通常需要计算昂贵的重新训练以保持准确性。相比之下，一次压缩方法消除了重新训练的成本，但在实现与稠密模型相媲美的准确性方面存在困难。本文提出了SLIM，这是一种新的一次压缩框架，将硬件友好的量化、稀疏性和低秩逼近整合到一个统一的过程中。首先，我们使用一种概率方法（SLIM-Quant）来制定量化过程，这使我们能够应用均匀量化。然后，我们使用现有的一次压缩方法，在量化权重上应用半结构化稀疏性。最后，为了弥补引入的聚合量化和稀疏性误差，我们使用了一个具有独特可逆和加性特征的新型重要性函数，使我们能够从数学上计算低秩适配器的值。SLIM在2:4稀疏性和4位权重量化下将LLaMA-2-7B模型的准确性提高了多达5.66%，优于先前的方法。使用SLIM压缩的模型在Nvidia RTX3060和A100 GPU上分别实现了最多3.78倍和3.75倍的逐层加速。我们还提出了一个可选的PEFT配方，该配方在无需微调的情况下将LLaMA-2-13B模型的准确性进一步提高了多达1.66%。

发布时间: 2/5/2025

查看原文

基于度分布的脉冲图网络在领域适应中的应用

作者: Yingxu Wang, Mengzhu Wang, Siwei Liu, Nan Yin

arXiv:2410.06883v3 宣告类型: replace-cross 摘要：脉冲图网络（SGNs）因其在图分类中解决能耗挑战的能力而引起了研究人员和工业界的极大关注。然而，SGNs 只适用于同分布数据，无法处理异分布数据。在本文中，我们首先提出了 SGNs 中的领域适应问题，并介绍了一种名为 Degree-aware Spiking Graph Domain Adaptation for Classification（DeSGDA）的新框架。提出的 DeSGDA 从三个方面解决了 SGNs 的领域适应问题：基于节点度的个性化脉冲表示、对抗性特征分布对齐以及伪标签蒸馏。首先，我们引入了一种个性化脉冲表示方法来生成与节点度相关的脉冲信号。具体来说，节点度决定了触发脉冲的阈值，使这种方法能够捕获更多的分类信息。然后，我们提出了一个对抗性训练的图特征分布对齐模块，该模块利用膜电位对抗领域判别器进行训练。这种对齐模块可以在特征分布不一致的情况下高效地保持高性能和低能耗。此外，我们跨两个空间提取一致的预测来创建可靠的伪标签，有效地利用未标记数据以提高分类性能。广泛的基准数据集实验验证了 DeSGDA 在与竞争基线相比的优越性。

发布时间: 2/5/2025

查看原文

$\epsilon$-VAE：去噪作为视觉解码

作者: Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu

arXiv:2410.04081v2 宣布类型: replace-cross 摘要: 在生成模型中，标记化将复杂的数据简化为紧凑的结构化表示，创建一个更高效、可学习的空间。对于高维度的视觉数据，标记化减少冗余并强调关键特征，以实现高质量的生成。当前的视觉标记化方法依赖于传统的自编码器框架，其中编码器将数据压缩为潜在表示，解码器重建原始输入。在本工作中，我们通过提出去噪作为解码，从单步重构转向迭代精炼，提供了一个新的视角。具体来说，我们用一个扩散过程取代解码器，该过程逐步精炼噪声以恢复原始图像，同时由编码器提供的潜在表示进行指导。我们通过评估重构（rFID）和生成质量（FID）来评估我们的方法，并将其与最先进的自编码方法进行比较。通过采用通过扩散实现的迭代重构，我们的自编码器$\epsilon$-VAE实现了高质量的重构，这反过来提高了下游生成质量22%，并提供了2.3倍的推理速度提升。我们希望这项工作能够为结合迭代生成和自编码以提高压缩和生成提供新的见解。

发布时间: 2/5/2025

查看原文