arXiv 论文列表

作者: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He

arXiv:2503.18892v2 通告类型: replace-cross 摘要:DeepSeek-R1 表明，通过基于规则的奖励的简单强化学习（RL）框架，可以自然地生成长链条思考（CoT）推理，而训练可以从基础模型直接开始，这被称之为零RL训练。最近努力再现零RL训练主要集中在Qwen2.5 模型系列上，这可能并不具有代表性，因为我们发现基础模型已经表现出强烈的操作指令跟随和自我反思能力。在本文中，我们调查了跨越10个不同基础模型的零RL训练，这些基础模型涵盖了不同的家族和规模，包括LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B以及所有从0.5B到32B的Qwen2.5 模型。通过采用几种关键设计策略，如调整格式奖励和控制查询难度，我们在大多数设置中实现了推理准确性和响应长度的重大改进。然而，通过仔细监控训练动力学，我们观察到，不同基础模型在训练过程中表现出不同的模式。例如，响应长度的增加并不总是与某些认知行为（如验证，即“啊哈时刻”）的出现相关。值得注意的是，我们首次在Qwen家族之外的小型模型中观察到“啊哈时刻”。我们分享了能够成功实现零RL训练的关键设计、我们的发现和实践。为了促进进一步的研究，我们开源了代码、模型和分析工具。

发布时间: 5/8/2025

查看原文

LoTUS: 大规模机器遗忘arrings 不确定性的滋味

作者: Christoforos N. Spartalis, Theodoros Semertzidis, Efstratios Gavves, Petros Daras

arXiv:2503.18314v3 宣布类型: replace-cross 摘要: 我们提出了LoTUS，这是一种新颖的机器遗忘（MU）方法，可以消除预训练模型中的训练样本影响，避免从头开始重新训练。LoTUS 将模型的预测概率平滑到信息论上限，减轻其由于数据记忆导致的过度自信。我们在五个公共数据集上对Transformer和ResNet18模型与八种基线进行了评估。除了现有的MU基准之外，我们还在一个大规模数据集ImageNet1k上进行了遗忘评估，其中重新训练是不现实的，以模拟现实世界条件。此外，我们引入了新颖的无重新训练的詹森-沙因 divergence（Retrain-Free Jensen-Shannon Divergence, RF-JSD）度量，以在现实世界条件下进行评估。实验结果表明，LoTUS 在效率和效果上均优于最先进的方法。代码: https://github.com/cspartalis/LoTUS。

发布时间: 5/8/2025

查看原文

Liger：将大型语言模型线性化为门控循环结构

作者: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng

arXiv:2503.01496v2 宣布类型: replace-cross 摘要：具有线性递归建模的Transformer在训练时提供线性时间复杂度，并在推理时提供常数内存。尽管它们在效率和性能方面已经得到了证明，但从头开始预训练这样的非标准架构仍然是昂贵且具有风险的。将大语言模型（LLMs）线性化可以将预训练的标准模型转换为线性递归结构，从而实现更高效的部署。然而，当前的线性化方法通常会引入额外的特征映射模块，这需要大量的微调，并且忽略了最先进的线性递归模型中使用的门控机制。为了解决这些问题，本文提出了一种名为Liger的方法，其含义是线性化LLMs到门控递归结构。Liger是一种新颖的方法，用于将预训练的LLMs转换为门控线性递归模型，而不增加额外的参数。它重新利用预训练的关键矩阵权重来构建各种门控机制，从而促进各种门控递归结构的形成，同时避免从头开始训练额外组件的需求。通过使用低秩适应（LoRA）进行轻量级微调，Liger恢复了线性化门控递归模型的性能，使其与原始LLMs的性能相当。此外，我们引入了Liger Attention，这是一种层内混合注意力机制，在线性化过程中仅使用0.02%的预训练标记即可显著恢复93%的基于Transformer的LLMs的表现，这在多个基准测试中获得了竞争力的结果，验证范围从1B到8B个参数的模型。代码可在 https://github.com/OpenSparseLLMs/Linearization 获取。

发布时间: 5/8/2025

查看原文

基于物理的材质的生成性细节增强

作者: Saeed Hadadan, Benedikt Bitterli, Tizian Zeltner, Jan Nov\'ak, Fabrice Rousselle, Jacob Munkberg, Jon Hasselgren, Bartlomiej Wronski, Matthias Zwicker

arXiv:2502.13994v2 宣告类型: replace-cross 摘要: 我们介绍了一种工具，使用现成的扩散模型和逆渲染来增强基于物理的材料的细节。我们的目标是通过加入磨损的迹象、老化、风化等细节来增强材料的视觉 fidelity，而这些细节往往需要繁琐的手动编写。由于这些外观细节通常根植于现实世界的过程，我们利用经过大量自然图像及其上下文图像训练的生成图像模型。从给定的几何形状、UV映射和基本外观开始，我们渲染对象的多个视图。然后，我们使用这些视图以及一个外观定义的文本提示，来条件化扩散模型。扩散模型生成的细节会被反向传播回逆可微渲染中的材料参数。为了使逆渲染成功，生成的外观在所有图像中必须具有一致性。我们提出了两种先验知识来解决扩散模型的多视图一致性问题。首先，通过从视图独立的UV空间中整合初始噪声，确保扩散过程的初始噪声在所有视图中具有一致性。其次，通过施加投影约束来偏置注意力机制，使像素强烈关注其他视图中对应的像素位置，从而确保几何一致性。我们的方法不需要对扩散模型进行任何训练或微调，也不依赖于使用的材料模型，并且增强的材料属性，例如2D PBR纹理，可以由艺术家进一步编辑。该项目可访问 https://generative-detail.github.io。

发布时间: 5/8/2025

查看原文

使用Logits估算LLM不确定性

作者: Huan Ma, Jingdong Chen, Joey Tianyi Zhou, Guangyu Wang, Changqing Zhang

arXiv:2502.00290v4 宣布类型: replace-cross 摘要：近年来，大型语言模型（LLMs）发展迅速，并在各种领域中得到了广泛应用。然而，LLMs 面临幻觉问题，当模型缺乏相关信息时，可能生成不可靠的回答。为了意识到潜在的幻觉，已经引入了不确定估计方法，并且大多数方法都确认可靠性在于关键令牌。然而，基于概率的方法在识别令牌可靠性方面表现不佳，限制了其实用性。在本文中，我们揭示了基于概率的方法由于在训练阶段丢失了证据强度信息，从而无法估计令牌可靠性。因此，我们提出了一种名为Logits-induced token uncertainty（LogTokU）的框架，用于估计LLMs中解耦的令牌不确定性，使得能够实时进行不确定性估计而无需进行多次采样过程。我们采用证据建模来实现LogTokU，并使用估计的不确定性来指导下游任务。实验结果表明，LogTokU具有显著的有效性和前景。

发布时间: 5/8/2025

查看原文

EcoWeedNet：一种轻量级的可持续下一代农业消费电子自动化杂草检测方法

作者: Omar H. Khater, Abdul Jabbar Siddiqui, M. Shamim Hossain, Aiman El-Maleh

arXiv:2502.00205v2 宣告类型: replace-cross 摘要：可持续农业在确保全球食品安全方面发挥着关键作用。可持续精准农业面临的严峻挑战之一是杂草生长，因为杂草会与农作物争夺必要的资源，如水、土壤养分和光照，这对作物产量影响显著。在精准农业中采用自动化计算机视觉技术和地面农业消费类电子车辆提供了可持续、低碳的解决方案。然而，先前的工作存在准确性、精确性较低以及计算成本高昂等问题。本文提出了一种名为EcoWeedNet的新型模型，该模型在不会引入显著计算复杂性的前提下增强了杂草检测性能，符合低碳农业实践的目标。通过在CottonWeedDet12基准数据集上进行全面实验，表明了提出的模型的有效性，该数据集反映了实际场景。EcoWeedNet的性能与大型模型相当（[email protected] = 95.2%），但参数量显著减少（约为YOLOv4参数量的4.21%），计算复杂性较低且计算效率更高（仅为YOLOv4的6.59%的GFLOPs）。这些关键发现表明EcoWeedNet可以在低功耗消费级硬件上部署，能源消耗较低，从而减少了碳足迹，突显了EcoWeedNet在下一代可持续农业中的应用前景。这些发现为环境友好型农业消费技术的广泛应用提供了方向。

发布时间: 5/8/2025

查看原文

清晰：使用进化学习线索以实现准确识别并应用于可持续性数据提取

作者: Peter J. Bentley, Soo Ling Lim, Fuyuki Ishikawa

arXiv:2501.18504v3 更新类型: 替换-交叉摘要: 大型语言模型 (LLM) 图像识别是提取图像数据的一种强大工具，但准确性依赖于在提示中提供足够的线索——这需要领域专家来进行专门的任务。我们引入了利用进化进行准确识别的线索学习方法 (CLEAR)，该方法结合了 LLMs 和进化计算来生成和优化线索，从而改善图像中特殊特征的识别。通过自动生成一种新的领域特定表示，并利用遗传算法优化合适的文本线索来实现这一点。我们将 CLEAR 应用于识别建筑物内部和外部图像中可持续性数据的实际任务。我们研究了使用可变长度表示与固定长度表示的效果，并展示了如何通过将分类估计重构为实值估计来改进 LLM 的一致性。我们展示了与专家手工识别和提示相比，CLEAR 在每一项任务中都实现了更高的准确性，错误率最多降低了两个数量级，并通过消融研究证明了解决方案的简洁性。

发布时间: 5/8/2025

查看原文

视觉-语言模型的选择与重用以实现下游适应

作者: Hao-Zhe Tan, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo

arXiv:2501.18271v2 宣告类型: 更换交叉摘要：预训练视觉-语言模型（VLMs）在各种视觉任务中越来越受欢迎，且已经发布了多种开源的VLM变体。然而，选择最适合特定下游任务的预训练VLM仍然是有挑战的，因为没有单一的VLM能够在一个任务的所有下游任务中都表现出色，而且由于时间和数据的限制，评估所有可用的VLM是不可能的。为了解决这个问题，本文提出了一种新的范式来选择和重用水的VLM进行下游任务，称为模型标签学习（MLL）。该提议包含三个关键模块：\emph{模型标签化}，它为每个VLM分配标签以描述其专长和实用性；\emph{模型选择}，它将目标任务的需求与模型标签匹配；以及\emph{模型重用}，它以集成的方式应用所选的VLM到目标任务。该提议高度计算效率且可扩展，因为模型标签化过程与目标任务独立，能力可以随着候选VLM的数量增加而增长。我们还介绍了一个新的基准来评估VLM选择方法，包括49个VLM和17个目标任务数据集。实验结果清楚地表明了所提出的方法在选择和重用水的VLM方面的有效性。

发布时间: 5/8/2025

查看原文

SceneLLM：LLM中隐式的语言推理在动态场景图生成中的应用

作者: Hang Zhang, Zhuoling Li, Jun Liu

arXiv:2412.11026v2 更新类型: 交叉替换摘要：动态场景包含复杂的时空信息，对于移动机器人、无人机和自动驾驶系统来说，这些信息对于做出明智的决策至关重要。将这些场景解析为语义三元组<主体-谓词-客体>以实现准确的场景图生成（SGG）具有极高的挑战性，原因在于其时空复杂性的波动性。受大型语言模型（LLMs）推理性能的启发，我们提出了SceneLLM，这是一种全新的框架，利用LLMs作为强大的场景分析器进行动态SGG。我们的框架引入了一个视频到语言（V2L）映射模块，该模块将视频帧转换为语言信号（场景令牌），从而使输入更好地被LLMs理解。为了更好地编码空间信息，我们设计了一个基于汉字结构的空间信息聚合（SIA）方案，将空间数据编码到令牌中。利用最优传输（OT），我们生成了一个隐式的语言信号，该信号从帧级令牌序列中捕获视频的时空信息。为了进一步提高LLMs处理这种隐式语言输入的能力，我们应用了低秩适应（LoRA）对模型进行微调。最后，我们使用基于变换器的SGG预测器来解码LLMs的推理并预测语义三元组。我们的方法在Action Genome（AG）基准测试上取得了最先进的结果，而大量的实验表明，SceneLLM在理解和生成准确的动态场景图方面非常有效。

发布时间: 5/8/2025

查看原文

增强光伏功率预测：基于iTransformer和LSTM的模型，集成时空和协变量交互作用

作者: Guang Wu, Yun Wang, Qian Zhou, Ziyang Zhang

arXiv:2412.02302v2 宣告类型: replace-cross 摘要: 准确的光伏(PV)功率预测对于将可再生能源整合到电网中、优化实时能源管理以及在日益增长的需求下确保能源可靠性至关重要。然而，现有的模型往往难以有效地捕捉目标变量和协变量之间的复杂关系，以及时间动态与多变量数据之间的相互作用，导致预测准确性欠佳。为应对这些挑战，我们提出了一种新型模型架构，利用iTransformer从目标变量中提取特征，并使用长短期记忆网络(LSTM)从协变量中提取特征。集成交叉注意力机制以融合两个模型的输出，随后采用柯尔莫哥洛夫-阿诺尔德网络(KAN)进行增强表示。通过使用澳大利亚公开数据集，并在四个季节中进行实验，验证了所提出模型的有效性。结果表明，所提出模型有效地捕捉了PV功率生成的季节性变化，并提高了预测准确性。

发布时间: 5/8/2025

查看原文