arXiv 论文列表

作者: Carlos Rodriguez-Pardo, David Pascual-Hernandez, Javier Rodriguez-Vazquez, Jorge Lopez-Moreno, Elena Garces

arXiv:2502.14462v1 类别: cross 摘要：平板扫描仪已 emerged 作为高分辨率单图像材料捕获的有前途的设备。然而，现有方法假设了非常特定的条件，如均匀漫射照明，这些条件只在某些高端设备中可用，从而阻碍了它们的扩展性和成本效益。与此相反，本文介绍了一种受内在图像分解启发的方法，该方法准确地消除了阴影和镜面反射，有效地使得任何平板扫描仪都可以进行捕获。此外，我们在此前单图像材料反射率捕获的基础上，估计了不透明度和透过率，这是完整材料外观（SVBSDF）的关键组成部分，从而提高了通过平板扫描仪捕获任何材料时的结果，分辨率极高且准确性极强。

发布时间: 2/21/2025

查看原文

Llamba：扩展蒸馏递归模型以实现高效的语言处理

作者: Aviv Bick, Tobias Katsch, Nimit Sohoni, Arjun Desai, Albert Gu

arXiv:2502.14458v1 Announce Type: cross 摘要：我们介绍了一种名为Llamba的高效递归语言模型家族，这些模型是从Llama-3.x通过Mamba架构进行提炼得到的。该系列包括Llamba-1B、Llamba-3B和Llamba-8B，这些模型在保持与基于Transformer模型相当的基准性能的同时，实现了更高的推理吞吐量，并能够处理比基于Transformer的模型大得多的批量大小。此外，Llamba展示了MOHAWK（Bick et al., 2024）跨架构提炼的有效性，在类似大小的模型中，它使用不到0.1%的训练数据就达到了这些结果。为了充分利用其效率，我们为诸如智能手机和边缘平台等资源受限的设备提供了Llamba的优化实现，提供了一个具有实践意义且内存高效的Transformer替代方案。总体来说，Llamba改善了速度、内存效率和性能之间的权衡，使高质量的语言模型更具 доступ性。

发布时间: 2/21/2025

查看原文

少看多感：通过运动适应和阻抗控制实现通用 articulated 对象操控的 Sim-to-Real RL 方法

作者: Tan-Dzung Do, Nandiraju Gireesh, Jilong Wang, He Wang

arXiv:2502.14457v1 宣告类型：交叉摘要：与刚体对象操作相比，具转动关节的对象操作提出了一个独特的挑战，因为对象本身代表了一个动态环境。在本项工作中，我们提出了一种新颖的基于强化学习的处理流程，该流程配备了可变阻抗控制和利用观测历史的运动适应，以实现对具转动关节的对象操作的一般化，重点关注零样本模拟到现实世界的平滑和灵巧运动转移。为了缓解模拟到现实世界的差距，我们的处理流程减少了对视觉数据的依赖，不直接将视觉数据特征（RGBD/点云）作为策略输入，而是首先通过现成的模块提取有用的数据。此外，通过利用观测历史来推断对象运动及其内在属性，以及在模拟和现实世界中同时使用阻抗控制，我们体验到了更小的模拟到现实世界的差距。而且，我们开发了一个设计良好的训练环境，具有大量的随机化，并采用了一种专门的奖励系统（任务感知和运动感知），这使多阶段、端到端的操作成为可能，无需启发式运动规划。据我们所知，我们的策略是首次通过各种未见过的对象的广泛实验报告了84%的成功率。

发布时间: 2/21/2025

查看原文

基于AI自主纳米无人机的高效地面-空中害虫控制运输系统

作者: Luca Crupi, Luca Butera, Alberto Ferrante, Alessandro Giusti, Daniele Palossi

arXiv:2502.14455v1 交叉公告类型摘要：高效的作物生产需要早期检测害虫爆发并及时治疗；我们考虑使用多个自主微型无人机（nano-UAVs）队列进行视觉害虫检测，同时使用一辆较慢的重型车辆访问检测到的爆发区域并提供治疗。为了应对nano-UAVs上的极端限制，比如低分辨率传感器和不到100mW的计算能力预算，我们设计、微调并优化了一个微小的基于图像的卷积神经网络（CNN）用于害虫检测。尽管我们的CNN（即，每推理0.58 GOps）在我们的数据集上，在检测有害虫时的平均精度（mAP）得分为0.79，比文献中表现最好的CNN的mAP低14%，但操作次数少32倍。我们的CNN可以在6.8帧/秒的实时速度下运行，每秒需要33 mW的功耗，在 Crazyflie nano-UAV上的GWT GAP9片上系统上进行计算。然后，为了应对现场出乎意料的障碍物，我们利用基于A*算法的全局+局部路径规划器。全局路径规划器确定nano-UAV最优路线以覆盖整个区域，而局部路径规划器在我们的nano-UAV上每秒最多运行50次，通过调整短期内的路线来防止碰撞。最后，通过模拟器中的实验表明，一旦25个nano-UAVs队列已经检查过200x200米的葡萄园，并收集了相关信息，这些信息可以用来规划拖拉机的最佳路径，以便访问所有且仅访问必要的热点位置。在这种情况下，与传统的一辆地面车辆同时进行检查和治疗相比，我们的高效运输系统可以节省最多20小时的工作时间。

发布时间: 2/21/2025

查看原文

PredictaBoard：评估LLM得分可预测性基准

作者: Lorenzo Pacchiardi, Konstantinos Voudouris, Ben Slater, Fernando Mart\'inez-Plumed, Jos\'e Hern\'andez-Orallo, Lexin Zhou, Wout Schellaert

arXiv:2502.14445v1 Announce Type: cross 摘要：尽管大型语言模型（LLMs）拥有令人印象深刻的技能，但在甚至基本常识推理任务中常常表现得不可预测，显示出不一致的成功率。这种不可预测性对确保其实现安全部署构成了重大挑战，因为在使用过程中识别并操作一个可靠的“安全区”是至关重要的，以最小化风险。为了解决这一问题，我们提出了PredictaBoard，这是一种新颖的协作基准测试框架，旨在评估评分预测器（称为评估器）的能力，即从现有数据集中预测LLM在特定任务实例（即提示）上可能出现的错误。PredictaBoard通过考虑不同容忍错误率下的拒绝率来评估LLM对评估器的配对。因此，PredictaBoard促进了更优评估器的研究和使LLM更具可预测性，而不仅仅是提高平均性能。我们使用基线评估器和最先进的LLM进行了说明性实验。PredictaBoard强调了在评估性能的同时评估可预测性的重要性，为一种更安全的AI系统铺平了道路，在这种系统中，不仅会最小化错误，还会准确预测并有效缓解错误。我们的基准测试代码可以在https://github.com/Kinds-of-Intelligence-CFI/PredictaBoard找到。

发布时间: 2/21/2025

查看原文

随机共振提高了深度学习模型中低对比度图像的检测能力

作者: Siegfried Ludwig

arXiv:2502.14442v1 Announce Type: cross 摘要：随机共振描述了噪声在某些类型系统中提高微弱信号可检测性的用途。它在自然界和工程环境中已被广泛观察到，但在基于速率的神经网络进行图像分类中的应用尚未得到广泛研究。在此次分析中，对一个简单的LSTM循环神经网络进行了训练，用于数字识别和分类。在测试阶段，通过降低图像对比度到达模型无法识别刺激存在的程度。在此过程中添加受控噪声以部分恢复分类性能。结果显示，基于速率的循环神经网络中存在随机共振现象。

发布时间: 2/21/2025

查看原文

自我监督的迁移学习中的分布匹配

作者: Yuling Jiao, Wensen Ma, Defeng Sun, Hansheng Wang, Yang Wang

arXiv:2502.14424v1 类型:横跨领域摘要: 在本文中，我们提出了一种新颖的自监督迁移学习方法，称为分布匹配（DM），该方法通过使表示分布朝向一个预定义的参考分布发展，同时保持增强不变性。DM的设计产生了一个直观结构化的学习表示空间，并提供了易于解释的超参数。在多个实际数据集和评价指标上的实验结果表明，DM在目标分类任务上的表现与现有的自监督迁移学习方法相当。此外，我们为DM提供了稳健的理论保证，包括人口定理和端到端样本定理。人口定理填补了自监督学习任务与目标分类准确性之间的差距，而样本定理表明，在目标领域样本数量有限的情况下，只要未标记样本数量足够大，DM仍能实现卓越的分类性能。

发布时间: 2/21/2025

查看原文

深度学习空谱分类器的可靠解释性在自主驾驶中改进语义分割的应用

作者: Jon Guti\'errez-Zaballa, Koldo Basterretxea, Javier Echanobe

arXiv:2502.14416v1 Announce Type: cross 摘要：将高光谱成像（HSI）与深度神经网络（DNNs）结合，可以通过结合光谱和空间信息来加强智能视觉系统的准确性，这对于自动驾驶中的语义分割等任务是有用的。为了推进此类安全性关键系统的研究，确定光谱信息对复杂DNNs输出的精确贡献是必要的。为了解决这一问题，已经提出了诸如类别激活映射（CAM）等几种显著性方法，主要用于图像分类。然而，近期的研究对它们的可靠性提出了质疑。在本文中，我们解决了这些问题的局限性，并通过利用相关DNN层提供的激活数据和权重，提出了一种新的方法，以更好地捕获输入特征与预测之间的关系。本研究旨在评估HSI相比三通道和单通道DNNs的优越性能。我们还讨论了光谱签名归一化对增强DNN在真实驾驶条件下的鲁棒性的影响。

发布时间: 2/21/2025

查看原文

S*: 测试时缩放用于代码生成

作者: Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica

arXiv:2502.14382v1 对话类型：跨域摘要：增加LLM的测试时计算量在各个领域都显示出前景，但在代码生成方面仍然未得到充分探索，尽管在数学方面进行了广泛的研究。在本文中，我们提出了S*，这是第一个混合测试时缩放框架，显著提高了生成代码的覆盖率和选择准确性。S*通过结合顺序缩放扩展了现有的并行缩放范式，以推动性能边界。它进一步利用了一种新颖的选择机制，该机制能够自适应地为成对比较生成区分性输入，并结合执行导向的信息以稳健地识别正确解。我们在12个大型语言模型和大型推理模型上进行了评估，显示：(1) S*在不同模型家族和规模上一致地提高了性能，使3B模型能够优于GPT-4o-mini；(2) S*使非推理模型超越了推理模型——使用S*的GPT-4o-mini在LiveCodeBench上比o1-preview高出3.7%；(3) S*进一步提高了最先进的推理模型——使用S*的DeepSeek-R1-Distill-Qwen-32B在LiveCodeBench上取得了85.7%的成绩，接近o1 (高)的88.5%。代码可在https://github.com/NovaSky-AI/SkyThought 下获得。

发布时间: 2/21/2025

查看原文

亲和度与多样性：通过内部表示统一的示范选择度量标准

作者: Mariko Kato, Hakaze Cho, Yoshihiro Sakai, Naoya Inoue

arXiv:2502.14380v1 类型: cross 摘要：In-Context Learning (ICL) 的性能对所选示例的高度敏感。现有的示范选择方法优化不同的目标，导致不一致的结果。为了解决这一问题，我们提出了一种统一的度量标准——亲和性和多样性，该标准利用了ICL模型的内部表示。我们的实验表明，亲和性和多样性与测试准确性之间存在强烈的关联，这表明它们对于示范选择的有效性。此外，我们展示了我们提出的度量标准与各种先前工作很好地一致，以统一不一致性。

发布时间: 2/21/2025

查看原文