arXiv 论文列表

作者: Chih-Chia Hsu, Tian-Sheuan Chang

arXiv:2503.20245v1 宣布类型: 跨域摘要：由于其高计算复杂性和内存带宽要求，基于深度学习的超分辨率（SR）在资源受限的边缘设备上实现对于全高清以上的分辨率具有挑战性。本文介绍了一种支持边缘选择性动态输入处理的8K@30FPS SR加速器。动态处理根据简单的输入边缘标准选择不同的子网，实现了50%的MAC减少，仅降低了0.1dB的PSNR。即使在资源受限的情况下，通过资源自适应模型切换保证并最大化了重建图像的质量。结合硬件特定的改进，模型大小减少了84%至51K，但PSNR降低了不到0.6dB。此外，为了支持高利用率的动态处理，该设计集成了与结构友好融合块协同工作的可配置层映射组，实现了77%的硬件利用率和高达79%的特征SRAM访问减少。使用TSMC 28nm工艺的实现，在800MHz的频率下可以实现8K@30FPS的吞吐量，门计数为2749K，功耗为0.2075W，并且具有4797Mpixels/J的能量效率，超越了先前的工作。

发布时间: 3/27/2025

查看原文

LGR: LLM引导的前端排序对象目标导航

作者: Mitsuaki Uno, Kanji Tanaka, Daiki Iwata, Yudai Noda, Shoya Miyazaki, Kouki Terashima

arXiv:2503.20241v1 宣布类型: cross 摘要: 物体目标导航（OGN）是机器人和人工智能的基本任务，具有移动机器人图像数据库（MRID）等关键应用。特别是，在未知或动态环境中，无图表示的OGN是必不可少的。本研究旨在通过利用大型语言模型（LLMs）的常识推理能力，增强近期的模块化无图表示OGN系统。具体而言，我们通过将其构架为前沿排名问题来解决基于前沿的探索中确定访问顺序的挑战。我们的方法基于最近的研究发现，尽管LLMs无法确定前沿的绝对值，但在单张视图图像的上下文中评估多个前沿的相对价值方面表现出色。我们通过动态管理前沿列表，利用LLM作为排名模型来添加和删除元素。排名结果以互惠排名向量表示，这非常适合多视图、多查询信息融合。我们通过在Habitat-Sim中的评估验证了我们方法的有效性。

发布时间: 3/27/2025

查看原文

数据分析师的动态学习与 productivity：一个贝叶斯隐马尔可夫模型视角

作者: Yue Yin

arXiv:2503.20233v1 宣言类型：交叉摘要：数据分析师在组织中至关重要，他们将原始数据转化为洞察，从而推动决策制定和战略发展。本研究探讨了分析师在其协作平台上的生产力如何演变，重点关注两种关键的学习活动：编写查询和查看同侪查询。传统研究通常假设静态模型，在这种模型中，性能随着累积学习的进行而稳步提高，但这些模型未能捕捉到现实世界学习的动态性。为解决这一问题，我们提出了一种隐马尔可夫模型（HMM），用于跟踪分析师在其参与这些活动过程中在不同学习状态之间的转换情况。本研究使用包含2,001名分析师和79,797个查询的行业数据集，识别出三种学习状态：新手、中等水平和高级。随着分析师的进步到更高的状态，生产力增加，反映出学习所带来的累积收益。编写查询对所有状态的分析师都有帮助，新手获得的收益最大。查看同侪查询支持新手，但在较高状态的分析师中可能会造成认知负担或效能下降。不同状态之间的过渡也是不均衡的，从中等水平到高级的过渡尤为具有挑战性。本研究深入理解了知识工作者的动态学习行为，并为系统设计、优化培训、促进个性化学习和促进有效知识共享提供了实际意义。

发布时间: 3/27/2025

查看原文

TikTok上算法内容放大的动态分析

作者: Fabian Baumann, Nipun Arora, Iyad Rahwan, Agnieszka Czaplicka

arXiv:2503.20231v1 公告类型: cross 摘要: 智能算法越来越多地塑造我们在网络上遇到和互动的内容。TikTok 的为你推荐流体现了极端的算法驱动内容筛选，几乎是根据用户的显性和隐性与平台的互动来定制视频内容的流。尽管越来越多地受到关注，TikTok 上内容放大的动态仍然很大程度上无法量化。TikTok 的算法在多大程度上以及多快的速度放大与用户兴趣相符的内容？为了回答这些问题，我们进行了木偶审计，部署了具有不同兴趣的机器人来与TikTok的“为你推荐”流互动。我们的研究发现，与机器人兴趣相符的内容经历了强烈的放大，通常在首200个视频观看后就会快速加强。虽然所有兴趣的兴趣相符内容都表现出放大效应，但其强度会因兴趣而异，表明出现了主题特定的偏差。时间序列分析和马尔可夫模型揭示了推荐动态的不同阶段，包括内容持续加强和内容多样性的逐渐减少。尽管TikTok的算法在一定程度上保留了内容多样性，但我们发现放大效应与探索之间的负相关性很强：随着与兴趣相符内容的放大增加，对未见过的标签的参与度下降。这些发现为数字时代社会算法反馈循环的讨论做出了贡献，并探讨了个性化与内容多样性的权衡。

发布时间: 3/27/2025

查看原文

TraNCE: 变换非线性概念解释器 for CNNs

作者: Ugochukwu Ejike Akpudo, Yongsheng Gao, Jun Zhou, Andrew Lewis

arXiv:2503.20230v1 公告类型: cross 摘要: 卷积神经网络(CNNs)在各种计算机视觉任务中取得了显著的成功。然而，它们本质上并不是可解释的。虽然基于特征的 CNN 理解揭示了模型关注的位置，但基于概念的解释方法提供了模型所见的见解。然而，它们关于图像激活的线性重构假设未能捕捉这些激活之间的复杂关系。它们用于评估全局解释的忠实性度量方法也提出了一个新问题。首次，我们通过引入新颖的Transformative 非线性概念解释器(TraNCE)来解决这些问题，适用于 CNNs。与现有方法中做出的线性重构假设不同，TraNCE 能够捕捉激活之间的复杂关系。这项研究在 CNN 解释文献中提出了三个原始贡献：（i）基于变分自编码器（VAE）的自动概念发现机制。这一变革性概念发现过程增强了从图像激活中识别有意义概念的能力。（ii）一个利用球贝塞尔函数的可视化模块，以平滑过渡原型图像像素，不仅揭示了 CNN 所见，还揭示了 CNN 所避免的内容，从而缓解了之前工作记录的概念重复挑战。（iii）一个全新的度量标准，即 Faith 分数，结合 Coherence 和 Fidelity，进行全面评估解释器的忠实性和一致性。

发布时间: 3/27/2025

查看原文

自然语言处理的进步：探索基于Transformer结构的文本理解

作者: Tianhao Wu, Yu Wang, Ngoc Quach

arXiv:2503.20227v1 Announce Type: cross 摘要：自然语言处理 (NLP) 随着基于变换器的架构的出现经历了一场变革，这些架构大大增强了机器理解并生成类似人类文本的能力。本文探讨了变换器模型的发展，如 BERT 和 GPT，重点在于它们在文本理解任务中的优越表现，相比于传统的递归神经网络（RNN）方法。通过对统计属性进行可视化分析，包括文本长度分布的概率密度函数和特征空间分类，研究突显了这些模型在处理长程依赖性、适应条件变化以及在分类中提取特征方面的熟练程度，即使类别之间存在重叠也是如此。结合2024年最新的研究，包括多跳知识图谱推理和上下文感知聊天交互的改进，本文概述了一种涉及数据准备、模型选择、预训练、微调和评估的方法。结果表明，在 GLUE 和 SQuAD 等基准测试上表现出一流的性能，F1 分数超过90%，尽管高计算成本仍然是一个挑战。本文强调了变换器在现代 NLP 中的关键作用，并提出了未来的研究方向，包括效率优化和多模态集成，以进一步推进基于语言的人工智能系统。

发布时间: 3/27/2025

查看原文

从单次示范学习适应性灵巧抓取

作者: Liangzhi Shi, Yulin Liu, Lingqi Zeng, Bo Ai, Zhengdong Hong, Hao Su

arXiv:2503.20208v1 宣告类型：交叉摘要：机器人如何高效地学习灵巧的抓取技能，并基于用户的指示进行适应性应用？本工作克服了两个关键挑战：从有限的人类演示中高效地习得技能和基于上下文进行技能选择。我们引入了AdaDexGrasp框架，从每个技能仅一个人类演示中学习一组抓取技能，并通过视图语言模型（VLM）选择最合适的技能。为了提高采样效率，我们提出了轨迹跟随奖励，引导强化学习（RL）朝向接近人类演示的状态，并允许探索灵活性。为了超越单一演示，我们采用了课程学习法，逐步增加物体姿态的变化以提高鲁棒性。在部署时，VLM 根据用户的指示检索合适的技能，将低级学习的技能与高级意图连接起来。我们在仿真和实际环境中评估了AdaDexGrasp，在各种物体配置中展示了我们的方法显著提高了RL的效率，并使机器人能够学习类似人类的抓取策略。最后，我们展示了我们的学习策略在实际环境中对PSYONIC Ability Hand的零样本迁移，成功率高达90%，显著优于基线。

发布时间: 3/27/2025

查看原文

广义相位压力控制增强的强化学习traffic信号控制

作者: Xiao-Cheng Liao, Yi Mei, Mengjie Zhang, Xiang-Ling Chen

arXiv:2503.20205v1 宣布类型: cross 摘要：适当的交通状态表示对于学习交通信号控制策略至关重要。然而，目前大多数交通状态表示都是基于启发式设计，缺乏足够的理论支持。在本文中，我们（1）开发了一种灵活、高效且具有理论依据的方法，即广义相位压力（G2P）控制，该方法仅考虑简单的车道特征来决定哪个相位需要执行；（2）基于排队理论，将压力控制理论扩展到基于多同质车道道路网络的一般形式；（3）设计了一种新的交通状态表示，基于G2P控制的广义相位状态特征；（4）通过将广义相位状态表示与MPLight和CoLight两种性能良好的基于强化学习（RL）的交通信号控制策略学习方法相结合，开发了一种基于RL的算法模板G2P-XLight，以及两种新的RL算法G2P-MPLight和G2P-CoLight。在多个真实世界数据集上的广泛实验表明，G2P控制在交通运输领域优于当前最先进的启发式方法和其他最近的人工设计启发式方法；而新提出的G2P-XLight显著优于最先进的基于学习的方法。我们的代码已在线提供。

发布时间: 3/27/2025

查看原文

SARGes: 语义对齐可靠手势生成 via 意图链

作者: Nan Gao, Yihua Bao, Dongdong Weng, Jiayi Zhao, Jia Li, Yan Zhou, Pengfei Wan, Di Zhang

arXiv:2503.20202v1 类型: cross 摘要：共时言语手势生成通过言语同步的手势合成提高了人机交互的逼真度。然而，生成语义有意义的手势仍然是一个具有挑战性的问题。我们提出了一种名为SARGes的新框架，该框架利用大规模语言模型（LLMs）解析言语内容并生成可靠的语义手势标签，进而指导有意义的共时言语手势的合成。首先，我们构建了一个全面的共时言语手势目录，并开发了一种基于LLM的意图链推理机制，该机制系统地将手势语义分解为结构化的推理步骤，遵循目录标准，有效引导LLMs生成上下文感知的手势标签。随后，我们构建了一个带有意图链注释的文本到手势标签数据集，并训练了一个轻量级的手势标签生成模型，该模型随后指导生成可信且语义一致的共时言语手势。实验结果表明，SARGes实现了高度语义对齐的手势标（准确率为50.2%）以及高效的单次推理（0.4秒）。所提出的方法为语义手势合成提供了一个可解释的意图推理路径。

发布时间: 3/27/2025

查看原文

评估SAM在无人机图像树冠实例分割中的性能

作者: M\'elisande Teng, Arthur Ouaknine, Etienne Lalibert\'e, Yoshua Bengio, David Rolnick, Hugo Larochelle

arXiv:2503.20199v1 宣告类型: cross 摘要：造林作为自然气候解决方案的潜力往往被树木种植项目监测不足所忽视。当前的监测方法需要逐个物种手动测量树木，这需要大量的人力、时间和成本。无人机遥感和计算机视觉的进步为从航拍图像中绘制和表征树木提供了巨大的潜力，特别是对于有限标注数据来说，预训练的视觉模型如 Segment Anything Model (SAM) 可能是一个特别有吸引力的选择。在本文中，我们比较了 SAM 方法在高分辨率无人机图像中自动树冠实例分割任务中的应用。我们探讨了 SAM 用于此任务的潜力，发现即使使用精心设计的提示，直接使用 SAM 的方法也未能超越自定义的 Mask R-CNN，但进一步调整 SAM 的方法仍有潜力。我们还展示了通过将 Digital Surface Model (DSM) 信息作为输入可以提高预测结果。

发布时间: 3/27/2025

查看原文