arXiv 论文列表

带有嵌入式多模态感知的高力夹爪及其感知驱动抓取

作者: Edoardo Del Bianco, Davide Torielli, Federico Rollo, Damiano Gasperini, Arturo Laurenzi, Lorenzo Baccelliere, Luca Muratore, Marco Roveri, Nikos G. Tsagarakis

arXiv:2504.04970v1 宣布类型: cross 摘要：现代人形机器人在使用末端执行器执行各种涉及抓取和操作物体的任务方面展现出了令人鼓舞的潜力。然而，在大多数情况下，抓取和操作动作涉及较低到中等负载和交互力。这是由于末端执行器通常会受到限制，其负载能力无法与手臂可触及的负载能力匹配，从而限制了可抓取和操作的负载量。此外，夹持器通常在其硬件中嵌入的感知不足，抓取动作主要由执行抓取和操作任务时手臂运动受到影响的机器人身体中安装的感知传感器驱动。为了解决上述问题，我们开发了一种模块化高抓取力夹持器，该夹持器配备了嵌入式多模态感知功能。所提出的夹持器在紧凑的实施中能够生成110 N的抓取力。高抓取力能力与嵌入式多模态传感相结合，包括手眼相机、飞行时间（ToF）距离传感器、惯性测量单元（IMU）和全向麦克风，允许实现感知驱动的抓取功能。我们通过引入新的评估指标，这些指标是机器人手臂动态运动和夹持器热状态的函数，广泛评估了夹持器的抓取力能力。我们还通过执行感知引导的增强抓取操作来评估嵌入式多模态传感功能。

发布时间: 4/8/2025

查看原文

黄龙洞中的梦境：AI驱动的互动叙事家庭故事讲述与情感反思

作者: Jiayang Huang, Lingjie Li, Kang Zhang, David Yip

arXiv:2504.04968v1 Announce Type: cross 摘要：本文介绍了一项名为《黄龙洞内的梦境》的艺术项目，这是一个由人工智能驱动的互动沉浸式叙事体验。该项目为AI技术、艺术实践和精神分析提供了新的见解。该项目受到实际地理景观和家庭原型的启发，结合了精神分析理论和计算技术，提供了一种对“大他者”的不存在这一概念的艺术回应。叙事内容由一个大型语言模型（LLM）和一个现实的数字角色共同驱动，形成一个虚拟代理YELL。通过与洞穴自动虚拟环境（CAVE）内的对话和探索，观众被邀请解开YELL提出的语言谜题，并帮助他克服生活中的挑战。YELL是以艺术家真实父亲为原型虚构的大他者的化身。通过与这个数字父亲的跨时空互动，该项目试图解构复杂的家庭关系。通过展示“大他者”的不存在，我们旨在强调人际情感的真实性和在家庭动态中通过艺术建立情感连接和理解的重要性。

发布时间: 4/8/2025

查看原文

M-Prometheus：一套开源多语言LLM评判套件

作者: Jos\'e Pombal, Dongkeun Yoon, Patrick Fernandes, Ian Wu, Seungone Kim, Ricardo Rei, Graham Neubig, Andr\'e F. T. Martins

arXiv:2504.04953v1 宣告类型: cross 摘要: 使用语言模型自动评估长文本（LLM-as-a-judge）的使用变得越来越常见，但大多数LLM法官仅针对英语进行了优化，目前文献中有关增强其多语言评估能力的策略研究仍然很少。这导致非英语语言的自动评估方法质量参差不齐，最终阻碍了具有良好多语言能力模型的发展。为弥合这一差距，我们介绍了M-Prometheus，这是一个参数范围从3B到14B的开放权重LLM法官套件，可以提供直接评估和成对比较反馈以评估多语言输出。M-Prometheus模型在涵盖超过20种语言的多语言奖励基准测试中优于最先进的开放源代码LLM法官，在涵盖4种语言对的文学机器翻译（MT）评估中也同样表现出色。此外，M-Prometheus模型可以在解码时显著改善所有3种测试语言生成的输出，展示了其在开发更好多语言模型方面的适用性。最后，通过广泛的删减实验，我们确定了获得有效多语言法官的关键因素，包括选择骨干模型以及使用原生多语言反馈数据而不是翻译数据进行训练。我们发布了我们的模型、训练数据集和代码。

发布时间: 4/8/2025

查看原文

一个量化器就足够了： toward a 轻量级音频编码器

作者: Linwei Zhai, Han Ding, Cui Zhao, fei wang, Ge Wang, Wang Zhi, Wei Xi

arXiv:2504.04949v1 宣告类型: cross 摘要：神经音频编解码器由于其压缩高保真音频并生成可用于下游生成建模任务的离散标记的能力而最近得到了广泛关注。然而，目前领先的方案往往依赖于资源密集型模型和多量化器架构，这导致了显著的计算开销和受限的实际应用性。在本文中，我们提出了一种名为SQCodec的轻量级神经音频编解码器，该编解码器利用单一量化器来解决这些限制。SQCodec探索了简化卷积网络和局部Transformer模块，同时引入了一种名为TConv的新机制，该机制旨在跨多个时间尺度捕捉声学变化，从而在降低模型复杂性的同时提高重建保真度。在各种数据集上的广泛实验表明，SQCodec在音质方面与多量化器基准相当，而其单一量化器设计增强了适应性，并且其轻量级架构将资源消耗降低了十倍之多。源代码可在https://github.com/zhai-lw/SQCodec公开获取。

发布时间: 4/8/2025

查看原文

一只 llama 走进了「酒吧」：多州律师资格考试中高效监督微调的法律推理训练

作者: Rean Fernandes, Andr\'e Biedenkapp, Frank Hutter, Noor Awad

arXiv:2504.04945v1 交叉类型：法律推理摘要：法律推理任务对大型语言模型（LLMs）构成了独特的挑战，因为它们涉及特定领域的知识和推理过程的复杂性。本文研究了较小的语言模型（Llama 2 7B和Llama 3 8B）如何通过使用1,514个多项选择法考试（MBE）问题的有限数据集进行微调，以提高法律问题回答的准确性。我们使用JD Advising提供的2022年MBE问题对该模型进行评估，这是“GPT-4通过法考”研究中使用的相同数据集。我们的方法论包括在7个法律领域中每个领域收集约200个问题。我们使用Llama 3（70B）蒸馏数据集，将其解释转换为结构化的IRAC（问题、规则、应用、结论）格式，作为一种指导性推理过程，以观察其是否能比未经蒸馏的数据集获得更好的性能。我们将未微调的模型与其在不同领域样本大小下进行监督微调（SFT）的对进行比较，以研究准确性和提示遵守方面的效果。我们还分析了监督微调后的选项选择偏差及其缓解措施。此外，我们综合评估了多个变量：提示类型（少量示例 vs 零样本），答案排序（首先选择选项 vs 首先生成解释），响应格式（编号列表 vs Markdown vs JSON），以及不同的解码温度。我们的发现表明，特定领域的SFT有助于某些模型配置在有限的计算资源和相对较小数据集的情况下接近人类基线性能。我们发布了收集的SFT数据集以及针对MBE性能优化的一系列监督微调（SFT）适配器。这为在较小的LLMs中实现有效的法律问题回答设定了实用的资源下界。

发布时间: 4/8/2025

查看原文

自我切换的分类学

作者: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

arXiv:2504.04939v1 Announce Type: cross 摘要：自我转换（自手移交），将物体在两手之间转移，是一项常见但研究不足的双手动作。虽然它有助于复杂任务中的无缝过渡，但其执行策略仍然很大程度上未被探索。在此，我们介绍了首个系统化的自我转换分类法，该分类法源自对21名参与者进行12小时烹饪活动的手动标注。我们的分析揭示，自我转换不仅仅是被动的过渡，而是一项高度协调的动作，涉及双手的预见性调整。作为对人类操作自动化分析的一步，我们进一步演示了使用最先进的视觉语言模型分类自我转换类型的可能性。这些发现为双臂协调提供了新的见解，强调了自我转换在使任务过渡流畅方面的作用——这是适应性双臂机器人的一项关键能力。

发布时间: 4/8/2025

查看原文

RCCFormer：基于Transformer的稳健人群计数网络

作者: Peng Liu, Heng-Chao Li, Sen Lei, Nanqing Liu, Bin Feng, Xiao Wu

arXiv:2504.04935v1 宣布类型: cross 摘要: 人群计数是一项关键的计算机视觉任务，已经成为了人群分析和公共安全管理中的基础技术。然而，规模变化和复杂背景等挑战显著影响了人群计数的准确性。为了解决这些问题，本文提出了一种鲁棒的基于Transformer的人群计数网络，称为RCCFormer，该网络专门设计用于背景抑制和尺度感知。所提出的方法结合了多级特征融合模块(MFFM)，该模块精心地将骨干架构不同阶段提取的特征整合在一起。该方法建立了一个强大的基线，能够捕捉到精细而全面的特征表示，超越了传统的基线方法。此外，引入的Detail-Embedded Attention Block (DEAB) 通过全局自注意力和局部注意力并以可学习的方式进行有效融合，捕捉上下文信息和局部细节。这增强了模型在聚焦前景区域方面的能力，同时有效地减轻了背景噪声干扰。此外，我们开发了一种自适应尺度感知模块(ASAM)，其基础组成部分是我们的新颖输入依赖可变形卷积(IDConv)。该模块能够动态适应头部目标形状和尺度的变化，显着提高了网络适应大尺度变化的能力。所提出方法的有效性已在ShanghaiTech Part_A和Part_B、NWPU-Crowd和QNRF数据集上得到验证。结果表明，我们的RCCFormer在所有四个数据集上都取得了优异的表现，展示了最先进的结果。

发布时间: 4/8/2025

查看原文

用预训练的表格模型增强关系深度学习

作者: Veronica Lachi, Antonio Longa, Beatrice Bevilacqua, Bruno Lepri, Andrea Passerini, Bruno Ribeiro

arXiv:2504.04934v1 类型: cross 摘要: 关系数据库通过主-外键关系组织成表格，是组织数据的一种常见格式。在关系数据上进行预测通常涉及通过表连接和特征工程将它们转换为扁平的表格格式，作为表格方法的输入。然而，设计能够充分捕捉复杂关系模式的特征仍然具有挑战性。图形神经网络(GNNs)提供了一种有吸引力的替代方案，它们本质上能够建模这些关系，但在推断过程中的时间开销限制了它们在实时场景中的应用。在本文中，我们旨在通过利用现有的特征工程努力来弥合这一差距，以提高GNNs在关系数据库中的效率。具体而言，我们利用GNNs来捕获关系数据库中的复杂关系，这些关系难以进行特征化，同时使用工程特征来编码时间信息，从而避免保留整个历史图的需要，并允许使用更小、更高效的数据图。我们的LightRDL方法不仅提高了效率，而且优于现有的模型。在RelBench基准上的实验结果表明，与GNNs相比，我们的框架在性能上可以提高多达33%，并在推断速度上提高526倍，使其非常适用于实时推理。

发布时间: 4/8/2025

查看原文

期望 vs 现实——软件测试中AI adoption的二次研究

作者: Katja Karhu, Jussi Kasurinen, Kari Smolander

arXiv:2504.04921v1 类型:交叉摘要：在软件行业中，人工智能（AI）越来越多地被应用于软件开发活动。在某些活动中，例如编码，AI 已经成为一个日常工具，但在软件测试活动中，AI 尚未取得显著突破。本文旨在识别在软件测试中有关 AI 的现有经验和研究类型，以及 AI 在软件测试实践中如何被采用。为了实现这一目标，我们对2020年及以后有关软件测试中 AI 采用的研究进行了系统的综述研究，并运用主题分析来识别常见主题和类别，如实际使用案例和利益等。观察表明，AI 在软件测试中的应用尚未得到广泛利用，而且在工业背景下针对实际问题进行的有关 AI 在软件测试中采用的研究数量仍然相对较少。早期的研究指出，实际使用案例和实际收益与预期之间存在明显的差距，我们对此进行了进一步分析。虽然有很多潜在的 AI 在软件测试中的使用案例，如测试案例生成、代码分析和智能测试自动化等，但实际实现和观察到的收益却相当有限。此外，系统综述研究揭示了在使用搜索字符串“人工智能”在线数据库搜索时可能存在虚假正相关的潜在问题。

发布时间: 4/8/2025

查看原文

Collab-RAG：通过白盒和黑盒大语言模型协作增强检索增强生成以应对复杂问题回答

作者: Ran Xu, Wenqi Shi, Yuchen Zhuang, Yue Yu, Joyce C. Ho, Haoyu Wang, Carl Yang

arXiv:2504.04915v1 类型: 跨领域摘要: 回忆增强生成（RAG）系统在处理多跳问答任务时经常因为不相关的上下文检索和有限的复杂推理能力而难以准确处理。我们引入了Collab-RAG，这是一种基于白盒小型语言模型（SLM）与黑盒大型语言模型（LLM）之间相互增强的合作训练框架，以改善RAG系统的性能。具体来说，白盒小型语言模型将复杂查询分解为更简单的子问题，从而提高检索的准确性，并使黑盒大型语言模型进行更有效的推理。同时，黑盒大型语言模型提供反馈信号以提升白盒小型语言模型的分解能力。我们观察到，Collab-RAG仅依赖于可负担得起的黑盒大型语言模型的监督，而无需来自前沿大型语言模型的额外蒸馏，并且在多个黑盒大型语言模型上展示了强大的泛化能力。在五个多跳问答数据集上的实验评估表明，Collab-RAG在所有现有仅黑盒模型和SLM微调基线上的平均性能提高幅度为1.8%-14.2%。特别是，我们微调的3亿参数小型语言模型超过了冻结的32亿参数大型语言模型在问题分解方面的表现，突显了Collab-RAG在提高复杂问题的推理和检索方面的能力。Collab-RAG的代码可在https://github.com/ritaranx/Collab-RAG/获得。

发布时间: 4/8/2025

查看原文