arXiv 论文列表

作者: Heejin Do, Taehee Park, Sangwon Ryu, Gary Geunbae Lee

arXiv:2502.08450v1 交叉提示类型：跨提示摘要：在自动化作文评分（AES）中，最近的努力转向了使用未见过的提示来评分的跨提示设置，以提高其实用适用性。然而，先前使用特定提示的作文-评分对进行训练的方法，在获取通用提示下的作文表示方面面临挑战。在本文中，我们提出了一种语法感知的跨提示特征评分（GAPS），它内部捕捉独立于提示的语法方面，以学习通用的作文表示。我们通过语法错误校正技术获取作文中的语法纠错信息，并设计AES模型使其无缝集成此类信息。通过内部参考校正和原始作文，该模型可以在训练过程中专注于通用特征。实证实验验证了我们方法的泛化能力，显示了在独立于提示和语法相关的特征上显著的改进。此外，GAPS 在最具有挑战性的跨提示场景中实现了显著的QWK提升，突显了其评估未见过的提示的能力。

发布时间: 2/13/2025

查看原文

基于对应关系的视觉运动策略用于实际环境中的灵巧操作

作者: Yankai Fu, Qiuxuan Feng, Ning Chen, Zichen Zhou, Mengzhen Liu, Mingdong Wu, Tianxing Chen, Shanyu Rong, Jiaming Liu, Hao Dong, Shanghang Zhang

arXiv:2502.08449v1 宣告类型: cross 摘要：实现类人的灵巧性是机器人操作领域的一个关键目标。基于3D的模仿学习的最近进展展示了有希望的结果，提供了一条有效的途径来实现这一目标。然而，获得高质量的3D表示存在两个关键问题：（1）单视图相机捕捉的点云质量会受到诸如相机分辨率、定位以及由灵巧手造成的遮挡等因素的显著影响；（2）全局点云缺乏对于精细灵巧操作任务至关重要的接触信息和空间对应关系。为了解决这些限制，我们提出了一种名为CordViP的新框架，该框架通过利用物体和机器人自身感知的鲁棒6D姿态估计来构造和学习对应关系。具体而言，我们首先引入了感知交互的点云，该点云在物体和手中建立了对应关系。这些点云随后用于我们的预训练策略中，我们还在其中整合了以物体为中心的接触图和手-臂协调信息，有效地捕捉了空间和时间动态。我们的方法在四个真实任务中展示了卓越的操作灵巧能力，平均成功率达到了90%，大幅超越了其他基线方法。实验结果还强调了CordViP在不同物体、视角和场景下的优越泛化能力和鲁棒性。代码和视频可在https://aureleopku.github.io/CordViP获取。

发布时间: 2/13/2025

查看原文

更好的嵌入表示与耦合 Adam 方法

作者: Felix Stollenwerk, Tobias Stollenwerk

arXiv:2502.08441v2 宣布类型: 横跨摘要: 尽管大语言模型（LLMs）具备显著的能力，但它们学习的词嵌入表现出难以理解且不受欢迎的各向异性特征。本文中，我们argue认为Adam中的二阶矩是导致各向异性嵌入的原因，并提出了一种修改优化器称为耦合Adam，以缓解该问题。我们的实验表明，耦合Adam显著提高了嵌入的质量，同时还能够在足够大的数据集上实现更好的上流和下游性能。

发布时间: 2/13/2025

查看原文

带有难以命名和复杂交互对象的综合素描+文本查询检索

作者: Prajwal Gatti, Kshitij Parikh, Dhriti Prasanna Paul, Manish Gupta, Anand Mishra

arXiv:2502.08438v1 类型: cross 摘要：非母语使用者尽管能够想象特定物体，但因词汇量有限常常难以命名这些物体，例如澳大利亚之外的人们寻找针甲袋。进一步而言，用户可能希望使用难以勾画的互动方式搜索这些难以命名的物体，例如搜索针甲袋在地面上挖掘的场景。在这些常见但复杂的场景中，用户期望一个接受由难以命名但易于勾画的物体的手绘草图和描述难以勾画但易于描述的物体属性或与场景交互的文本组成的复合多模态查询的搜索界面。这一新颖的问题陈述在很大程度上不同于之前广泛研究的TBIR（基于文本的图像检索）和SBIR（基于草图的图像检索）问题。为了研究这一尚未充分探索的任务，我们收集了一个包含约200万查询和10.8万自然场景图像的数据集，名为CSTBIR（复合草图+文本基于图像检索）。此外，为了解决这个问题，我们提出了一种预训练的多模态变压器基线模型STNET（草图+文本网络），该模型利用手绘草图在自然场景图像中标记相关物体，并结合文本和图像进行图像检索。除了对比学习之外，我们还提出了一系列训练目标，以提高模型的性能。广泛的实验表明，我们提出的方法在文本、草图和复合查询模态的图像检索方面均优于多种现有的先进方法。我们将在项目网站上提供该数据集和代码。

发布时间: 2/13/2025

查看原文

从 haystack 中提取针：零样本分类中的标签空间缩减

作者: Nathan Vandemoortele, Bram Steenwinckel, Femke Ongenae, Sofie Van Hoecke

arXiv:2502.08436v1 宣告类型: cross 摘要: 我们提出了标签空间缩减（Label Space Reduction，LSR），这是一种改进大型语言模型（LLMs）零样本分类性能的新方法。LSR 通过系统地对候选类别进行排名和缩减，逐步细化分类标签空间，从而使模型能够集中处理最相关的选项。利用无标签数据和数据驱动模型的统计学习能力，LSR 在测试时动态优化标签空间表示。我们在七个基准上的实验结果表明，与标准的零样本分类 baseline 相比，LSR 在 Llama-3.1-70B 上将宏观F1分数提高了平均 7.0%（最高 14.2%），在 Claude-3.5-Sonnet 上提高了 3.3%（最高 11.1%）。为了减少 LSR 的计算开销（每次迭代都需要额外的 LLM 调用），我们提出了将模型精简为概率分类器的方法，从而实现高效的推理。

发布时间: 2/13/2025

查看原文

手写文本识别：一个综述

作者: Carlos Garrido-Munoz, Antonio Rios-Vila, Jorge Calvo-Zaragoza

arXiv:2502.08417v1 交叉类型: cross 摘要: 手写文本识别（HTR）已成为模式识别和机器学习中的一个重要领域，其应用范围从历史文档保护到现代数据录入和无障碍解决方案。手写文本识别的复杂性在于手写的高度变异性，这使其开发稳健的识别系统颇具挑战性。本文综述了手写文本识别模型的发展演变，从早期基于启发式的方法到当前最先进的神经网络模型，这些模型利用了深度学习技术。该领域的范围也有所扩展，从最初只能识别单词水平的内容，到最近的端到端文档级别的方法。我们的论文将现有工作按两种主要的识别层次进行分类：(1) \emph{到行级}，包括单词和行的识别；(2) \emph{超出行级}，解决段落级和文档级的挑战。我们提供了一个统一的框架，该框架涵盖了研究方法、最新的基准测试进展、该领域的关键数据集，以及对文献中报告结果的讨论。最后，我们明确了亟待解决的研究挑战，并概述了有希望的未来方向，旨在为研究人员和从业人员提供一个推动该领域发展的路线图。

发布时间: 2/13/2025

查看原文

学习在多种姿态下的人形站立控制

作者: Tao Huang, Junli Ren, Huayi Wang, Zirui Wang, Qingwei Ben, Muning Wen, Xiao Chen, Jianan Li, Jiangmiao Pang

arXiv:2502.08378v1 交叉公告类型: 摘要：站立控制对于类人机器人至关重要，具有与当前的步态和步态操作系统（如摔倒恢复）集成的潜在价值。现有的方法要么局限于忽略硬件限制的仿真，要么依赖于预定义的特定地面运动轨迹，无法在现实场景中实现多种姿态的站立。为了解决这一问题，我们提出了HoST（类人站立控制），这是一种从头学习站立控制的强化学习框架，使站立控制能够在多种姿态下实现稳健的模拟到现实的转移。HoST通过利用多评论家架构和基于课程的训练方法高效地学习适应不同姿态的运动。为了确保现实世界部署的成功，我们通过平滑性正则化和隐式运动速度约束限制运动，分别减轻物理硬件上的振荡和暴力运动。在模拟训练后，学习到的控制策略直接部署在Unitree G1类人机器人上。我们的实验结果表明，这些控制器在广泛实验室和户外环境中实现了平滑、稳定且稳健的站立运动。更多视频请参阅 https://taohuang13.github.io/humanoid-standingup.github.io/。

发布时间: 2/13/2025

查看原文

伪装目标检测中aware于不确定性的-human机协作

作者: Ziyue Yang, Kehan Wang, Yuhang Ming, Yong Peng, Han Yang, Qiong Chen, Wanzeng Kong

arXiv:2502.08373v1 交叉公告类型摘要：伪装目标检测（COD），即识别其环境中隐藏的目标的任务，因其实用性广泛而迅速发展。开发可信赖的COD系统的关键步骤之一是估计和有效利用不确定性。在这项工作中，我们提出了一种人机协作框架，用于分类伪装目标的存在，利用计算机视觉（CV）模型和非侵入性脑机接口（BCIs）的优势互补。我们的方法引入了多视图主干，以估计CV模型预测的不确定性，在训练过程中利用这种不确定性提高效率，并通过基于RSPV的BCIs在测试中将低信心案例移交给人类评估，以进行更可靠决策。我们在CAMO数据集上评估了该框架，与现有方法相比，在准确平衡精度（BA）上实现了平均4.56%的改进，在F1分数上实现了3.66%的改进。对于表现最佳的参与者，分别在BA和F1分数上实现了7.6%和6.66%的改进。对训练过程的分析表明，我们的信心度量与准确度之间存在强烈的相关性，而消融研究证实了所提议的训练策略和人机协作策略的有效性。总体而言，本工作减少了人类的认知负担，提高了系统的可靠性，并为现实世界中COD应用和人机交互的进一步发展提供了坚实的基础。我们的代码和数据可在https://github.com/ziyuey/Uncertainty-aware-human-machine-collaboration-in-camouflaged-object-identification 上获取。

发布时间: 2/13/2025

查看原文

向导原则的多代理任务无关探索

作者: Riccardo Zamboni, Mirco Mutti, Marcello Restelli

arXiv:2502.08365v1 类型: cross 摘要: 在强化学习中，当我们希望在没有访问任务规范先验的情况下探索环境时，我们通常称之为任务无关的探索。在单智能体设置中，该问题已被广泛研究并基本理解。一个流行的方法是将任务无关的目标视为最大化由智能体策略引起的状态分布的熵，从中得出相应的原理和方法。相比之下，在多智能体设置中任务无关的探索知之甚少，而多智能体设置在现实世界中普遍存在。当其他智能体在场时，各个智能体应该如何探索？在这篇论文中，我们通过将最大化状态分布熵的问题扩展到多个智能体的问题来解决这个问题。首先，我们探讨了替代的表述形式，并突出各自的优点和缺点。然后，我们提出了一种可扩展的、去中心化的、信任区域策略搜索算法，以解决实际设置中的问题。最后，我们提供了实验证据的实验，以验证理论发现，并为具有挑战性的多智能体设置中的任务无关探索铺平道路。

发布时间: 2/13/2025

查看原文

Top-Theta 注意机制：通过补偿门限化稀疏化 Transformers

作者: Konstantin Berestizshevsky, Renzo Andri, Lukas Cavigelli

arXiv:2502.08363v1 类别: cross 摘要: 注意机制是基于变压器的巨大语言模型（LLMs）令人印象深刻的性能的关键。然而，由于注意机制对序列长度的二次依赖，计算注意力是计算密集型的。我们提出了一种名为 Top-Theta 注意的新方法，或简称为 Top-$\theta$，该方法通过与精细校准的阈值进行比较，选择性地修剪不太关键的注意元素。这种方法极大地提高了自我注意矩阵乘法的效率，同时保持了模型的准确性，在生成解码阶段将所需的 V 缓存行数量减少了 3 倍，在预填充阶段将注意元素数量减少了 10 倍。我们的方法不需要重新训练模型；相反，它只需要一个简短的校准阶段来应对分布偏移，从而无需根据不同的数据集重新校准阈值。与 top-k 注意不同的是，Top-$\theta$ 消除了全向量依赖，使其适用于分片和横向扩展，并避免了昂贵的 top-k 搜索。我们方法的一个关键创新是发展了有效的数值补偿技术，即使在大幅度修剪注意分数的情况下，也能帮助保持模型的准确性。

发布时间: 2/13/2025

查看原文