arXiv 论文列表

作者: Yongfan Chen, Xiuwen Zhu, Tianyu Li, Hao Chen, Chunhua Shen

arXiv:2502.05503v1 类别: cross 摘要：最近在视频生成模型方面取得的进展表明它们作为世界模拟器的潜力，但它们往往难以处理不符合物理定律的视频，这是大多数文本到视频基准所忽视的关键关注点。我们引入了一个专门用于评估生成视频物理一致性的新基准，PhyCoBench。该基准包含120个提示，涵盖7类物理原理，捕捉视频内容中可观测到的关键物理定律。我们对PhyCoBench上的四种最先进的（SoTA）T2V模型进行了评估，并进行了手动评估。此外，我们还提出了一种自动评估模型：PhyCoPredictor，这是一种在级联方式下生成光学流动和视频帧的扩散模型。通过自动评估和手动排序的一致性评估，实验结果表明PhyCoPredictor目前最接近于人类评估。因此，它可以有效地评估视频的物理一致性，为未来的模型优化提供见解。我们的基准，包括物理一致性提示、自动评估工具PhyCoPredictor和生成的视频数据集，将在不久之后发布在GitHub上。

发布时间: 2/11/2025

查看原文

基于深度学习的视觉-超声机器人系统及其在制造过程中气体和电弧危险检测中的应用

作者: Jin-Hee Lee, Dahyun Nam, Robin Inho Kee, YoungKey Kim, Seok-Jun Buu

arXiv:2502.05500v1 宣告类型: cross 摘要：气体泄漏和电弧放电在工业环境中存在显著风险，需要强大的检测系统以确保安全和操作效率。受人类协议中结合视觉识别与声学验证的启发，本研究提出了一种基于深度学习的机器人系统，用于自主检测和分类制造业环境中的气体泄漏和电弧放电。该系统设计用于完全在机器人上执行所有实验任务。该系统利用一个采样率为96 kHz的112通道声学相机捕捉超声波频率，并在多种工业场景下处理实际数据集。这些数据集包括多种气体泄漏配置（例如，针孔、开口端）和不同类型的部分放电（如电晕、表面、悬浮放电），并在不同的环境噪声条件下进行记录。所提出的系统集成了视觉检测和波束形成增强的声学分析管道。信号通过STFT进行变换，并通过伽马校正进行细化，从而实现稳健的特征提取。一种受Inception启发的CNN进一步分类危害，实现99%的气体泄漏检测准确率。该系统不仅能检测单个危害源，还能通过融合来自视觉和声学传感器的多模态数据提高分类的可靠性。在回声和噪声增强的环境中进行测试时，该系统比传统模型的性能高出44%以上，实验任务精心设计以确保公平性和可重现性。此外，该系统优化了实时部署，保持在移动机器人平台上进行推断的时间为2.1秒。通过模仿人类般的检查协议并整合视觉与声学模态，本研究提供了一种有效的工业自动化解决方案，显著提高了安全性和操作可靠性。

发布时间: 2/11/2025

查看原文

基于神经流表示的斯泰克尔伯格博弈的黎曼流形学习

作者: Larkin Liu, Kashif Rasul, Yutong Chao, Jalal Etesami

arXiv:2502.05498v1 公告类型: cross 摘要: 我们提出了一种新的框架，用于在勒伊伯尔一般和博弈中进行在线学习，其中两名代理，领导者和追随者，进行顺序的轮流互动。该方法的核心是一种学习到的拟微分映射，将联合动作空间映射到光滑的黎曼流形上，称为勒伊伯尔流形。这种映射通过神经归一化流实现，确保形成可处理的共面子空间，从而能够高效地进行在线学习。假设勒伊伯尔流形上代理的奖励函数之间存在线性关系，我们的构建体允许应用标准的多臂赌博机算法。然后，我们为在凸流形上最小化后悔提供了一个严谨的理论基础，并建立了学习勒伊伯尔均衡的有限时间简单后悔有界。将流形学习与博弈论的结合揭示了神经归一化流作为有效的多代理学习工具的未被认识到的潜力。我们展示了与标准基准相比，我们的方法的有效性，应用领域包括网络安全和经济供应链优化。

发布时间: 2/11/2025

查看原文

多尺度掩码自编码器用于心电图异常检测

作者: Ya Zhou, Yujie Yang, Jianhuang Gan, Xiangjie Li, Jing Yuan, Wei Zhao

arXiv:2502.05494v1 类别:交叉学科摘要：心电图（ECG）分析是诊断心血管状况的基本工具，但由于ECG信号固有的复杂性和变异性，ECG信号中的异常检测仍然具有挑战性。我们提出了面向ECG异常检测的多尺度屏蔽自编码器（MMAE-ECG），这是一种新颖的一站式框架，可以有效捕捉ECG数据中的全局和局部依赖关系。与依赖心搏分割或R-峰检测的现有尖端方法不同，MMAE-ECG消除了对这些预处理步骤的需求，提高了其在临床部署中的适用性。MMAE-ECG将ECG信号划分为不重叠的段，每个段分配可学习的位置嵌入。通过一种新颖的多尺度屏蔽策略和多尺度注意力机制，以及不同的位置嵌入，使轻量级的Transformer编码器能够有效地捕捉局部和全局依赖关系。然后使用单层Transformer块重建屏蔽的段，在推理过程中采用聚合策略进一步细化输出。实验结果表明，我们的方法在性能上可与现有尖端方法媲美，同时显著降低了计算复杂度——推理所需的浮点运算（FLOPs）约减少了1/78。进一步的消融研究还验证了每个组件的有效性，突显了多尺度屏蔽自编码器在异常检测方面的潜力。

发布时间: 2/11/2025

查看原文

大型语言模型中情绪推断的机理可解释性

作者: Ala N. Tak, Amin Banayeeanzade, Anahita Bolourani, Mina Kian, Robin Jia, Jonathan Gratch

arXiv:2502.05489v1 声明类型：交叉摘要：大规模语言模型（LLMs）在从文本预测人类情绪方面展现了令人鼓舞的能力。然而，这些模型处理情绪刺激的机制仍然 largely 未被探索。本研究通过探讨自回归 LLM 如何推断情绪，填补了这一空白，表明情绪表示在模型中特定区域具有功能性定位。我们的评估包括了多样化的模型家族和规模，并通过稳健性检查得到了支持。然后，我们通过引用认知评估理论，一种广泛认可的心理框架，表明识别出的表示是心理上合理的，该理论认为情绪源自对环境刺激的评估（认知）。通过在构想出的评估概念上进行因果干预，我们引导生成，并表明生成物与理论及直觉的预期相符。这项工作突显了一种新的因果干预方法，可以精确塑造情绪性文本生成，有可能在敏感的情感领域提高安全性和对齐。

发布时间: 2/11/2025

查看原文

HAMSTER: 开放世界中的分层动作模型用于机器人操作

作者: Yi Li, Yuquan Deng, Jesse Zhang, Joel Jang, Marius Memme, Raymond Yu, Caelan Reed Garrett, Fabio Ramos, Dieter Fox, Anqi Li, Abhishek Gupta, Ankit Goyal

arXiv:2502.05485v1 交叉类型公告摘要：大的基础模型已在视觉和语言方面展示了强健的开放世界泛化能力，解决了复杂的视觉和语言问题，但在机器人领域尚未实现类似的泛化水平。一个根本性的挑战在于缺乏机器人数据，这些数据通常通过昂贵的在机器人上的操作获得。一种有希望的解决方案是利用更便宜的离域数据，如动作无关的视频、手绘草图或模拟数据。在本文中，我们提出，分层视觉-语言-动作（VLA）模型比直接微调视觉-语言模型（VLMs）来预测动作的标准单一模型更有效地利用离域数据。特别是，我们研究了一类分层VLA模型，其中高层的VLM微调以产生指示给定RGB图像和任务描述时所需机器人末端执行器轨迹的粗略2D路径。中层的2D路径预测则作为指导，供低层、具备3D意识的控制策略使用，该策略能够进行精确的操作。这样做可以减轻高层VLM的精细动作预测负担，同时减少低层政策在复杂的任务层面推理方面的负担。我们展示了，通过分层设计，高层的VLM可以在显著的离域数据与实际机器人测试场景之间的域差距内进行学习传输，包括不同体态、动力学、视觉外观和任务语义等方面的差异。在实际机器人实验中，我们观察到在七个不同泛化轴上相对于OpenVLA的成功率平均提高了20%，这相当于相对提高了50%。视觉结果见：https://hamster-robot.github.io

发布时间: 2/11/2025

查看原文

位置：语言模型可以在外语教育中担任良好的导师

作者: Jingheng Ye, Shen Wang, Deqing Zou, Yibo Yan, Kun Wang, Hai-Tao Zheng, Zenglin Xu, Irwin King, Philip S. Yu, Qingsong Wen

arXiv:2502.05467v1 类型: 交叉摘要: 虽然最近的努力已经开始将大型语言模型（LLMs）纳入外语教育（FLE）中，但它们往往依赖于传统的学习任务方法，而未能完全采用教育方法，因此缺乏语言学习的适应性。为了弥补这一差距，我们认为LLMs有潜力在FLE中作为有效的辅导者。具体而言，LLMs可以扮演三个关键角色：（1）作为数据增强器，提高学习材料的创建或充当学生模拟；（2）作为任务预测器，作为学习者评估或优化学习路径；以及（3）作为代理，促进个性化和包容性教育。我们鼓励开展跨学科研究以探索这些角色，促进创新同时解决挑战和风险，最终通过明智地整合LLMs推动FLE的发展。

发布时间: 2/11/2025

查看原文

DCENWCNet：一种基于LIME解释性的深度CNN集成网络用于白血球分类

作者: Sibasish Dhibar

arXiv:2502.05459v1 类型: cross 摘要：白血细胞（WBC）是我们免疫系统的重要组成部分，它们通过消除病毒、细菌、寄生虫和真菌来保护我们的身体免受感染。WBC 类型的数量和总数量提供关于我们健康状况的重要信息。一种传统方法，卷积神经网络（CNN），一种深度学习架构，可以从物体的一部分中分类血液细胞并执行对象识别。各种CNN模型具有潜力；然而，它们的发展通常涉及机制造成的过程，忽视了不必要的层，导致数据集不平衡和数据增强不足的问题。为了解决这些挑战，我们提出了一种新的集成方法，将三种CNN架构结合在一起，每个架构具有不同配置的dropout和最大池化层，以增强特征学习。该集成模型名为DCENWCNet，有效地平衡了偏差-方差交易。在广泛认可的Rabbin-WBC数据集上进行评估时，我们的模型在现有最先进的网络中表现出色，实现了最高的平均准确率。此外，它在所有类别中均在精确度、召回率、F1分数和ROC曲线下的面积（AUC）方面表现出优越性能。为了深入探讨分类器的可解释性，我们采用了可靠的后验解释技术，包括局部可解释的模型无关解释（LIME）。这些方法通过阐明特征值与预测之间的关系来近似黑盒模型的行为。可解释的结果使用户能够理解并验证模型的预测，从而增加了他们对自动化诊断的信心。

发布时间: 2/11/2025

查看原文

ConRFT: 一种通过一致性策略对VLA模型进行强化微调的方法

作者: Yuhui Chen, Shuai Tian, Shugao Liu, Yingting Zhou, Haoran Li, Dongbin Zhao

arXiv:2502.05450v1 类型: cross 摘要：视觉-语言-动作（VLA）模型在实际机器人操作中显示出巨大的潜力。然而，通过监督学习对这些模型进行微调由于数据有限且不一致，尤其是在接触丰富环境中，难以实现稳健的性能。在本文中，我们提出了一种用于VLA模型的强化微调方法，名为ConRFT，它包含一个统一的基于一致性的训练目标的离线和在线微调阶段，以应对这些挑战。在离线阶段，我们的方法结合行为克隆和Q学习，有效地从少量的演示数据中提取策略，并稳定价值估计。在在线阶段，通过一致性策略进一步微调VLA模型，并通过人类干预确保安全探索和高样本效率。我们在八个不同的现实世界操作任务上评估了该方法。在线微调45-90分钟内，平均成功率达到了96.3%，相比之前的监督方法，在成功率上提高了144%，在 episodes 长度上缩短了1.9倍。这项工作强调了将强化学习整合到VLA模型中，以增强其实用型机器人应用中的性能的潜力。

发布时间: 2/11/2025

查看原文

大规模语言模型的迭代加深采样

作者: Weizhe Chen, Sven Koenig, Bistra Dilkina

arXiv:2502.05449v1 类型:交叉摘要:OpenAI的o1模型和其他类似框架的最近发布展示了它们在处理复杂推理任务方面表现出色的能力。受此启发，后续研究揭示了这类测试时的扩展法则依赖于模型在训练过程中既能在单个响应内部（内在响应）搜索，也能在多个响应之间（外在响应）进行搜索的能力。关键在于，模型不仅要选择最优响应，还需要在其自身输出中发展出稳健的自我纠正能力。然而，训练模型以实现有效的自我评估和自我纠正仍然是一个重大挑战，这高度依赖于自我反思数据的质量。在这篇论文中，我们通过专注于提升复杂问题解决中的自我反思数据生成质量来应对这一挑战，从而可以改进下一代大型语言模型（LLMs）的训练。具体来说，我们探讨了如何手动触发模型的自我纠正机制以提高在复杂推理任务上的性能。为此，我们提出了一种新的迭代加深采样算法框架，旨在提升自我纠正并生成更高质量的样本。通过在Math500和AIME基准上的广泛实验，我们展示了我们的方法在困难任务上实现更高的成功率，并提供了详细的消融研究来分析其在不同环境下的有效性。

发布时间: 2/11/2025

查看原文