arXiv 论文列表

AlphaZero-Edu: 让每个人都能接触的AlphaZero

作者: Binjie Guo, Hanyu Zheng, Guowei Su, Ru Zhang, Haohan Jiang, Xurong Lin, Hongyan Wei, Aisheng Mo, Jie Li, Zhiyuan Qian, Zhuhao Zhang, Xiaoyuan Cheng

arXiv:2504.14636v1 公告类型: cross 摘要：近年来，强化学习取得了显著进步，特别是以Zero-like范式为代表的进展极大地提升了大型语言模型的一般化和推理能力。然而，现有的框架往往存在高实现复杂性和较差的可重现性。为了解决这些问题，我们提出了基于AlphaZero数学框架构建的AlphaZero-Edu，这是一种轻量级、以教育为导向的实现。它具有模块化的架构，将关键组件分离，从而实现算法过程的透明可视化。此外，它还针对单个NVIDIA RTX 3090 GPU进行了资源高效训练，并具备高度并行化的自我对弈数据生成功能，在8个进程下实现了3.2倍的速度提升。在五子棋比赛中，该框架展示了出色的性能，与人类对手的对战中保持了稳定的高胜率。AlphaZero-Edu已经在https://github.com/StarLight1212/AlphaZero_Edu上开源，为学术研究和工业应用提供了可访问且实用的基准。

发布时间: 4/22/2025

查看原文

向最优电路生成迈进：多智能体协作与集体智能的结合

作者: Haiyan Qin, Jiahao Feng, Xiaotong Feng, Wei W. Xing, Wang Kang

arXiv:2504.14625v1 类型: cross 摘要: 大型语言模型（LLMs）已经改变了代码生成，但在硬件设计中的应用却产生了比人类设计高达38%至1075%的门电路计数。我们提出了CircuitMind，这是一种通过三种关键创新实现人类竞争力效率的多代理框架：语法规锁（将生成限制为基本逻辑门），检索增强生成（实现知识驱动设计），以及双奖励优化（在正确性与效率之间平衡）。为了评估我们的方法，我们引入了TC-Bench，这是第一个利用图灵完整生态系统中集体智慧的门级基准——一个具有成千上万参与者的竞争性电路设计平台。实验结果显示，CircuitMind使55.6%的模型实现能够匹配或超过顶级人类专家的综合效率指标。最令人瞩目的是，我们的框架将14B Phi-4模型提升到同时超越GPT-4o mini和Gemini 2.0 Flash，实现了与顶级人类专家前25%相当的效率，而无需专门训练。这些创新为协作人工智能系统利用集体人类专业知识实现最佳电路设计的新型硬件优化范例奠定了基础。我们的模型、数据和代码在https://github.com/BUAA-CLab/CircuitMind 开放源代码。

发布时间: 4/22/2025

查看原文

VM-BHINet：Vision Mamba 双手手部交互网络，用于从单张RGB图像恢复三维交互手形网格

作者: Han Bi, Ge Yu, Yu He, Wenzhuo Liu, Zijie Zheng

arXiv:2504.14618v1 Announce Type: cross 摘要：理解双手交互对于现实的3D姿态和形状重建至关重要。然而，现有的方法在处理遮挡、模糊外观和计算效率低下方面存在困难。为了应对这些挑战，我们提出了Vision Mamba Bimanual Hand Interaction Network (VM-BHINet)，将状态空间模型（SSMs）引入手部重建，以增强交互建模并提高计算效率。核心组件Vision Mamba Interaction Feature Extraction Block (VM-IFEBlock)结合了SSMs与局部和全局特征操作，使对手部交互有深入的理解。在InterHand2.6M数据集上的实验表明，VM-BHINet在Mean per-joint position error (MPJPE)和Mean per-vertex position error (MPVPE)上分别降低了2-3%，显著超过了当前最先进的方法。

发布时间: 4/22/2025

查看原文

K2MUSE：在多种条件下的人类下肢多模态数据集，以促进康复机器人技术

作者: Jiwei Li, Bi Zhang, Xiaowei Tan, Wanxin Chen, Zhaoyuan Liu, Juanjuan Zhang, Weiguang Huo, Jian Huang, Lianqing Liu, Xingang Zhao

arXiv:2504.14602v1 交叉公告类型摘要：下肢康复机器人的自然交互和控制性能与各种人类步行活动的生物力学信息密切相关。多维度的人体运动数据显著加深了对调控神经肌肉改变的复杂机制的理解，从而促进了康复机器人的开发和在多方面的现实环境中的应用。然而，目前可用的下肢数据集无法提供有效数据驱动方法所需的重要多模态数据和大规模步态样本，并且忽略了实际应用中获取干扰的显著影响。为填补这一空白，我们介绍了K2MUSE数据集，该数据集包含一个全面的多模态数据集合，包括运动学、动力学、幅度模式超声波(AUS)和表面肌电图(sEMG)测量。所提出的数据集包括30名健康受试者在不同坡度（0°，±5°和±10°）、不同速度（0.5 m/s，1.0 m/s和1.5 m/s）及不同非理想采集条件下（肌肉疲劳、电极移位和日间差异）的下肢多模态数据。通过使用Vicon运动捕捉系统和嵌入力板的仪器踏板收集运动学和地面反应力数据，而sEMG和AUS数据则同步记录在双侧下肢的十三块肌肉上。该数据集为设计康复机器人控制框架和对下肢步行的生物力学分析提供了新的资源。数据集可通过https://k2muse.github.io/获取。

发布时间: 4/22/2025

查看原文

健康精灵：通过知识图谱和大规模语言模型赋能用户健康饮食指导

作者: Fan Gao, Xinjie Zhao, Ding Xia, Zhongyi Zhou, Rui Yang, Jinghui Lu, Hang Jiang, Chanjun Park, Irene Li

arXiv:2504.14594v1 交叉公告类型摘要：寻求饮食建议往往需要在处理复杂的专业知识的同时考虑个人健康状况。知识图谱（KGs）提供结构化和可解释的营养信息，而大规模语言模型（LLMs）自然地促进了对话推荐的交付。本文中，我们介绍了HealthGenie，这是一个交互系统，它将LLMs和KGs的优势结合起来，提供了个性化的饮食建议，并通过层次信息可视化提供了快速而直观的概览。当接收到用户查询时，HealthGenie会执行查询细化并从预先构建的KG中检索相关的信息。然后，系统会可视化并突出显示按定义类别组织的相关信息，同时提供详细的、可解释的推荐理由。用户可以通过互动调整这些建议以进一步定制。我们的评估包括一项有控制的实验和开放式讨论，证明HealthGenie有效地支持用户根据其健康状况获得个性化的饮食建议，同时减少了互动努力和认知负担。这些发现突显了LLM-KG集成在通过可解释和可视化信息支持决策方面的潜力。我们通过N=12的有控制实验研究了该系统的有用性和有效性，并为未来结合对话LLM和KG的系统提供了设计考虑。

发布时间: 4/22/2025

查看原文

Phoenix：一种基于运动的 SELF-REFLECTION 框架，用于精细粒度的机器人动作纠正

作者: Wenke Xia, Ruoxuan Feng, Dong Wang, Di Hu

arXiv:2504.14588v1 类型: cross 摘要: 为机器人从故障中恢复建立一个可推广的自我纠正系统是至关重要的。尽管在多模态大型语言模型(MLLMs)方面取得了进展，这些模型赋予了机器人语义反思能力以应对故障，但将语义反思转化为如何修正细粒度的机器人动作仍然是一个重大挑战。为了解决这一缺口，我们构建了Phoenix框架，该框架利用运动指令作为桥梁，将高层语义反思与低层机器人动作修正连接起来。在这种基于运动的自我反思框架中，我们首先通过MLLMs引入了一种双过程运动调整机制，将语义反思转化为粗粒度的运动指令调整。为了利用这种运动指令来指导如何修正细粒度的机器人动作，我们提出了一种多任务运动条件扩散策略，将其与视觉观察相结合，以实现高频率的机器人动作修正。通过将这两个模型结合起来，我们可以将对低层操作策略的泛化能力需求转移到由MLLMs驱动的运动调整模型上，并促进精确的细粒度机器人动作修正。利用此框架，我们进一步开发了一种终身学习方法，以自动提高模型能力，从动态环境中的交互体验中提升。在RoboMimic模拟和真实世界场景中的实验证明了我们的框架在各种操作任务中具有出色的泛化能力和鲁棒性。我们的代码可以在 \href{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework} 获取。

发布时间: 4/22/2025

查看原文

跨模态注意力驱动的模态选择与技能分割

作者: Jiawei Jiang, Kei Ota, Devesh K. Jha, Asako Kanezaki

arXiv:2504.14573v1 交叉类型：跨模态摘要：将触觉和音频等额外的感觉模态整合到基础的机器人模型中，在维度灾难的作用下面临着重大挑战。本文通过模态选择来应对这一问题。我们提出了一种跨模态注意力（CMA）机制，以识别并在每个时间步长中选择性地利用对动作生成最具信息性的模态。此外，我们将CMA的应用扩展到了从专家演示中分割基础技能，并利用这种分割来训练一个层次化的策略，该策略能够解决长期规划且接触频繁的操作任务。

发布时间: 4/22/2025

查看原文

NoWag：一种用于大型语言模型形状保持压缩的一体化框架

作者: Lawrence Liu, Inesh Chakrabarti, Yixiao Li, Mengdi Wang, Tuo Zhao, Lin F. Yang

arXiv:2504.14569v1 任务类型: 交叉摘要: 大型语言模型（LLMs）在各种自然语言处理任务上表现出色，但它们面临着巨大的计算和内存需求，限制了它们在资源受限环境中的部署。为了解决这一挑战，我们提出了NoWag：一种统一的零样本形状保留压缩算法框架。我们使用两种流行的形状保留压缩形式对Llama-2 7B/13B/70B和Llama-3 8/70BB模型进行了压缩，分别是NoWag-VQ（NoWag的向量量化版本）和NoWag-P（NoWag的剪枝版本）。我们发现NoWag-VQ在零样本向量量化方面显著优于现有最佳方法，而NoWag-P与现有最佳方法竞争。这些结果表明这些压缩范式的共同点，这可能会启发未来的相关工作。我们的代码可在https://github.com/LawrenceRLiu/NoWag获取。

发布时间: 4/22/2025

查看原文

基于自适应混合推理模型的高效Verilog代码生成

作者: Haiyan Qin, Zhiwei Xie, Jingjing Li, Liangchen Li, Xiaotong Feng, Junzhan Liu, Wang Kang

arXiv:2504.14560v1 宣布类型: cross 摘要：大规模语言模型（LLMs）在提高Verilog代码生成方面取得了显著进展，但在数据质量、推理能力和计算效率方面仍面临挑战。本文提出了一种名为ReasoningV的新模型，该模型采用了一种结合训练内在能力与动态推理适应的混合推理策略，用于Verilog代码生成。我们的框架引入了三项互补的创新：（1）ReasoningV-5K，一个包含5,000个功能验证实例的高质量数据集，这些实例通过多维过滤PyraNet样本生成推理路径；（2）结合参数高效微调基础知识与全参数优化增强推理的两阶段训练方法；以及（3）一种自适应推理机制，可根据问题复杂性动态调整推理深度，最多可减少75%的token消耗，同时保持性能。实验结果表明，ReasoningV在VerilogEval-human上的pass@1准确率为57.8%，实现了与领先商用模型Gemini-2.0-flash（59.5%）相当的表现，并比之前的最佳开源模型高出10.4个百分点。ReasoningV为提高AI驱动的硬件设计自动化提供了更可靠且可访问的路径，我们的模型、数据和代码可在https://github.com/BUAA-CLab/ReasoningV获取。

发布时间: 4/22/2025

查看原文

VGNC: 通过验证引导的高斯数字控制减少稀疏视图3DGS的过拟合

作者: Lifeng Lin, Rongfeng Lu, Quan Chen, Haofan Ren, Ming Lu, Yaoqi Sun, Chenggang Yan, Anke Xue

arXiv:2504.14548v1 交叉类型: cross 摘要: 稀疏视图三维重建是实际三维重建应用中一个基础但具有挑战性的任务。近年来，基于3D高斯点云化(3DGS)框架的许多方法已经被提出，以解决稀疏视图三维重建问题。尽管这些方法已经取得了显著的进步，但仍表现出严重的过拟合问题。为了减少过拟合，我们引入了VGNC，一种基于生成新颖视图合成(NVS)模型的新颖验证引导高斯数目控制(VGNC)方法。据我们所知，这是首次尝试通过生成验证图像来缓解稀疏视图3DGS的过拟合问题。具体内容如下：首先，我们提出了一种基于生成性NVS模型的验证图像生成方法。然后，我们提出了一种高斯数目控制策略，利用生成的验证图像来确定最佳的高斯数目，从而减少过拟合问题。我们在各种稀疏视图3DGS基准和数据集上进行了详细的实验，以评估VGNC的有效性。广泛的实验表明，我们的方法不仅能减少过拟合，还能在减少高斯点数量的同时提高测试集上的渲染质量。这减少了存储需求，并加速了训练和渲染。我们的代码将被发布。

发布时间: 4/22/2025

查看原文