arXiv:2502.04573v1 Announce Type: cross
摘要:我们提出了一种对抗预训练的变压器(APT),它能够在不使用任何真实世界数据集进行预训练的情况下,对表格预测任务执行零样本元学习,扩展了最近Prior-Data Fitted Networks(PFNs)和TabPFN的发展。具体来说,APT是通过对抗合成数据代理进行预训练的,这些代理继续改变其基础数据生成分布,并故意用不同的合成数据集挑战模型。此外,我们提出了一种混合块架构,能够处理任意类别的分类任务,解决了Prior deep tabular zero-shot learners中的类别大小限制——这是其关键弱点之一。在实验中,我们展示了在不筛选数据集特征(如类别数和缺失值数)的情况下,我们的框架在小型分类任务上的性能达到了最先进的水平,同时保持平均运行时间在1秒以内。在分类和回归的常见基准数据集套件中,我们展示了对抗预训练能够提高TabPFN的表现。在我们的分析中,我们证明了对抗合成数据代理能够生成比TabPFN中的普通随机生成器更为多样的数据集合。此外,我们展示了我们的混合块神经网络设计在增强泛化能力和显著加速预训练方面均有显著提升。
arXiv:2502.04563v1 公告类型:交叉
摘要:新兴的人工智能加速器越来越多地采用晶圆级制造技术,在基于网格的架构中集成了数十万个人工智能核心,并配备了大量分布式片上内存(总计数十GB)和超高的片上内存带宽(数十PB/s)。然而,当前针对如GPU这样的共享内存架构进行优化的大语言模型推理系统未能充分利用这些加速器。我们提出了WaferLLM,这是第一个晶圆级大语言模型推理系统。WaferLLM受到一种新颖的PLMR设备模型的指导,该模型捕捉了晶圆级架构的独特硬件特性。利用这一模型,WaferLLM 开创了晶圆级大语言模型并行计算,优化了数十万个人工智能核心的使用。它还引入了MeshGEMM和MeshGEMV,这是第一种能够在晶圆级加速器上有效扩展的GEMM和GEMV实现。评估结果显示,WaferLLM在晶圆级加速器利用方面优于最先进的系统200倍以上。在一款商用的晶圆级加速器上,WaferLLM相比先进GPU,在GEMV方面快了606倍,同时能耗低了22倍。对于大语言模型,WaferLLM能够实现39倍更快的解码,同时能耗效率提高了1.7倍。我们预计随着晶圆级人工智能模型、软件和硬件的继续成熟,这些数字将持续显著增长。
arXiv:2502.04558v1 交叉公告类型
摘要:视觉-语言-行动(VLA)模型通过将视觉和语言输入转化为机器人行动展现出作为通用机器人解决方案的潜力,但由于其黑盒性质和对环境变化的敏感性,缺乏可靠性。相比之下,认知架构(CA)在符号推理和状态监控方面表现出色,但受限于严格的预定义执行。本研究通过探究OpenVLA的隐藏层,以发现对象属性、关系以及行动状态的符号表示,从而使其能够与认知架构整合,增强其可解释性和鲁棒性。通过对LIBERO-空间性的抓取和放置任务的实验,我们分析了OpenVLA llama backbone在不同层面上的符号状态编码。我们的探查结果显示,在大多数层面上,对对象和行动状态的编码准确率均高于0.90,尽管与我们的假设相反,我们并未观察到对象状态早于行动状态被编码的预期模式。我们展示了利用这些符号表示实现的集成DIARC-OpenVLA系统,该系统可以实现实时状态监控,为更可解释和可靠的机器人操作奠定了基础。
arXiv:2502.04556v1 类型: cross
摘要: 大型语言模型(LLMs)在一致生成真实的回答方面known to struggle with(众所周知存在问题)。虽然已经提出了各种表示干预技术,但这些方法通常会对所有输入查询应用一个通用的表示修正向量,这在实际中限制了它们对多样查询的效果。在这项研究中,我们引入了TruthFlow,这是一种新颖的方法,利用Flow Matching技术进行查询特定的真理表示修正。具体而言,TruthFlow首先使用流模型学习查询特定的修正向量,以使表示从幻觉状态过渡到真实的状态。然后,在推理过程中,训练好的流模型生成这些修正向量以增强LLM输出的真实性。实验结果表明,TruthFlow在对各种先进的LLM在TruthfulQA上进行评估的各种开放生成任务中显著提高了性能。此外,训练好的TruthFlow模型表现出很强的迁移性,在其他未见过的幻觉基准测试中表现有效。
arXiv:2502.04531v1 任务类型: 多任务交叉
摘要:在机器人任务中进行物体放置因其几何形状和放置配置的多样性而具有固有的挑战性。为了解决这一问题,我们提出了一种名为AnyPlace的两阶段方法,该方法完全基于合成数据训练,能够预测广泛的真实世界任务中可行的放置姿态。我们的核心洞察是,通过利用视觉语言模型(VLM)识别粗略的放置位置,我们只关注与局部放置相关的区域,这使我们能够训练低层次的放置姿态预测模型,以高效地捕捉各种放置方式。在训练过程中,我们生成了一个完全合成的数据集,其中包括在不同放置配置(插入、堆叠、悬挂)中随机生成的物体,并训练局部放置预测模型。我们在模拟中进行了广泛的评估,结果显示,我们的方法在成功率、可能的放置模式覆盖范围以及精度方面优于基线模型。在现实世界实验中,我们展示了如何直接将仅基于合成数据训练的模型应用于现实世界,其中在具有不同物体几何形状、多种放置模式以及实现精细放置的高精度场景中,我们的方法能够成功执行放置,而其他模型则难以应对。更多详情请参阅:https://any-place.github.io。
arXiv:2502.04522v1 作品类型: 创意公告
摘要:深度学习在各种领域实现了风格迁移的重大进展,为创意内容生成提供了新的可能性。然而,在象征性音乐的领域中,由于数据集有限,尤其是对于爵士乐等流派,针对完整音乐作品生成可控且具有表现力的风格转移仍然具有挑战性。此外,缺乏能够处理多种音乐生成任务的统一模型。本文介绍了基于变压器的ImprovNet架构,该架构通过自我监督的破坏-修复训练策略生成具有表现力和可控性的即兴音乐。ImprovNet将多种能力统一在一个模型中:它可以进行跨流派和同一流派的即兴创作、以流派特定的风格和乐句进行和声处理,并执行简短的提示延伸和填空任务。该模型的迭代生成框架允许用户控制风格转移和与原始作品结构相似度的程度。客观和主观的评估表明,ImprovNet能够在保持与原始作品的结构关系的同时,有效地生成音乐连贯的即兴创作。该模型在短文本延续和填空任务中优于前瞻音乐变换器,并成功实现了可识别的流派转换,79%的参与者能够正确识别爵士风格的即兴创作。我们的代码和演示页面可在https://github.com/keshavbhandari/improvnet 查看。
arXiv:2502.04515v1 交叉公告类型:cross
摘要:医学时间序列在实时医疗系统中起着至关重要的作用,作为监测患者健康状况的重要信息。准确的医学时间序列分类,例如心电图(ECG)信号分类,有助于早期检测和诊断。传统的时间序列分类方法依赖于手工特征提取和统计方法;随着人工智能的不断发展,机器学习和深度学习方法变得更加流行。然而,现有方法往往未能充分建模不同尺度下的复杂空间动态,忽视了动态多分辨率空间和时间联合依赖性。此外,它们不太可能考虑医学时间序列的特殊基线漂移问题以及多视图特性,这大大影响了它们的预测性能。为了解决这些限制,我们提出了一种多分辨率时空图学习框架MedGNN,用于医学时间序列分类。具体而言,我们首先提出构建多分辨率自适应图结构以学习动态多尺度嵌入。然后,为了处理基线漂移问题,我们提出了差异注意力网络,通过在时间模型上应用差分上的自我注意力机制来处理。此外,为了学习多视图特性,我们利用频率卷积网络从频域中捕获医学时间序列的互补信息。此外,我们引入了多分辨率图变换器架构来建模动态依赖关系并融合不同尺度的信息。最后,我们进行了多项医学实际数据集的广泛实验,证明了我们方法的优越性能。我们的代码已公开。
arXiv:2502.04499v1 交叉类型
摘要:知识蒸馏(KD)是一种将大型“教师”模型的知识转移到小型“学生”模型中的流行方法。KD可以分为两类:预测匹配和中间层匹配。我们探讨了一个有趣的现象:在中间层匹配中,层选择策略并不重要(相差不大)。在本文中,我们表明,诸如反向匹配教师的层这样的似乎毫无意义的匹配策略,实际上也能够取得令人惊讶的好学生性能。我们通过从学生视角 observation 观察教师层之间的角度,为这一现象提供了一个解释。
arXiv:2502.04489v1 交叉类型:
摘要:深度学习方法已被广泛用于人体活动识别(HAR),使用安装在人体不同部位的惯性测量单元(IMUs)传感器记录的信号。对于这类HAR,存在多种挑战,其中最显著的是多样的IMU传感器数据的分析。在这里,我们介绍了一种层次无监督融合(HUF)模型,该模型通过卷积神经网络(CNN)和自动编码器(AE)的混合结构从IMU传感器数据中提取和融合特征。首先,我们设计了一种堆叠的CNN-AE结构,将短时信号嵌入高维度特征集。其次,我们开发了另一个CNN-AE网络,以局部融合每个传感器单元提取的特征。最后,我们通过第三个CNN-AE架构实现所有传感器特征的全局特征融合,以创建一个独特的特征集。此外,我们分析了模型超参数变化的影响。结果显示,每个AE中有八个卷积层时,效果最佳。此外,我们确定,在提议的HUF模型的第一个块中,具有256个核的过度完备AE适合于特征提取;而在模型的最后一个块中,该数字减少到64,以调整应用特征的大小以适应分类器。调整后的模型应用于UCI-HAR、DaLiAc和帕金森病步态数据集,分别取得了97%、97%和88%的分类准确率,比最先进的监督方法高出约3%。
arXiv:2502.04488v1 交叉类型公告
摘要:近期大型语言模型的发展表明,通过某些技术手段可以显著提高性能,但这些改进伴随着增加的计算成本和自然语言中固有的偏见传播。本文探讨了一种统一的人工智能为中心的语言系统的设计,该系统通过提供比传统人类语言更简洁、更明确且计算效率更高的替代方案来应对这些挑战。我们分析了自然语言的局限性,如性别偏见、形态不规则性以及语境上的歧义性,并研究了这些问题在当前的Transformer架构中是如何被放大的,因为在这些架构中,冗余注意力头和标记无效率的问题普遍存在。借鉴新兴的人工通讯系统以及 Esperanto 和 Lojban 等构想语言的见解,我们提出了一种框架,它将多种自然语言输入翻译成一种精简的人工智能友好语言,从而实现更高效的模型训练和推断,并减少内存占用。最后,我们概述了一条经过控制实验验证的路径,为人工智能之间和人类与人工智能之间的交互铺平道路,从而提高清晰度、公平性和整体性能。