arXiv 论文列表

作者: David Kinney

arXiv:2505.08829v2 宣告类型: replace-cross 摘要：一个输出关于世界状态预测的算法几乎总是会以显式或隐式的目标来设计，即产生准确的预测（即，可能会是真实的预测）。此外，由于近期人工智能革命带来的越来越强大的预测算法的发展，人们越来越强调构建公平的预测算法，也就是说，其预测不应系统地表现出偏见或对某些个体或群体造成伤害。这种现状提出了两个概念性的挑战。首先，准确性和公平性的目标有时会存在一定的张力，在它们出现时，没有明显的原则指导如何在处理这些要权衡的因素。其次，衡量预测算法的准确性和公平性有多种不同的方式；同样，也没有明显的原则指导如何将不同准确性和公平性的衡量标准对各种满足这些标准的预测算法进行综合。本文的目标就是通过表明使用准确性和公平性度量的线性组合来测量对准确性和公平性都关心的代理人的预测算法的整体价值有充分的理由，从而解决这些挑战。我的论证关键依赖于偏好聚合文献中Harsanyi的经典结果。在进行这一形式论证后，我将我的结果应用于Angwin等人编译的COMPAS数据集，进行准确性和公平性权衡分析。

发布时间: 5/16/2025

查看原文

基于自交特征的脉冲神经网络及其在高效少样本学习中的应用

作者: Qi Xu, Junyang Zhu, Dongdong Zhou, Hao Chen, Yang Liu, Jiangrong Shen, Qiang Zhang

arXiv:2505.07921v2 宣布类型: replace-cross 摘要: 深度神经网络（DNNs）在计算机视觉任务中表现出色，特别是在少样本学习（FSL）中，这在从有限的示例中泛化方面越来越重要。然而，DNNs在实际世界中具有计算成本高且可扩展性问题。基于事件驱动的特性和低能耗的神经形态网络（SNNs）特别适合处理稀疏和动态数据，尽管它们仍然难以捕捉到复杂的时空特征并进行准确的跨类别比较。为了进一步提高SNN在少样本学习中的性能和效率，我们提出了一种基于SNN的少样本学习框架，该框架结合了一个自我特征提取模块和一个跨特征对比模块，以细化特征表示并降低能耗。我们应用了时间高效训练损失与InfoNCE损失的组合来优化尖峰 trains 的时间动态并增强判别能力。实验结果显示，所提出的FSL-SNN在神经形态数据集N-Omniglot上显著提高了分类性能，并在CUB和miniImageNet等静态数据集上以较低的能耗实现了与其他神经网络相当的性能。

发布时间: 5/16/2025

查看原文

图神经网络与MSO

作者: Veeti Ahvonen, Damian Heiman, Antti Kuusisto

arXiv:2505.07816v2 宣布类型: replace-cross 摘要: 我们给出了一个替代证明，证明了使用实数工作的递归图神经网络在限制于一阶逻辑 MSO 方面与分级模子替换 calculus 具有相同的表达能力。该证明基于构建分布式自动机，这些自动机可以捕获树上所有由 MSO 定义的节点属性。我们还考虑了一些接受条件的变体。

发布时间: 5/16/2025

查看原文

预训练自回归扩散变换器生成模型

作者: Yuan Zhang, Jiacheng Jiang, Guoqing Ma, Zhiying Lu, Haoyang Huang, Jianlong Yuan, Nan Duan

arXiv:2505.07344v2 发布类型: replace-cross 摘要: 在这项工作中，我们提出了GPDiT，这是一种生成预训练自回归扩散变换器，它在连续的潜在空间内统一了扩散模型和自回归模型的优势，用于长程视频合成。GPDiT 不是预测离散的标记，而是使用扩散损失自回归地预测未来的潜在帧，从而能够在帧间建模自然的运动动态和语义一致性。这种连续的自回归框架不仅提高了生成质量，还赋予模型表示能力。此外，我们引入了一种轻量级的因果注意力变体和一种基于旋转的时间条件机制，这两种机制分别提高了训练和推理的效率。广泛的实验证明，GPDiT 在视频生成质量、视频表示能力和少样本学习任务中表现出色，突显了其作为连续空间中视频建模的有效框架的潜力。

发布时间: 5/16/2025

查看原文

SAS-Bench：评估大型语言模型短答评分的一项细粒度基准测试

作者: Peichao Lai, Kexuan Zhang, Yi Lin, Linyihan Zhang, Feiyang Ye, Jinhao Yan, Yanwei Xu, Conghui He, Yilei Wang, Wentao Zhang, Bin Cui

arXiv:2505.07247v2 公告类型: 替换-交叉摘要：主观答案评分（SAG）在教育、标准化测试和自动化评估系统中起着重要作用，特别是在短答案评分（SAS）中评估简答题方面。然而，现有的方法往往会产生粗粒度的评分，缺乏详细的解释。尽管大型语言模型（LLMs）已表现出作为零样本评估者的潜力，但它们仍然容易受到偏见的影响，评分与人类判断的一致性较差，以及评分决策的不透明性。为了克服这些限制，我们引入了SAS-Bench，这是一个专门为基于LLM的SAS任务设计的基准。SAS-Bench提供了细粒度的、逐步的评分，由专家注释的错误类别，以及来自实际主题特定考试的一系列多样化的问题类型。该基准有助于详细评估模型的推理过程和解释性。我们还开源了一个包含1030个问题和4109个学生回答的数据集，每个问题都由领域专家注释。此外，我们对各种LLM进行了全面实验，识别出了评分科学相关问题的主要挑战，并强调了少样本提示在提高评分准确性方面的作用。我们的工作提供了有关开发更稳健、公平且教育上意义更大的基于LLM的评估系统的有价值见解。

发布时间: 5/16/2025

查看原文

面向用户的中医中心交互式医疗图像分割在VR中辅以辅助AI代理

作者: Pascal Spiegler, Arash Harirpoush, Yiming Xiao

arXiv:2505.07214v2 宣告类型: 替换交叉摘要：在疾病分析和手术规划中至关重要的手动分割体医学扫描（例如MRI、CT）是费时的、容易出错的且难以掌握的，而全自动算法可以从用户反馈中受益。因此，结合最新的放射学AI基础模型和虚拟现实（VR）直观的数据交互的力量，我们提出了SAMIRA，这是一种新的对话式AI代理，它通过VR帮助用户定位、分割和可视化3D医学概念。通过基于声音的交互，该代理帮助用户理解放射学特征、定位临床目标，并生成可以通过少量点提示进行细化的分割掩码。该系统还支持以真实比例可视化分割病理，从而增强针对特定患者的解剖理解。此外，为了在沉浸式、人机交互的工作流中确定近-远注意力切换下优化分割掩码的交互模式，我们比较了VR控制器指点、头部指点和眼动追踪作为输入模式。通过用户研究，评估结果显示了极高的可用性评分（SUS=90.0±9.0）、较低的整体任务负载，以及对所提议的VR系统指导、培训潜力以及将AI集成到放射学分割任务中的强有力支持。

发布时间: 5/16/2025

查看原文

面向视觉异常检测的高效压缩以实现可扩展的物联网部署

作者: Arianna Stropeni, Francesco Borsatti, Manuel Barusco, Davide Dalle Pezze, Marco Fabris, Gian Antonio Susto

arXiv:2505.07119v2 宣告类型: replace-cross 摘要：视觉异常检测（VAD）是工业设置中的关键任务，其中降低运营成本是必要的。在物联网（IoT）环境中部署深度学习模型会因其边缘设备的计算能力和带宽有限而带来特定的挑战。本研究旨在通过利用紧凑高效的处理策略，在这些限制条件下有效执行VAD。我们评估了几种数据压缩技术，考察了系统延迟和检测精度之间的权衡。在MVTec AD基准上的实验表明，与未压缩的数据相比，可以实现显著的压缩，同时在异常检测性能上损失较小。当前结果表明，包括边缘处理、传输和服务器计算在内的端到端推理时间最多可减少80%。

发布时间: 5/16/2025

查看原文

X-Sim: 跨身躯学习通过现实到模拟再到现实

作者: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury

arXiv:2505.07096v2 Announce Type: replace-cross 摘要：人类视频为训练机器人操作策略提供了一种可扩展的方法，但缺乏标准模仿学习算法所需的动作标签。现有的跨体态方法试图将人类动作映射到机器人动作，但在体态差异显著时往往失败。我们提出 X-Sim，一个从真实到模拟再到真实的框架，该框架使用物体运动作为密集且可转移的信号来学习机器人策略。X-Sim 首先从 RGBD 人类视频重构一个照片级真实的模拟，并跟踪物体轨迹来定义以物体为中心的奖励。这些奖励用于在模拟中训练强化学习（RL）策略。然后，使用不同视角和光照渲染的合成卷积将学到的策略提炼为条件扩散策略。为了在现实世界中传输，X-Sim 引入了一种在线领域适应技术，在部署期间对真实和模拟观测进行对齐。重要的是，X-Sim 不需要任何机器人远程操作数据。我们在 2 个环境中的 5 个操作任务上评估了它，并且结果显示：（1）X-Sim 在平均上比手部追踪和模拟到现实的基线提高了 30% 的任务进度；（2）其数据收集时间减少了 10 倍，但行为克隆效果相当；（3）能够适应新的摄像头视角和测试时的变化。代码和视频可在 https://portal-cornell.github.io/X-Sim/ 上获得。

发布时间: 5/16/2025

查看原文

UniVLA：学习在任何地方进行任务导向的潜在动作执行

作者: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li

arXiv:2505.06111v2 宣告类型: replace-cross 摘要：通用机器人应该在各种环境中有效地执行任务。然而，现有的大多数方法严重依赖于扩展带有动作注释的数据来增强其能力。因此，它们通常仅限于单个物理规格，并且在不同实体和环境之间学习可转移的知识方面遇到了困难。为应对这些限制，我们提出了UniVLA，这是一种新的框架，用于学习跨实体的 vision-language-action (VLA) 策略。我们的关键创新在于从视频中使用潜在动作模型推导出以任务为中心的动作表示，这使我们能够利用广泛存在各种实体和视角下的数据。为了减轻与任务无关的动力学的影响，我们引入了语言指令，并在DINO特征空间内建立了潜在动作模型。从互联网规模的视频中学习到的通用策略，可以通过高效的潜在动作解码部署到各种机器人上。我们在多个操作和导航基准测试以及实际机器人部署中取得了最先进的成果。UniVLA 在预训练计算量不到1/20 和下游数据量不到1/10 的情况下，实现了优于OpenVLA 的性能。通过引入异质数据，甚至是包含人类视频的数据，持续观察到性能的提升。结果表明，UniVLA 有可能促进可扩展和高效的机器人策略学习。

发布时间: 5/16/2025

查看原文

评估Tenstorrent的RISC-V矩阵乘法加速能力

作者: Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini

arXiv:2505.06085v2 通告类型: replace-cross 摘要：随着大型语言模型（LLMs）服务对生成式AI的需求不断增加，对专门硬件架构的需求也增加了，这些架构可以优化计算效率和能源消耗。本文评估了Tenstorrent Grayskull e75 RISC-V加速器在降低数值精度下的基本线性代数内核性能，这是LLMs计算中的一个基本操作。我们详细介绍了Grayskull的执行模型、网格大小、矩阵维度、数据格式以及数值精度对计算效率的影响。此外，我们将Grayskull的性能与具有张量加速的最新架构进行了比较，包括Intel Sapphire Rapids处理器和两个NVIDIA GPU（V100和A100）。尽管NVIDIA GPU在原始性能上占据主导地位，但Grayskull在功耗和计算吞吐量之间的竞争性权衡中表现出色，其BF16峰值性能达到1.55 TFLOPs/Watt。

发布时间: 5/16/2025

查看原文