arXiv 论文列表

作者: Samuel Bielik, Simon Bilik

arXiv:2504.06099v1 交叉公告类型：摘要：本文专注于通过高光谱成像技术开发和改进蜂巢监测装置和蜜蜂身上 Varroa 寄生虫的检测，利用 U-net、语义分割架构及传统的计算机视觉方法。主要目标是收集蜜蜂和螨虫的数据集，并提出一种计算机视觉模型，以实现蜜蜂和螨虫之间的检测。

发布时间: 4/9/2025

查看原文

实时 LaCAM

作者: Runzhe Liang, Rishi Veerapaneni, Daniel Harabor, Jiaoyang Li, Maxim Likhachev

arXiv:2504.06091v1 类型: cross 摘要：大多数具有完备性保证的多智能体路径规划（MAPF）方法要求规划全程路径。然而，在实际应用中，规划全程路径可能需要花费太长的时间，且不切实际。相反，实时规划和执行方案更为实际，这种方案仅为执行和重新规划留出有限的时间。已有多种方法采用实时规划方案，但没有哪一种是可证明完备的，这会导致活锁或死锁。我们的主要贡献是展示第一个具有可证明完备性保证的实时MAPF方法。我们通过增量使用LaCAM（Okumura 2023）来实现这一点。我们的结果显示，即使在毫秒级别的截止时间下，我们也可以逐步规划拥挤环境的路径，同时仍然保持与全程LaCAM相同的成功率。我们还展示了该方法如何与单步学习得到的MAPF策略结合使用。所提出的实时LaCAM还为我们提供了在未来实时MAPF算法中使用迭代约束以实现完备性的通用机制。

发布时间: 4/9/2025

查看原文

MCAT：基于视觉查询在胎儿超声视频中定位标准解剖剪辑的多层类别意识 tokens 变换器

作者: Divyanshu Mishra, Pramit Saha, He Zhao, Netzahualcoyotl Hernandez-Cruz, Olga Patey, Aris Papageorghiou, J. Alison Noble

arXiv:2504.06088v1 类型: cross 摘要：在胎儿超声（US）视频中准确获取标准平面对胎儿生长评估、异常检测以及遵循临床指南至关重要。然而，手动选择标准帧耗时且易受不同超声医师间的差异影响。现有方法主要依赖基于图像的方法来捕捉标准帧，然后对不同解剖部位的输入帧进行分类。这忽视了视频获取的动态性质及其解释。为了解决这些挑战，我们引入了多级类意识令牌变换器（MCAT），这是一种基于视觉查询的视频剪辑本地化（VQ-VCL）方法，通过使超声医师能够快速获取US波扫，协助超声医师。通过提供他们希望分析的解剖区域的视觉查询，MCAT返回包含该解剖区域的标准帧的视频剪辑，从而促进潜在异常的全面筛查。我们在两个超声视频数据集和基于Ego4D的自然图像VQ-VCL数据集上评估了MCAT。我们的模型在超声数据集上的mIoU上分别优于最先进的方法10%和13%，在Ego4D数据集上的mIoU上优于5.35%的方法，同时使用了96% fewer tokens。MCAT的高效性和准确性在公共卫生领域具有重大潜在影响，特别是在低收入和中等收入国家（LMICs），它可能会通过简化标准平面获取过程、简化基于US的筛查和诊断来增强产前护理，使超声医师能够检查更多患者。

发布时间: 4/9/2025

查看原文

基于文本长度的置信正则化遮蔽语言 modeling

作者: Seunghyun Ji, Soowon Lee

arXiv:2504.06037v1 类型: cross 摘要: 遮蔽语言建模是一种预测输入文本中随机遮蔽的单词的任务，这是高效的语言表示学习方法。遮蔽语言建模忽略了人们能想到的各种用于填补遮蔽位置的单词，并且只计算以单个单词为基础的损失。特别是当输入文本较短时，可以填补遮蔽位置的单词分布的熵会很高。这可能导致模型对唯一的答案过于自信。为了解决这个问题，我们提出了一种新的置信度正则化器，通过输入文本长度动态控制正则化强度。使用 GLUE 和 SQuAD 数据集的实验表明，我们的方法在准确性和预期校准误差方面表现更好。

发布时间: 4/9/2025

查看原文

AI领域恐惧与希望的殿堂：通过互动平台比较AI意见领袖与美国公众的观点

作者: Gustavo Moreira, Edyta Paulina Bogucka, Marios Constantinides, Daniele Quercia

arXiv:2504.06016v1 宣告类型: cross 摘要：人工智能的发展由学术界和行业领袖——我们称他们为“影响者”——所塑造，但他们的观点与公众的观点如何一致尚不明确。为解决这一差距，我们开发了一个交互平台，作为收集公众对人工智能看法的数据工具，包括他们的恐惧、希望以及总体的希望感。我们将该平台提供给330名参与者，这些参与者在年龄、性别、种族和政治倾向方面代表了美国人口，同时我们还将他们的观点与《时代》杂志认定的100名人工智能影响者的观点进行了比较。公众担心人工智能失控，而影响者则强调监管，似乎是为了转移人们对他们可能专注于利用人工智能潜力获利的关注。有趣的是，来自少数群体的影响者，如女性和有色人种，与公众中的少数群体的观点往往存在不同。

发布时间: 4/9/2025

查看原文

Optuna 对比 Code Llama：大规模语言模型是否成为超参数调优的新范式？

作者: Roman Kochnev, Arash Torabi Goodarzi, Zofia Antonina Bentyn, Dmitry Ignatov, Radu Timofte

arXiv:2504.06006v1 交叉公告类型摘要：最优超参数选择对于最大化神经网络性能至关重要，尤其是在模型变得越来越复杂的情况下。本项工作探讨了使用大型语言模型（LLMs）进行超参数优化的可能性，通过应用Code Llama的微调版本来进行。利用LoRA进行参数高效的微调，我们将LLM适应于生成针对不同神经网络架构准确且高效的超参数推荐。与依赖于详尽试验的传统方法（如Optuna）不同，提出的方法在均方根误差（RMSE）方面达到了竞争力甚至更优的结果，同时显著减少了计算开销。本方法突显了基于LLM的优化不仅可以与Tree-structured Parzen Estimators等最先进的方法匹敌，还可以加速调优过程。这将LLMs定位为传统优化技术的一种有前途的替代方案，特别是在快速实验方面。此外，能够一次性推断生成超参数的能力使该方法特别适用于计算效率至关重要的环境，如边缘设备和移动应用。实验结果证实，除了效率之外，LLMs还提供了重要的时间节省和相当的稳定性，突显了其在促进机器学习工作流方面的价值。所有生成的超参数都包含在公开可获取的LEMUR神经网络（NN）数据集中，该数据集作为超参数优化研究的开源基准。

发布时间: 4/9/2025

查看原文

NativQA 框架：赋予大模型本地化、日常生活化的知识能力

作者: Firoj Alam, Md Arid Hasan, Sahinur Rahman Laskar, Mucahid Kutlu, Shammur Absar Chowdhury

arXiv:2504.05995v1 交叉公告类型摘要：大型语言模型（LLMs）的迅速发展引发了关于文化偏见、公平性和其在多元化语言和欠代表性区域背景下的适用性的担忧。为了增强和基准测试LLMs的能力，需要开发专注于多语言、当地和文化背景的大规模资源。在这个研究中，我们提出了一种名为NativQA的框架，该框架能够无缝构建大规模、文化和区域对齐的QA数据集，使用母语。该框架利用用户定义的种子查询并利用搜索引擎收集特定位置的日常信息。该框架在24个国家的39个地点以及7种语言上进行了评估，从极低资源语言到高资源语言不等，总共产生了超过30万对问题-答案（QA）对。开发的资源可用于LLM基准测试和进一步微调。该框架已公开提供给社区（https://gitlab.com/nativqa/nativqa-framework）。

发布时间: 4/9/2025

查看原文

few-shot 动作识别的无需时间对齐视频匹配

作者: SuBeen Lee, WonJun Moon, Hyun Seok Seong, Jae-Pil Heo

arXiv:2504.05956v1 宣告类型: cross 摘要: 少样本动作识别（FSAR）旨在仅使用少量标记的视频实例来训练模型。FSAR 的关键挑战是在精确的视频匹配中处理动作的离散叙事轨迹。尽管帧级和元组级别的对齐方法很有前景，但它们的方法严重依赖于预定义且长度相关的对齐单元（例如帧或元组），这限制了对于不同长度和速度的动作的灵活性。在本文中，我们提出了一种新颖的TEmporal Alignment-free Matching（TEAM）方法，该方法消除了在动作表示和匹配过程中对时间单元的需求以及 brute-force 对齐。具体来说，TEAM 以固定集的模式令牌来表示每个视频，这些令牌捕获视频实例中的全局可区分线索，而不考虑动作的长度或速度，从而确保其灵活性。此外，TEAM 本身是高效的，通过令牌间的比较来度量视频之间的相似性，而非现有的方法依赖于基于时间对齐的成对比较。此外，我们提出了一种适应过程，以识别并去除不同类别之间的共同信息，即使在新颖类别之间也能明确划分边界。广泛的实验表明了TEAM的有效性。代码可在github.com/leesb7426/TEAM获取。

发布时间: 4/9/2025

查看原文

CKGAN：使用特征核积分概率度量训练生成对抗网络

作者: Kuntian Zhang, Simin Yu, Yaoshu Wang, Makoto Onizuka, Chuan Xiao

arXiv:2504.05945v1 Announce Type: cross 摘要：在本文中，我们 propose 了 CKGAN，这是一种基于特征核（characteristic kernel）的积分概率度量框架（CKIPM）的新型生成对抗网络（GAN）变种。CKIPM 作为一种两个概率分布之间的距离，旨在在再生核希尔伯特空间中优化最大均值偏差（MMD）的下界，因此可以用于训练 GANs。CKGAN 通过将生成的图像映射回随机噪声来缓解模式崩溃这一著名问题。为了省去手动选择核函数的努力，我们提出了一种软选择方法，以自动学习一个特征核函数。在一系列合成和真实图像基准（如 MNIST、CelebA 等）上的实验评估表明，CKGAN 通常优于其他基于 MMD 的 GANs。结果还显示，在适度增加训练时间的情况下，自动选择的核函数在真实图像基准上的性能与手动微调的最佳性能相差不大，并且能够提高其他基于 MMD 的 GANs 的性能。

发布时间: 4/9/2025

查看原文

通过数据复杂性发现公平性作为一种早期指标

作者: Juliett Su\'arez Ferreira, Marija Slavkovik, Jorge Casillas

arXiv:2504.05923v1 类别: 交叉学科摘要：公平性是机器学习（ML）应用中的一个关注点。目前，还没有研究探讨分类复杂度在特权和非特权群体之间差异如何影响解决方案的公平性，这可以作为潜在不公平性的一个初步指标。在本文中，我们调查了这一差距，具体来说，我们关注的是设计用于捕捉各种偏差（包括历史偏差、测量偏差和表示偏差）的合成数据集，以评估各种复杂度度量差异与群体公平性度量之间的关联。然后，我们应用关联规则挖掘来识别将群体间不成比例的复杂度差异与与公平性相关的结果联系起来的模式，为偏见缓解提供数据为中心的指标。我们的发现还通过在实际问题中的应用得到了验证，提供了量化群体间分类复杂度可以揭示潜在公平性挑战早期指标的证据。这项调查帮助从业者主动解决分类任务中的偏见问题。

发布时间: 4/9/2025

查看原文