arXiv 论文列表

作者: Tristan Shah, Noam Smilovich, Samer Gerges, Feruza Amirkulova, Stas Tiomkin

arXiv:2502.08784v1 类型: cross 摘要：近年来，机器人学、控制和机器学习的进步促进了物体操作这一极具挑战性的领域的进展。这些进步包括利用深度神经网络来表示机器人传感器部分观测到的动力学特性，以及使用稀疏控制信号进行有效的控制。在本文中，我们探索了一个更一般的问题：通过能够通过空间上稀疏的执行器影响声波的机器人操控声波的问题。该问题在设计新型人工材料、超声切割工具、能量收集以及其他应用方面具有巨大的潜力。我们开发了一种高效的基于数据的机器人学习方法，可根据所需任务是集中散射的声能于指定区域还是抑制它而适用。所提出的用于动态系统（这些系统由偏微分方程描述）操控的基于学习的方法在解的质量和计算复杂性方面优于最先进的方法。此外，在展示的任务中，我们提出的方法与声学研究中的经典半解析方法具有竞争力。我们已将项目代码和一个包含视频演示的网页公开：https://gladisor.github.io/waves/。

发布时间: 2/14/2025

查看原文

探索在3D超声波成像中胎儿脑部次皮层分割的测试时自适应方法

作者: Joshua Omolegan, Pak Hei Yeung, Madeleine K. Wyburd, Linde Hesse, Monique Haak, Intergrowth-21st Consortium, Ana I. L. Namburete, Nicola K. Dinsdale

arXiv:2502.08774v1 宣传类型: cross 摘要: 在超声图像(US)中监测胎儿大脑次皮质区域的生长可以帮助识别异常发育的存在。手动分割这些区域是一项具有挑战性的任务，但最近的研究表明，可以通过深度学习实现自动化。然而，将预训练模型应用于未见过的手动生成的US体积时，由于获取和对齐的巨大差异，往往会导致性能下降。在本文中，我们首先证明测试时自适应(TTA)可以用来在真实和模拟域移位的同时提高模型性能。我们进一步提出了一种新颖的TTA方法，通过将规范解剖图作为先验信息纳入其中。在各种类型的域移位存在的情况下，我们对不同TTA方法的性能进行了基准测试，并展示了我们提出的改进带来的提高，这可能进一步促进胎儿大脑发育的自动化监测。我们的代码可在 https://github.com/joshuaomolegan/TTA-for-3D-Fetal-Subcortical-Segmentation 获取。

发布时间: 2/14/2025

查看原文

聚类并预测潜在片段以改进遮蔽图像建模

作者: Timoth\'ee Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski

arXiv:2502.08769v1 Announce Type: 交叉摘要：掩码图像建模（MIM）提供了一种有潜力的方法来进行自我监督表示学习，然而现有的MIM模型仍然落后于当前最佳水平。在本文中，我们系统地分析了目标表示、损失函数和架构，引入了一种新型纯MIM框架——CAPI，该框架依赖于对潜在聚类的预测。我们的方法利用了基于聚类的损失函数，该损失函数易于训练且表现出优越的扩展性。我们的ViT-L主干和CAPI在ImageNet上实现了83.8%的准确率，在ADE20K上实现了32.1%的mIoU，仅使用简单的线性探针，显著优于之前的MIM方法，并接近当前最佳水平DINOv2的表现。我们发布了所有代码和模型。

发布时间: 2/14/2025

查看原文

SelfElicit: 你的语言模型秘密知道哪些是相关证据

作者: Zhining Liu, Rana Ali Amjad, Ravinarayana Adkathimar, Tianxin Wei, Hanghang Tong

arXiv:2502.08767v1 类型: cross 摘要：向语言模型（LMs）提供相关证据（通过检索或用户提供的证据）可以在上下文中显著提高它们提供事实准确且具有一致性的回答的能力。然而，最近的研究发现，LMs 在理解并利用上下文中的关键证据方面遇到了困难，尤其是在包含噪声和无关信息的情况下，而这种问题在现实世界中很常见。为了解决这个问题，我们提出了 SelfElicit，这是一种在推理时帮助LMs集中关注关键上下文证据的方法，通过自我引导的明确强调。通过利用LMs较深层的注意力分数来发挥其固有的证据查找能力，我们的方法可以自动识别并强调输入上下文中的关键证据，从而在无需额外训练或迭代提示的情况下促进更准确和具有一致性的回答。我们展示了 SelfElicit 在多种基于证据的问答任务中为各种LM家族带来了一致且显著的改进，同时保持了计算效率。我们的代码和文档可在 https://github.com/ZhiningLiu1998/SelfElicit 获取。

发布时间: 2/14/2025

查看原文

HistoSmith：通过条件潜扩散进行单阶段组织学图像标签生成以增强细胞分割和分类

作者: Valentina Vadori, Jean-Marie Gra\"ic, Antonella Peruffo, Livio Finos, Ujwala Kiran Chaudhari, Enrico Grisan

arXiv:2502.08754v1 类型: cross 摘要：细胞实例的精确分割和分类对于分析组织微环境在组织学图像中的重要性、支持医学诊断、预后、治疗规划以及大脑细胞建筑的研究至关重要。然而，创建用于训练的高质量标注数据集仍然是一个主要挑战。本研究介绍了一种新颖的一阶段方法（HistoSmith），用于生成图像-标签对以扩充组织学数据集。不同于当前最先进的方法，这些方法使用分别用于标签和图像生成的扩散模型，我们的方法采用潜在扩散模型来学习细胞布局、分类掩码和组织学图像的联合分布。该模型可以通过条件参数（如细胞类型、数量和组织类型）进行定制化数据生成。在Conic H&E组织病理学数据集和Nissl染色CytoDArk0数据集上进行训练后，该模型生成了逼真且多样的标注样本。实验结果表明，在Conic数据集中的未被充分代表的细胞类型（如中性粒细胞）的细胞实例分割和分类方面有所改进。这些发现突显了我们方法解决数据稀缺挑战的潜力。

发布时间: 2/14/2025

查看原文

可扩展的离散扩散采样器：组合优化与统计物理学

作者: Sebastian Sanokowski, Wilhelm Berghammer, Martin Ennemoser, Haoyu Peter Wang, Sepp Hochreiter, Sebastian Lehner

arXiv:2502.08696v1 交叉公告类型摘要：从复杂非规范分布中对离散域进行采样已成为统计物理、变分推断和组合优化领域的一个有前景的研究方向。最近的工作展示了在该领域中扩散模型的潜力。然而，现有的方法在内存扩展方面存在限制，因此可实现的扩散步骤数量有限，因为它们需要对整个生成过程进行反向传播。为克服这些限制，我们提出了两种新型的离散扩散采样器训练方法，一种基于策略梯度定理，另一种利用自规范化神经重要性采样（SN-NIS）。这些方法实现内存高效的训练，并在无监督组合优化中达到了最先进的结果。此外，许多科学应用还需要无偏采样的能力。我们提出了SN-NIS和神经马尔可夫链蒙特卡洛的适应性，这使得离散扩散模型首次能够应用于这个问题。我们在Ising模型基准上验证了我们的方法，并发现它们优于流行的自回归方法。我们的工作为将扩散模型应用于广泛科学应用中的离散域开辟了新的途径，这些应用以往受限于精确似然模型。

发布时间: 2/14/2025

查看原文

AgentSociety：由大语言模型驱动的生成性代理的大规模模拟增进了对人类行为和社会的理解

作者: Jinghua Piao, Yuwei Yan, Jun Zhang, Nian Li, Junbo Yan, Xiaochong Lan, Zhihong Lu, Zhiheng Zheng, Jing Yi Wang, Di Zhou, Chen Gao, Fengli Xu, Fang Zhang, Ke Rong, Jun Su, Yong Li

arXiv:2502.08691v1 宣布类型: cross 摘要：理解人类行为和社会是社会科学的核心重点，随着生成性社会科学的兴起，这标志着一个重要的范式转变。通过利用自底向上的模拟，它用可扩展、可复制和系统化的计算方法取代了昂贵且在后勤上具有挑战性的传统实验，以研究复杂的社会动力学。近年来，大型语言模型（LLMs）的进步进一步转变了这一研究范式，使创建类似人类的生成性社会代理和现实的社会模拟成为可能。在本文中，我们提出了AgentSociety，这是一个大型社会模拟器，集成了由LLM驱动的代理、现实的社会环境和强大的大规模模拟引擎。基于所提出的模拟器，我们为超过10,000个代理生成了社会生活，模拟了他们之间的500万次互动，以及代理与其环境之间的互动。此外，我们探讨了AgentSociety作为计算社会实验的试验台的潜力，重点关注四个关键社会问题：极化、炎症性信息的传播、基本收入政策的影响，以及外在冲击如飓风的影响。这四个问题作为评估AgentSociety对典型研究方法（如调查、访谈和干预）的支持、以及社会问题的模式、原因和潜在机制研究的宝贵案例。AgentSociety结果与现实世界实验结果的一致性不仅证明了其捕捉人类行为及其潜在机制的能力，还强调了其作为社会科学家和政策制定者重要平台的潜力。

发布时间: 2/14/2025

查看原文

Skrr: 跳过并 reuse 文本编码器层以实现内存高效的文字到图像生成

作者: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun

arXiv:2502.08690v1 Announce Type: cross 摘要：文本到图像（T2I）扩散模型中的大规模文本编码器在从文本提示生成高质量图像方面展现了出色的性能。与依赖多步迭代步骤的去噪模块不同，文本编码器只需一次前向传递就能生成文本嵌入。然而，尽管文本编码器在总推理时间和浮点运算（FLOPs）中的贡献较小，但它所需的内存使用量却要高得多，高达去噪模块的八倍。为了应对这种低效率，我们提出了一种名为Skip and Re-use layers（Skrr）的简单而有效的剪枝策略，专门为T2I扩散模型中的文本编码器设计。Skrr通过有选择地跳过或重用特定的变换器块层来利用其固有的冗余性，以适应T2I任务，从而在不牺牲性能的情况下减少内存消耗。大量实验表明，即使在高度稀疏的条件下，Skrr仍能保持与原模型相当的图像质量，并且在现有块级剪枝方法中表现出色。此外，Skrr在FID、CLIP、DreamSim和GenEval分数等多个评估指标上实现了最先进的内存效率，同时保持性能。

发布时间: 2/14/2025

查看原文

推进机器故障诊断：卷积神经网络的详细考察

作者: Govind Vashishtha, Sumika Chauhan, Mert Sehri, Justyna Hebda-Sobkowicz, Radoslaw Zimroz, Patrick Dumond, Rajesh Kumar

arXiv:2502.08689v1 类别：交叉学科摘要：随着机械设备的日益复杂以及对操作效率和安全性的需求不断增长，先进的故障诊断技术得到了发展。在这类技术中，卷积神经网络（CNN）已经成为一种强大的工具，提供了 robust 和准确的故障检测和分类能力。这篇全面的综述探讨了 CNN 在机器故障诊断中的应用，涵盖了其理论基础、架构变体以及实际实施。在这一领域，分析了 CNN 的优势和局限性，讨论了它们在处理各种故障类型、数据复杂性和操作环境方面的有效性。此外，我们还探讨了基于 CNN 的故障诊断的不断演变的 landscape，考察了数据增强、迁移学习和混合架构的最新进展。最后，我们强调了未来的研究方向和潜在挑战，以进一步提高 CNN 在可靠和主动的机器故障诊断中的应用。

发布时间: 2/14/2025

查看原文

基于深度自编码器的脑电图 Artefact 检测与校正

作者: David Aquilu\'e-Llorens, Aureli Soria-Frisch

arXiv:2502.08686v1 交叉公告类型：cross 摘要：脑电图（EEG）信号在健康和病理条件下都提供了关于大脑活动的重要信息。然而，它们本质上是噪声的，这为准确的分析和解释带来了重大挑战。传统EEG伪迹去除方法虽然有效，但通常需要大量的专家干预。本研究提出了一种基于LSTM的新型自编码器LSTEEG，用于EEG信号中的伪迹检测和校正。利用深度学习，尤其是LSTM层，LSTEEG捕获了顺序EEG数据中的非线性依赖关系。在伪迹检测和校正任务中，LSTEEG的表现优于其他最先进的卷积自编码器。我们的方法增强了自编码器潜在空间的可解释性和实用性，使其能够在脑电图下游任务中实现基于数据的自动伪迹去除。这项研究推进了高效且准确的多通道EEG预处理领域，并促进了自动化脑电图分析管道在脑健康应用中的实施和使用。

发布时间: 2/14/2025

查看原文