多视角系统已成为现代计算机视觉的关键技术,在场景理解和分析方面提供了先进的能力。然而,这些系统在带宽限制和计算约束方面面临着严峻挑战,特别是对于资源有限的摄像头节点(如无人机)。本文提出了一种使用掩码自动编码器 (MAE) 进行通信高效的分布式多视角检测和跟踪的新方法。我们引入了一种语义引导的掩码策略,该策略利用预训练的分割模型和可调功率函数来优先考虑信息丰富的图像区域。这种方法与 MAE 相结合,在保留基本视觉信息的同时降低了通信开销。我们在虚拟和真实世界多视角数据集上评估了我们的方法,结果表明,即使在高掩码率下,在检测和跟踪性能指标方面也与最先进的技术相当。我们的选择性掩码算法优于随机掩码,随着掩码率的增加,保持更高的准确性和精度。此外,与基线方法相比,我们的方法显着减少了传输数据量,从而平衡了多视角跟踪性能与通信效率。
生物树分析是揭示生物体、基因和细胞之间进化和分化关系的关键工具,其应用范围涵盖系统发育学、发育生物学、生态学和医学等多个领域。传统的树推断方法虽然在早期研究中奠定了基础,但在处理现代高通量技术产生的海量复杂数据集方面面临着越来越大的局限性。深度学习的最新进展提供了有希望的解决方案,增强了数据处理和模式识别能力。然而,挑战仍然存在,特别是在准确地表示生物树固有的离散和非欧几里得性质方面。在本综述中,我们首先概述了系统发育和分化树分析中至关重要的生物先验,促进深度学习研究人员和生物学家之间更深入的跨学科理解。然后,我们系统地检查了常用的数据格式和数据库,作为模型测试和开发的全面资源。我们对传统的树生成方法进行了批判性分析,探讨了它们的潜在生物学假设、技术特征和局限性。回顾了基于深度学习的树生成的最新发展,重点介绍了最近的进展和现有的挑战。此外,我们讨论了生物树在各个生物学领域的多样化应用。最后,我们提出了利用深度学习进行生物树研究的潜在未来方向和趋势,旨在指导该领域进一步探索和创新。
在科学研究中,我们常常希望从观测到的时间序列中获得一个能够生成系统底层动力学的模型。尽管在数据来自单一领域的情况下,已存在强大的动力系统重建(DSR)方法,但如何最佳地整合来自多个动力学机制的数据并利用它进行泛化仍然是一个开放问题。当单个时间序列较短时,这个问题变得尤为重要,而组层面的信息可能有助于填补单一领域数据中的空白。同时,平均化在 DSR 中不可取,因为它会抹除关键的动力学特性(例如,一个领域中的极限环与另一个领域中的混沌)。因此,需要一个框架,能够有效地收集组层面的(多领域)信息,同时保留所有单一领域的动力学特征。本文提供了一种分层方法,并在流行的 DSR 基准测试以及神经科学和医学时间序列中展示了它的应用。除了忠实地重建所有单个动力学机制之外,我们的无监督方法还发现了共同的低维特征空间,其中具有相似动力学的的数据集会聚类。跨越这些空间的特征在动态上具有高度的可解释性,令人惊讶的是,它们通常与控制底层系统动力学的控制参数呈线性关系。最后,我们展示了迁移学习和泛化到新的参数机制。
本文提出了一种利用色彩变换器和生成对抗网络 (GAN) 进行图像着色的新方法,以解决生成视觉上令人愉悦的彩色图像的挑战。传统方法通常难以捕捉长程依赖关系并生成逼真的着色效果。所提出的方法集成了变换器架构以捕捉全局信息,并集成了 GAN 框架以提高视觉质量。在本研究中,应用了利用随机正态分布生成颜色特征的色彩编码器。然后将这些特征与灰度图像特征相结合,以增强图像的整体表示。我们的方法通过利用变换器的能力(可以捕捉长程依赖关系并生成 GAN 的逼真着色效果)展示了优于现有方法的性能。实验结果表明,所提出的网络显著优于其他最先进的着色技术,突出了其在图像着色方面的潜力。这项研究为数字修复和历史图像分析等领域中精确且视觉上引人入胜的图像着色开辟了新的可能性。
大型语言模型 (LLM) 的快速发展突显了对评估其核心能力(如推理、知识和常识)的鲁棒评估框架的需求,从而催生了某些广泛使用的基准套件,例如 H6 基准。然而,这些基准套件主要针对英语构建,在 LLM 开发方面,如泰语等代表性不足的语言缺乏此类基准。另一方面,为泰语开发 LLM 还应包括增强文化理解和核心能力。为了应对泰语 LLM 研究中的这两个挑战,我们提出了两个关键基准:泰语-H6 和泰语文化和语言智能基准 (ThaiCLI)。通过对具有多语言能力的各种 LLM 进行全面评估,我们对所提出的基准及其对泰语 LLM 开发的贡献进行了全面分析。此外,我们将公开发布数据集和评估代码,以鼓励对泰语 LLM 的进一步研究和开发。
我们提出了一种分析动画中混合视觉构成的方案,该方案适用于短片领域。我们结合了半监督和弱监督学习的思想,训练了一个模型,可以在不需要预先标记的分割掩码的情况下分割混合构成。我们在来自 13 个电影档案馆的一组短片上评估了我们的方法。结果表明,所提出的学习策略产生的性能接近于完全监督的基线。在定性层面,所进行的分析为动画电影中的混合构成提供了有趣的见解。
神经场是一种新兴范式,它将数据表示为由神经网络参数化的连续函数。尽管具有许多优点,但神经场通常具有很高的训练成本,这阻碍了其更广泛的应用。本文重点研究了一种流行的神经场家族——正弦神经场(SNF),并研究了如何对其进行初始化以最大限度地提高训练速度。我们发现 SNF 的标准初始化方案(基于信号传播原理设计)并非最佳。具体来说,我们表明,通过简单地将每个权重(最后一层除外)乘以一个常数,我们可以将 SNF 训练速度提高 10 倍。这种方法被称为“权重缩放”,在各种数据域上始终如一地提供了显著的加速效果,使 SNF 的训练速度超过了最近提出的架构。为了理解权重缩放为何如此有效,我们进行了广泛的理论和实证分析,结果表明权重缩放不仅可以非常有效地解决频谱偏差,而且还具有良好的条件优化轨迹。
准确高效地预测聚合物性质对于聚合物设计至关重要。传统的实验工具和基于密度泛函理论 (DFT) 的聚合物性质评估模拟方法都既昂贵又耗时。近年来,大量基于图的分子模型涌现,并在分子数据分析中展现出巨大潜力。尽管取得了巨大进展,但这些模型往往忽略了数据中的高阶和多尺度信息。本文针对聚合物性质分析,开发了分子拓扑深度学习 (Mol-TDL) 方法。我们的 Mol-TDL 将高阶相互作用和多尺度性质纳入拓扑深度学习架构。其核心思想是将聚合物分子表示为不同尺度的一系列单纯复形,并相应地构建单纯神经网络。来自不同尺度的聚合信息可以更准确地预测聚合物分子性质。
基于会话的推荐(SBR)旨在通过分析单个会话中的项目序列来捕捉动态的用户偏好。然而,大多数现有的方法主要关注会话内的项目关系,而忽略了不同会话之间项目之间的联系(会话间关系),这限制了它们充分捕捉复杂项目交互的能力。虽然一些方法结合了会话间信息,但它们通常会产生高计算成本,导致更长的训练时间和效率降低。为了解决这些挑战,我们提出了 CLIP-SBR(基于聚类的项目提示学习用于基于会话的推荐)框架。CLIP-SBR 由两个模块组成:1)一个项目关系挖掘模块,它构建一个全局图来有效地建模会话内和会话间关系,以及 2)一个项目聚类感知提示学习模块,它使用软提示将这些关系有效地集成到 SBR 模型中。我们评估了 CLIP-SBR 在八个 SBR 模型和三个基准数据集上的表现,始终证明了改进的推荐性能,并将 CLIP-SBR 确立为一种用于基于会话的推荐任务的稳健解决方案。
时空神经网络在城市场景中展现出巨大潜力,通过有效地捕捉时间和空间相关性。然而,城市环境不断发展,当前模型评估通常局限于交通场景,并且主要使用训练期后仅收集几周的数据来评估模型性能。这些模型的泛化能力在很大程度上仍未探索。为了解决这个问题,我们提出了一个时空分布外 (ST-OOD) 基准,它包含六种城市场景:自行车共享、311 服务、行人计数、交通速度、交通流量、叫车需求和自行车共享,每种场景都有分布内(同一年)和分布外(下一年)设置。我们广泛地评估了最先进的时空模型,发现它们的性能在分布外设置中显著下降,大多数模型的性能甚至比简单的多层感知器 (MLP) 更差。我们的发现表明,当前领先的方法倾向于过度依赖参数来过度拟合训练数据,这可能导致在分布内数据上表现良好,但在分布外数据上却经常导致泛化能力差。我们还调查了 dropout 是否可以减轻过度拟合的负面影响。我们的结果表明,轻微的 dropout 率可以显著提高大多数数据集的泛化性能,对分布内性能的影响很小。然而,平衡分布内和分布外性能仍然是一个具有挑战性的问题。我们希望提出的基准能够鼓励对这一关键问题的进一步研究。