arXiv 论文列表

作者: Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi

arXiv:2401.17377v4 公告类型：替换-交叉摘要：在这个神经大型语言模型（LLMs）的时代，$n$-gram 语言模型是否依然 relevant？我们的答案是肯定的，并且我们展示了它们在文本分析和提升神经LLMs方面的价值。这是通过在两个方面对$n$-gram模型进行现代化改造来实现的。首先，我们以与神经LLMs相同的数据规模对其进行训练——5万亿个令牌。这是有史以来最大的$n$-gram模型。其次，现有的$n$-gram模型使用较小的$n$，这限制了它们的性能；我们通过引入一个新的带有回退机制的$\infty$-gram模型，允许$n$可以任意大。替代预计算$n$-gram计数表（这将非常昂贵），我们开发了一种名为infini-gram的引擎——它由后缀数组支持，可以以毫秒级延迟计算$\infty$-gram（以及任意$n$的$n$-gram）概率。$\infty$-gram框架和infini-gram引擎使我们能够对人类撰写的和机器生成的文本进行许多新颖而有趣的分析：我们发现，$\infty$-gram模型在下一个标记预测方面具有较高的准确性（47%），并且可以补充神经LLMs以大大降低它们的困惑度。在对机器生成的文本进行分析时，我们还观察到了机器生成文本与$\infty$-gram一致性水平随后缀长度变化的不规则现象，这表明神经LLMs的预训练和Transformer的位置嵌入存在缺陷。

发布时间: 4/8/2025

查看原文

自动选择非冗余聚类的参数

作者: Collin Leiber, Dominik Mautz, Claudia Plant, Christian B\"ohm

arXiv:2312.11952v2 宣告类型: replace-cross 摘要: 高维数据集通常包含在不同的子空间中的多个有意义的聚类。例如，对象可以按照颜色、重量或大小进行聚类，揭示给定数据集的不同解释。有多种方法能够识别这种非冗余聚类。然而，大多数这些方法都需要用户指定每个子空间中期望的子空间数和聚类数。声明这些值是一个非平凡问题，并且通常需要对输入数据集有详细的了解。在这篇论文中，我们提出了一种框架，利用最小描述长度原则（MDL）自动检测每个子空间的子空间数和聚类数。我们描述了一种高效的过程，通过在子空间内分割和合并子空间及聚类来贪婪地搜索参数空间。此外，我们引入了一种编码策略，允许我们在每个子空间中检测离群值。广泛的实验表明，我们的方法在与最先进的方法的竞争中具有很高的竞争力。

发布时间: 4/8/2025

查看原文

SoftMAC：基于预报接触模型的可微软体模拟及其与 articulated 刚体和衣服的双向耦合

作者: Min Liu, Gang Yang, Siyuan Luo, Lin Shao

arXiv:2312.03297v4 宣布类型: 替换交叉摘要：基于梯度的优化的可微物理仿真提供了一种解决以前难以处理的挑战的方法，从而大幅提高了解决相关机器人问题的效率。为了在多样化的机器人操作场景中应用可微仿真，一个关键挑战是将各种材料结合到统一的框架中。我们提出了SoftMAC，这是一种结合软体和刚体（包括关节）以及衣服的可微仿真框架。SoftMAC 使用基于连续介质力学的物料点法（Material Point Method, MPM）来模拟软体。我们提供了一种新颖的基于预测的接触模型，该模型有效地减少了穿透现象，同时避免引入例如不自然反弹等其他副作用。为了将MPM颗粒与可变形和非体积性衣服网格耦合，我们还提出了一种穿透追踪算法，该算法在局部区域重建了符号距离场。不同于以往的工作，SoftMAC 模拟了每种模态的完整动力学，并通过显式且可微的耦合机制将它们结合起来。这一特征使SoftMAC能够处理更广泛类型的交互作用，比如软体作为操纵器并与欠驱动系统进行交互。我们进行了全面的实验，以验证所提出的可微管道在下游机器人操作应用中的有效性和准确性。补充材料和视频可在我们项目网站 https://minliu01.github.io/SoftMAC 获取。

发布时间: 4/8/2025

查看原文

从AlexNet到变换器：使用仿射最优传输度量深度神经网络的非线性程度

作者: Quentin Bouniot, Ievgen Redko, Anton Mallasto, Charlotte Laclau, Oliver Struckmeier, Karol Arndt, Markus Heinonen, Ville Kyrki, Samuel Kaski

arXiv:2310.11439v4 通知类型: replace-cross 摘要：在过去的十年中，我们见证了多种新型深度神经网络（DNN）架构的出现，这些架构在各种任务中的性能不断提高。然而，解释其性能上升趋势却变得非常困难，因为即使是训练同一数据集，具有可比深度和宽度的不同DNN架构——这些因素通常与它们的表征能力相关——也可能表现出截然不同的性能。在本文中，我们提出了DNN非线性签名的概念，这是一套理论上可靠的方法，用于近似测量深度神经网络的非线性。基于从封闭形式最优传输映射派生的评分，这种签名提供了对广泛DNN架构和学习范式的内部工作机制的更好理解，特别是在计算机视觉任务方面。我们提供了详细的实验结果，强调了所提出的非线性签名的实际用处及其广泛潜在影响。我们的工作的代码可以在 https://github.com/qbouniot/AffScoreDeep 获得。

发布时间: 4/8/2025

查看原文

揭秘深度学习的前沿：塑造多领域创新

作者: Shams Forruque Ahmed, Md. Sakib Bin Alam, Maliha Kabir, Shaila Afrin, Sabiha Jannat Rafa, Aanushka Mehjabin, Amir H. Gandomi

arXiv:2309.02712v2 通知类型: 替换-交叉摘要：深度学习（DL）使计算机模型能够学习、可视化、优化、精炼和预测数据。要了解其当前状态，研究各种领域中最新的深度学习进展和应用是必不可少的。然而，之前的综述主要集中于深度学习在一个或两个领域中的应用。当前的综述由于这些领域的相关研究文献非常丰富，因此彻底研究了深度学习在这四个不同领域的应用。这种广泛的覆盖面提供了关于深度学习影响和机会的全面而相互关联的理解，而在其他综述中缺乏这种理解。该研究还讨论了深度学习框架，并指出了在各个领域利用深度学习的益处和挑战，这是其他综述中偶尔才提到的。像TensorFlow和PyTorch这样的深度学习框架使得在各种领域开发创新的深度学习应用变得更加容易，它们提供了模型开发和部署平台，有助于理论进步与实际应用之间的桥梁。深度学习解决了许多领域的复杂问题，并促进了技术的进步，展示了其革命性的潜力和适应性。使用带有注意力机制的CNN-LSTM模型可以实现99%的交通预测准确率。多层CNN模型可以实现97.13%的受真菌病害芒果叶子的分类准确率。然而，由于深度学习独立于训练数据，因此对其进行分析和处理大量数据需要严谨的数据收集。因此，在深度学习数据集中，大规模的医学、研究、健康保健和环境数据的整合具有挑战性，这降低了深度学习的效果。未来的研究应该在深度学习数据集上解决数据量、隐私、领域复杂性和数据质量等问题。

发布时间: 4/8/2025

查看原文

基于未反驳控制的身份切换检测与修正

作者: Junchao Huang, Xiaoqi He Yebo Wu, Sheng Zhao

arXiv:2307.14591v2 宣称类型: replace-cross 摘要：多对象跟踪（MOT）的目标是在视频中持续跟踪和识别检测到的对象。目前，大多数多对象跟踪方法通过结合运动信息和外观信息来确定和跟踪对象。在本文中，我们采用了未证伪控制来解决多对象跟踪中的ID切换问题。我们跟踪过程中建立了轨迹的外观信息变化序列，并设计了一个专门用于ID切换检测和恢复的检测与校正模块。我们还提出了一种简单而有效的策略，以解决数据关联过程中外观信息的模糊匹配问题。在公开可用的MOT数据集上的实验结果表明，该跟踪器在处理由遮挡和快速运动引起的跟踪错误时表现出色且具有鲁棒性。

发布时间: 4/8/2025

查看原文

Factored-NeuS：重建可能光泽物体的表面、照明和材料

作者: Yue Fan, Ningjing Fan, Ivan Skorokhodov, Oleg Voynov, Savva Ignatyev, Evgeny Burnaev, Peter Wonka, Yiqun Wang

arXiv:2305.17929v2 宣布类型: replace-cross 摘要：我们开发了一种方法，可以从场景的摆放多视角图像中恢复表面、材料和照明。与先前的工作不同，该方法不需要任何额外的数据，并且可以处理光泽物体或强光环境。这是一种渐进式逆渲染方法，由三个阶段组成。在第一阶段，我们使用一种新的正则化策略来重建场景辐射度和带符号的距离函数（SDF），以处理镜面反射。我们提出了一种联合表面和体积渲染来解释像素颜色的方法，这使得处理表面重建的视角依赖照明效果成为可能。在第二阶段，我们从学习到的SDF和辐射度场中提取光照可见性和间接照明，使用可学习的映射函数。最后，我们设计了一种方法来估计按照镜面反射方式入射光线的比例，并使用这种方法来重建材料和直接照明。实验结果表明，该提出的方法在不依赖任何额外数据的情况下，在恢复表面、材料和照明方面优于当前最先进的方法。

发布时间: 4/8/2025

查看原文

InceptionNeXt：当Inception遇见ConvNeXt

作者: Weihao Yu, Pan Zhou, Shuicheng Yan, Xinchao Wang

arXiv:2303.16900v3 宣告类型: replace-cross 摘要：受ViTs远程建模能力的启发，最近广泛研究和采用了大内核卷积，以扩大感受野并改善模型性能，例如使用7x7深度卷积的显著工作ConvNeXt。尽管这种深度卷积操作只消耗少量FLOPs，但在强大的计算设备上却极大地损害了模型效率，原因是其高内存访问成本。例如，ConvNeXt-T在A100 GPU上全精度训练时，其吞吐量仅为ResNet-50的约60%，尽管减少ConvNeXt的内核大小可以提高速度，但会显著降低性能，这提出了一个具有挑战性的问题：如何在保持性能的同时加快基于大内核的CNN模型的速度。为了解决这个问题，受到Inceptions的启发，我们提出将大内核深度卷积沿通道维分解为四个并行分支，即小方形内核、两个正交带状内核和恒等映射。通过这种方式，我们构建了一系列网络，即IncepitonNeXt，不仅可以享受高吞吐量，还能保持竞争力的性能。例如，InceptionNeXt-T在训练吞吐量上比ConvNeX-T高出1.6倍，并且在ImageNet-1K上达到了0.2%的顶级准确率改进。我们期望InceptionNeXt可以作为未来架构设计的经济基准，减少碳足迹。代码可在以下链接获取：https://github.com/sail-sg/inceptionnext。

发布时间: 4/8/2025

查看原文

具有SU($d$)对称性的等变量子算法的超指数量子加速

作者: Han Zheng, Zimu Li, Sergii Strelchuk, Risi Kondor, Junyu Liu

arXiv:2207.07250v2 公告类型：replace-cross 摘要：我们提出了一种适用于任意SU$(d)$对称性的物理系统上多种机器学习任务的等变卷积量子算法框架。这使我们能够增强一种自然的量子计算模型——置换量子计算（PQC）[Quantum Inf. Comput., 10, 470-497 (2010)]——并定义了一个更强大的模型：PQC+。尽管PQC已被证明可以在经典计算中高效模拟，但我们展示了可以在PQC+机器上高效解决的问题，而至今仍未发现任何已知的经典多项式时间算法；这为PQC+不能被经典计算高效模拟提供了证据。我们进一步讨论了可以在PQC+范式下实现的实用量子机器学习算法。

发布时间: 4/8/2025

查看原文

传输信息布居曼 divergence

作者: Wuchen Li

arXiv:2101.01162v2 公告类型：替换-交叉摘要: 我们研究了使用$L^2$-Wasserstein度量嵌入的概率密度空间中的Bregman发散。提供了几种运输Bregman发散的性质和对偶性。特别地，我们通过$L^2$-Wasserstein空间中的负玻尔兹曼-香农熵的Bregman发散推导出了运输Kullback-Leibler (KL) 发散。我们还为一维概率密度和高斯族推导了运输KL发散的解析公式和一般化。

发布时间: 4/8/2025

查看原文