arXiv 论文列表

作者: Kayne Uriel K. Rodrigo, Jerriane Hillary Heart S. Marcial, Samuel C. Brillo, Khatalyn E. Mata, Jonathan C. Morano

arXiv:2412.07182v2 宣布类型: replace-cross 摘要：本研究致力于改进传统的基于卷积神经网络（CNN）模型的水稻叶片疾病图像分类算法。我们使用了MobileViTV2_050模型进行迁移学习，该模型通过可分离自注意机制整合了CNN的局部特征提取和视觉变换器的全局上下文学习，使用的是ImageNet-1k权重。我们的方法使得MobileViTV2_050-A，基于基线数据集的第一个增强模型，分类准确率提高了15.66%，达到了93.14%。此外，我们的第二个增强模型MobileViTV2_050-B，在更广泛的水稻叶片数据集上训练，展示了22.12%的改进，测试准确率达到99.6%。此外，MobileViTV2-A在四个水稻标签上的F1分数达到了93%，并在接收到的操作特征（ROC）曲线下面积范围为87%-97%之间。在资源消耗方面，我们的增强模型将基线CNN模型的总参数量最多减少了92.50%，从1400万减少到110万。这些结果表明，MobileViTV2_050不仅通过其可分离自注意机制提高了计算效率，还增强了全局上下文学习。因此，它提供了一个轻量级且稳健的解决方案，适合移动部署，提升了这些模型在精准农业中的可解释性和实用性。

发布时间: 2/18/2025

查看原文

探究交互语言模型中镜像现象的社会一致性

作者: Harvey McGuinness, Tianyu Wang, Carey E. Priebe, Hayden Helm

arXiv:2412.06834v2 声明类型：replace-cross 摘要：对齐是一种社会现象，其中个体共享一个共同的目标或视角。模仿，即模仿他人的行为和观点，是个体对齐的一种机制。由于社会学中传统实验设计的可扩展性限制，大规模研究模仿对对齐的影响受到了限制。本文介绍了简单的计算框架，以研究模仿行为对多agent系统中对齐的影响。我们在这个框架中模拟了相互作用的大规模语言模型系统，并使用代理动力学的定量指标来表征整体系统行为和对齐情况。我们发现，系统行为强烈受到每个代理通信范围的影响，且随着模仿率的增加，这些影响会加剧。我们讨论了模拟系统行为在已知的人类社会动力学背景下的表现。

发布时间: 2/18/2025

查看原文

深度学习与混合方法在动态场景分析、目标检测和运动跟踪中的应用

作者: Shahran Rahman Alve

arXiv:2412.05331v3 宣告类型: replace-cross 摘要：本项目旨在开发一种稳健的视频监控系统，该系统可以根据活动检测将视频分割成更小的片段。它使用闭路电视(CCTV)录像，仅记录重要的事件，如人的出现或小偷，从而优化存储并使数字搜索更简便。该项目利用了最新的目标检测和跟踪技术，包括卷积神经网络（CNNs）如YOLO、SSD和Faster R-CNN，以及循环神经网络（RNNs）和长短期记忆网络（LSTMs），以实现高精度检测并捕捉时间依赖性。该方法通过高斯混合模型（GMM）和光流方法如卢卡斯-卡纳德（Lucas-Kanade）进行自适应背景建模，用以检测运动。多尺度和上下文分析被用来提高不同对象大小和环境下的检测精度。通过结合统计模型和深度学习模型的混合运动分割策略来管理复杂运动，同时对实时处理的优化确保了高效的计算。使用卡尔曼滤波器和双目网络等跟踪方法来在遮挡情况下保持平滑跟踪。通过多尺度和上下文分析在不同场景下对不同大小的对象进行检测效果得到了提高。结果表明，这项研究在检测和跟踪物体方面具有高精度和召回率，并且由于实时优化和光照不变特征，处理时间和准确性有了显著提高。这项研究的影响在于，它有可能变革视频监控，减少存储需求并通过可靠和高效的物体检测与跟踪提高安全性。

发布时间: 2/18/2025

查看原文

APOLLO: 类SGD的内存使用，AdamW级别的性能

作者: Hanqing Zhu, Zhenyu Zhang, Wenyan Cong, Xi Liu, Sem Park, Vikas Chandra, Bo Long, David Z. Pan, Zhangyang Wang, Jinwon Lee

arXiv:2412.05270v4 通知类型: replace-cross 摘要：大规模语言模型（LLMs）在训练过程中通常非常耗内存，尤其是在使用流行的AdamW优化器时。这种内存负担要求使用更多或更高性能的GPU或者减少批量大小，这限制了训练的可扩展性和吞吐量。为了应对这一问题，已经提出了各种节省内存的优化器来减少优化器的内存使用。然而，它们面临关键挑战：（i）依赖昂贵的SVD操作；（ii）与AdamW相比，性能存在显著折衷；（iii）仍然有大量优化器内存开销以维持竞争力。在这项工作中，我们发现可以将AdamW的学习率调整规则有效地简化为结构化学习率更新。基于这一认识，我们提出了Approximated Gradient Scaling for Memory-Efficient LLM Optimization（APOLLO），它使用基于纯随机投影的辅助低秩优化器状态来近似学习率缩放。这种结构化学习率更新规则使APOLLO能够容忍进一步的内存减少，同时提供可比的预训练性能。即使其秩1变体APOLLO-Mini，在与SGD水平内存成本下，其预训练性能也优于AdamW。广泛的经验研究表明，APOLLO系列与AdamW表现持平或更好，同时通过几乎消除AdamW的优化状态而实现更大的内存节省。这些节省带来了系统级优势：（1）增强吞吐量：在8xA100-80GB设置下，与AdamW相比，吞吐量提高3倍，支持4倍更大的批量大小。（2）提高模型可扩展性：在A100-80GB GPU上使用原始DDP预训练LLaMA-13B，无需系统级优化。（3）低性能GPU友好预训练：使用不到12 GB的内存进行权重量化，在单个GPU上预训练LLaMA-7B。

发布时间: 2/18/2025

查看原文

两阶段域不变表示学习者在具有二维数据域的无监督域适应中解决大型协变量移位

作者: Hisashi Oshima, Tsuyoshi Ishizone, Tomoyuki Higuchi

arXiv:2412.04682v2 适配类型: 替换-交叉摘要：最近在无监督领域适应(UDA)方面的进展使得可以使用机器学习(ML)模型对目标数据进行无监督预测，从而加速诸如自动驾驶中的图像识别任务等实际应用。研究人员报告称，在标签源数据由单调颜色的手写数字数据组成而无监督目标数据由街景中的彩色数字数据组成的情况下，无监督领域适应技术在大规模共变移位问题上表现不佳。因此，需要一种方法来解决共变移位问题，并在这一动态下转移源标签规则。我们采用了两阶段域不变表示学习，以通过语义中间数据(无监督)弥合源和目标之间的差距。所提出的方法可以在源和中间体之间以及中间体和目标之间同时学习域不变特征。最终，这种方法通过源标签实现了源和目标之间的良好域不变表示，以及任务可判别性。这种归纳法极大地简化了目标数据分类性能收敛过程中的梯度下降搜索。我们还推导出一个测度已训练模型与无监督目标标签规则之间差距的定理，这对于自由参数优化是必要的。最后，我们使用包括38个无监督领域适应任务的4个代表性机器学习分类数据集证明了所提方法优于先前的UDA方法。我们的实验将成为处理大规模共变移位的UDA问题的基础。

发布时间: 2/18/2025

查看原文

Libra：利用时间序列图像进行生物医学放射分析

作者: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho

arXiv:2411.19378v2 通知类型: 替换-交叉摘要：放射学报告生成（RRG）需要先进的医学影像分析、有效的时序推理和准确的文字生成。尽管多模态大型语言模型（MLLMs）与预训练的视觉编码器对齐以增强视觉语言理解，但大多数现有方法依赖于单张图片分析或基于规则的启发式方法来处理多张图片，未能充分利用多模态医学数据集中的时间信息。在本文中，我们介绍了Libra，一种针对胸部X光报告生成的时间感知MLLM。Libra结合了一个放射学专用的图像编码器和一个新颖的时间对齐连接器（TAC），设计用于准确捕捉和整合配对当前和历史图片之间的时间差异。在MIMIC-CXR数据集上的大量实验表明，Libra在与之规模相当的MLLM中建立了新的基准，不仅在临床相关性方面，在词法准确性方面也设立了新的标准。

发布时间: 2/18/2025

查看原文

向扩散模型泛化的机理解释迈进

作者: Matthew Niedoba, Berend Zwartsenberg, Kevin Murphy, Frank Wood

arXiv:2411.19339v2 宣告类型: replace-cross 摘要：我们提出了一种简单的、无需训练的机制，用于解释扩散模型的泛化行为。通过将预训练的扩散模型与其理论上的最优经验对应物进行比较，我们发现了一种跨越多种网络架构的共享局部归纳偏差。基于这一观察，我们假设网络除噪器通过局部除噪操作泛化，因为这些操作在培训分布的大部分范围内很好地近似了训练目标。为了验证我们的假设，我们引入了新型除噪算法，将局部经验除噪器聚集起来以复制网络行为。在正向和反向扩散过程中的网络除噪器与这些算法进行比较时，我们的方法在视觉上与神经网络输出一致，并且均方误差低于之前提出的其他方法。

发布时间: 2/18/2025

查看原文

基于值顺序估计距离度量的分类数据聚类

作者: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yang Lu, Mengke Li, Yiu-ming Cheung

arXiv:2411.15189v2 通告类型: replace-cross 摘要：构成定性属性的数据在机器学习任务中无处不在。由于缺乏明确的度量空间，定性数据分布难以直观理解。聚类是一种适用于数据分布理解的流行数据分析技术。然而，聚类的成功往往依赖合理的距离度量，而这恰好是定性数据天生缺乏的。因此，本文提出了一个新的发现，即属性值之间的顺序关系是影响聚类准确性的决定性因素，也是理解定性数据聚类的关键，因为聚类的本质是根据样本的接纳程度对聚类进行排序。为了获得这些顺序，我们提出了一种新的学习范式，允许同时学习聚类和顺序。该方法根据基于顺序构建的距离度量交替地对数据进行分区，并根据聚类估计最可能的顺序。该算法在收敛性保证的情况下实现了卓越的聚类准确度，学习到的顺序有助于理解直观上不直观的定性数据聚类分布。大量的消融研究、统计证据和案例研究表明了对值顺序重要性的新见解和方法提议的有效性。源代码暂时开放在 https://anonymous.4open.science/r/OCL-demo。

发布时间: 2/18/2025

查看原文

理解大型语言模型的嵌入在回归中的应用

作者: Eric Tang, Bangding Yang, Xingyou Song

arXiv:2411.14708v3 宣告类型: replace-cross 摘要：随着大规模语言模型（LLMs）在灵活处理字符串信息方面的发展，一个自然的应用是回归，具体而言是通过预处理字符串表示为LLM嵌入，将其作为下游特征进行度量预测。在本文中，我们提供了关于嵌入式回归的首个全面研究，并展示了在高维回归任务中，使用LLM嵌入作为特征可能比使用传统特征工程更好。这种回归性能的部分解释在于，LLM对数值数据的嵌入在特征空间上自然保持Lipschitz连续性。此外，我们量化了不同模型效应的贡献，最引人注目的是模型大小和语言理解，我们发现令人惊讶的是，这些因素并不总是能够提高回归性能。

发布时间: 2/18/2025

查看原文

量子哈密顿下降算法用于图划分

作者: Jinglei Cheng, Ruilin Zhou, Yuhang Gan, Chen Qian, Junyu Liu

arXiv:2411.14696v2 宣告类型: replace-cross 摘要: 我们提出了量子哈密顿下降作为一种解决图划分问题的新方法。通过将图划分重新公式化为二次无约束二元优化(QUBO)问题，我们利用QHD的量子启发式动力学来识别最优社区结构。我们的方法采用多级细化策略，交替使用QUBO公式和QHD优化，以逐步提高划分质量。实验结果表明，与传统优化方法相比，基于QHD的方法在计算开销减少的同时，取得了高达5.49%的模块性得分提升。此项工作将QHD确立为在大规模网络中解决图划分挑战的有效量子启发式框架。

发布时间: 2/18/2025

查看原文