LLM2D
训练冻结特征金字塔DINOv2进行眼睑测量,使用无限编码和正交正则化
Training Frozen Feature Pyramid DINOv2 for Eyelid Measurements with Infinite Encoding and Orthogonal Regularization
作者: Chun-Hung Chen
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00515v1

摘要

arXiv:2504.00515v1 公告类型:交叉学科 摘要:准确测量眼睑参数(如边缘反射距离(MRD1、MRD2)和提睑肌功能(LF))在眼裂整形诊断中至关重要,但目前仍受限于手动且不一致的方法。本研究评估了深度学习模型:SE-ResNet、EfficientNet 以及基于视觉变换器的 DINOv2,以自动利用智能手机获取的图像进行这些测量。我们通过使用均方误差(MSE)、平均绝对误差(MAE)和 R2 指标评估了不同设置下的性能。通过自我监督学习预训练的 DINOv2 在冷冻条件下表现出出色的可扩展性和鲁棒性,尤其是在便于移动部署的理想条件下。轻量级回归器,如多层感知机(MLP)和深度集成方法,提供了高精度且具有最小计算开销。为了应对类别不平衡并提高泛化能力,我们结合了焦损、正交正则化和二进制编码策略。我们的结果显示,DINOv2 结合这些增强功能能够在所有任务中提供一致且准确的预测,使其成为面向真实世界的移动友好型临床应用的有力候选者。本工作强调了基础模型在推动基于人工智能的眼科护理方面的发展潜力。