LLM2D

摘要

arXiv:2504.01214v1 宣传类型：交叉摘要：深度学习模型在各种图像相关任务中取得了显著的成功。然而，它们经常会遇到与计算复杂性和过拟合相关的挑战。在本文中，我们提出了一种高效的方法，该方法利用图像的多边形表示，通过使用主导点或轮廓坐标。通过将输入图像转换为这些紧凑的形式，我们的方法显著减少了计算需求，加速了训练，并节省了资源，使它适用于实时和资源受限的应用。这些表示形式自然地捕捉了图像的关键特征，同时过滤掉了噪声，提供了一种自然的正则化效果，从而缓解了过拟合。生成的轻量级模型在使用全分辨率图像时具有与最先进的方法相当的性能，同时允许在边缘设备上部署。基准数据集上的大量实验验证了我们方法在减少复杂性、提高泛化能力和促进边缘计算应用方面的有效性。这项工作展示了多边形表示在推动面向现实场景的高效和可扩展的深度学习解决方案方面的潜力。论文的实验代码可在 https://github.com/salimkhazem/PolygoNet 提供。