LLM2D

摘要

arXiv:2503.21581v1 宣告类型: cross 摘要：准确的相机校准是3D感知的基础任务，特别是在处理具有复杂光学畸变的现实世界、野外环境时尤为重要。现有方法常常依赖预校正图像或校准模式，这限制了它们的适用性和灵活性。在本文中，我们提出了一种新的框架，通过使用通用射线相机模型联合建模相机固有参数和外参来应对这些挑战。与之前的方案不同，AlignDiff将重点从语义特征转移到几何特征，从而能够更准确地建模局部畸变。我们提出了AlignDiff，这是一种基于几何先验条件的扩散模型，能够同时估计相机畸变和场景几何。为了提高畸变预测的准确性，我们引入了边缘意识注意力，使模型更加关注图像边缘附近的几何特征，而不是语义内容。此外，为了提高对现实世界捕获的通用性，我们引入了一个包含三千多个样本的大型光线追踪镜头数据库。该数据库描述了不同类型镜头中固有的畸变。我们的实验表明，所提出的方法显著减少了估计射线束的角度误差，约为8.2度，并且在挑战性的现实世界数据集上总体校准准确性也超过了现有方法。