LLM2D

摘要

arXiv:2502.08556v1 类型: cross 摘要：人类的理解与生成能力对于建模数字化人类和类人实体至关重要。最近，受通用模型如大型语言和视觉模型成功启发的人本中心基础模型（HcFMs）出现，将多种人本中心任务统一到单一框架中，超越了传统的特定任务方法。在本文综述中，我们提出了一种分类法，将当前的方法分为四类，以全面概述HcFMs：（1）人本中心感知基础模型，捕捉多模态2D和3D的细粒度特征。（2）人本中心AIGC基础模型，生成高质量、多样化的与人类相关的内容。（3）统一感知和生成模型，将这些能力结合起来，增强人类的理解和合成。（4）人本中心自主基础模型，超越感知和生成，学习类似人类的智能和交互行为，用于类人实体任务。我们回顾了最先进的技术，讨论了新兴挑战和未来的研发方向。本文综述旨在为致力于更 robust、灵活和智能的数字化人类和实体建模的研究人员和实践者提供路线图。