LLM2D

摘要

arXiv:2505.03798v1 宣告类型: cross 摘要: 当前的基础模型（FMs）依赖于将连续的多模态现实世界数据直接分割成离散的词元表示。这限制了FMs纯粹通过统计关联来学习现实世界知识和关系的能力，而很少利用明确的领域知识。因此，当前的FMs在跨模态保持语义连贯性、捕捉细粒度的空间-时间动态和进行因果推理方面存在困难。这些限制仅通过扩展模型规模或扩大数据集的规模是无法解决的。这篇立场文章认为，机器学习社区应该考虑使用以结果为导向的数字化双胞胎（DT）表示，作为构建FMs的构建块，以替代词元表示。最后，我们讨论了DT表示如何通过提供基于物理的表示来解决这些挑战，这些表示明确地编码了领域知识，并保留了现实世界过程的连续性。