摘要
arXiv:2505.03798v1 宣告类型: cross
摘要: 当前的基础模型(FMs)依赖于将连续的多模态现实世界数据直接分割成离散的词元表示。这限制了FMs纯粹通过统计关联来学习现实世界知识和关系的能力,而很少利用明确的领域知识。因此,当前的FMs在跨模态保持语义连贯性、捕捉细粒度的空间-时间动态和进行因果推理方面存在困难。这些限制仅通过扩展模型规模或扩大数据集的规模是无法解决的。这篇立场文章认为,机器学习社区应该考虑使用以结果为导向的数字化双胞胎(DT)表示,作为构建FMs的构建块,以替代词元表示。最后,我们讨论了DT表示如何通过提供基于物理的表示来解决这些挑战,这些表示明确地编码了领域知识,并保留了现实世界过程的连续性。