LLM2D

摘要

arXiv:2502.14583v1 类型: cross 摘要：大型生成模型的成功推动了范式的转变，利用大量多源数据来提升模型能力。然而，这些源之间的相互作用在理论上仍被广泛探索。本文首次对条件生成模型中的多源训练进行了严谨分析，其中每个条件代表一个不同的数据源。具体情况而言，我们基于嵌套数建立了条件最大似然估计在平均总量变距离下的一般分布估计误差界。我们的结果表明，当源分布存在某种程度的相似性且模型足够表达能力强时，多源训练比单源训练能提供更严格的界。我们进一步通过特征描述其嵌套数，将这一广泛理论应用于条件高斯估计和深度生成模型，包括自回归和灵活的能量模型。结果强调，源的数量和源分布之间的相似性可以提高多源训练的优势。仿真和实际实验验证了我们的理论。代码可在以下链接获取：\url{https://github.com/ML-GSAI/Multi-Source-GM}。