摘要
arXiv:2505.09855v1 共享类型: 交叉
摘要: 变址模型通过两种不同的模式进行学习:权重内部学习(IWL),将知识编码到模型权重中,以及上下文内部学习(ICL),在无需修改权重的情况下灵活适应上下文。为了更好地理解这些学习模式之间的相互作用,我们从进化生物学中类似适应策略中汲取灵感:遗传编码(类似于IWL,在多个世代和个体的一生中固定)和表型可塑性(类似于ICL,在遇到环境线索时提供灵活的行为响应)。在进化生物学中,环境的可预测性决定了这些策略之间的平衡:稳定性倾向于遗传编码,而可靠的预测线索促进表型可塑性。我们通过实验手段操作这些可预测性的维度,并系统地调查它们对Transformer中ICL/IWL平衡的影响。通过回归和分类任务,我们展示出,在最大的稳定性下,环境的高稳定性确实倾向于IWL,符合预期,伴随着向最稳定状态的急剧转变。相反,高线索可靠性可以增强ICL的效用,尤其是在稳定性较低的情况下。此外,学习动态揭示了任务特定的时间演化:虽然在某些环境中(如多类分类)可以观察到经典的ICL向IWL转变,但我们证明,在IWL较容易(如较少的类)或ICL获取较慢(如回归)的情况下,可以表现出最初以IWL为主导,随后转变为ICL主导的初始阶段。这些发现支持了对这些学习模式转换的相对成本假设,确立了可预测性是控制Transformer中适应策略的关键因素,为理解和指导ICL提供了新见解,并为指导训练方法提供了新的启示。