摘要
arXiv:2503.21332v1 交叉领域类型:
摘要: 总结细化在扩展到多维时面临挑战。在本文中,我们引入了ReFeed,一种通过反馈反思性推理来增强多维的强大数据提炼管道。为了实现这一点,我们推出了SumFeed-CoT,这是一个大规模的针对轻量级模型训练优化、具有反思性推理的长-CoT 基础数据集。我们的实验揭示了维度的数量、反馈曝光和推理策略对细化性能的影响,强调了反思性推理和同时处理多种反馈对于缓解维度之间的权衡至关重要。此外,ReFeed 对噪声反馈和反馈顺序具有鲁棒性。最后,我们的发现强调了以适当的目标和指南创建数据构成了有效推理的基础支柱。该数据集和模型将会发布。