LLM2D

摘要

arXiv:2505.01073v1 宣布类型: 新摘要: 在大规模语言模型（LLMs）的预训练中缺乏特定领域的数据，严重限制了基于LLMs的决策系统在特殊应用中的能力，而事后在特定场景下对模型进行训练则需要大量的计算资源。在本文中，我们提出了一种名为Retrial-Augmented Learning (RAL)的无奖励自我监督学习框架，该框架在无需训练模型的情况下运作。通过将 Retrieval-Augmented Generation (RAG) 发展为组织中间数据的模块，我们实现了提出假设、验证假设和生成知识的三个阶段自主知识生成过程。该方法在LLM-PySC2环境中进行了评估，这是一个代表性的决策平台，结合了足够的复杂性和特定领域的知识要求。实验表明，所提出的方法通过生成和利用验证过的知识，有效减少了幻觉，并以极低的成本提高了决策性能。同时，该方法在异常分布(OOD)任务、鲁棒性和可迁移性方面表现出潜力，使其成为解决决策问题和自主知识生成的一个成本效益高但有效的解决方案。