摘要
arXiv:2503.19711v1 宣告类型: cross
摘要: 对于 LLM(大型语言模型),开放性任务特别具有挑战性,因为解决方案空间非常庞大,这要求模型不仅要进行广泛的探索,还要具备灵活的策略,尤其是在成功的定义并不清晰和客观的情况下。写作由于其广阔的解决方案空间和主观的评估标准,提供了一个研究这类问题的理想测试平台。在本文中,我们探讨了LLMs作为协作共同写作者的潜力,它们能够自主地提出并实施文本改进。我们分析了三个备受瞩目的LLM——Gemini 1.5 Pro、Claude 3.5 Sonnet和GPT-4o,重点关注它们的行为多样性、与人类的对齐以及迭代改进能力如何影响整体性能。本文建立了一个自动写作代理的基准测试框架,并且更广泛地突出了构建能够在各种开放性领域取得优异表现的系统所面临的根本性挑战和潜在解决方案。