摘要
arXiv:2502.04355v1 宣称类型: cross
摘要:大型语言模型的迅速发展为自动化复杂问题解决任务,如算法编码和编程竞赛等,开辟了新的途径。本文介绍了一种新的评估技术LLM-ProS,用于评估最先进的大语言模型在国际大学生程序设计竞赛(ICPC)问题上的性能。利用2011年至2024年世界总决赛的166个问题的数据集,我们根据推理能力、准确性和效率对标这些模型。我们评估了GPT-4o、Mistral Large、Llama-3.1-405B以及o1家庭(包括o1-mini和o1-preview)在关键指标如正确性、资源利用和响应校准方面的性能。我们的结果揭示了这些模型在泛化、适应和解决新型问题方面的显著差异。我们还研究了训练方法、数据集污染和多步推理对模型性能的影响。研究发现提供了关于如何优化大语言模型以适应算法任务的新见解,同时指出了当前模型的优点和局限性。