LLM2D

摘要

arXiv:2504.12365v1 跨领域公告类型：交叉学科摘要：在这项工作中，我们提出了一项基准测试，其中包含 Jupyter 笔记本的发展轨迹，并允许测量大语言模型（LLMs）如何利用运行时信息来预测代码输出和代码生成。我们展示了当前一代 LLM 在这些任务上的表现较差，并指出在基于代码的模型开发领域中存在一个显著未被充分研究的领域，即结合运行时上下文。