LLM2D
Home
Arxiv
返回列表
使用 Wolfram Alpha 和 Code Interpreter 插件测试 GPT-4 在数学和科学问题上的能力
Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems
作者:
Ernest Davis, Scott Aaronson
发布日期:
2/21/2025
arXiv ID:
oai:arXiv.org:2308.05713v4
摘要
arXiv:2308.05713v4 宣告类型: 替换 摘要:本文描述了于2023年6月至8月进行的一项测试,测试对象是配备了Wolfram Alpha和Code Interpreter插件的大语言模型GPT-4,测试题目为105道原创的科学和数学问题,涵盖高中和大学水平。我们的测试表明,这些插件显著增强了GPT解决这些问题的能力。然而,仍经常存在“接口”故障,即GPT往往难以将问题表述为能从插件中获得有用答案的方式。修复这些接口故障似乎是使GPT成为大学级计算问题可靠工具的主要挑战。
查看原文
下载 PDF