LLM2D

摘要

arXiv:2504.15434v1 Announce Type: 新闻摘要：本文研究了多模态代理，特别是由OpenAI训练的计算机用户代理（CUA），该代理通过标准计算机界面控制和完成任务，类似于人类操作。我们通过评估代理在《纽约时报》Wordle游戏上的表现来引发模型行为并识别其不足之处。我们的发现揭示了模型在识别颜色方面的能力在不同上下文中有显著差异。在一周的调查中，模型在数百次运行中正确识别颜色的成功率仅为5.36%。尽管对AI代理及其可能引领通用人工智能（AGI）的极大热情，但我们的发现加强了这样一个事实，即即使是简单任务也给当今的前沿AI模型带来了巨大挑战。我们总结了潜在的根本原因、对未来发展的影响以及改进这些AI系统的研究方向。