LLM2D

摘要

arXiv:2503.19193v1 公告类型: 新摘要: 我们介绍了一种名为“We Browsing Lost Unformed Recollections”的提示-舌尖现象已知项目搜索与推理基准，该基准适用于通用人工智能助手。BLUR 引入了一套573个经过实际验证的问题，这些问题是多模态和多语言输入的搜索与推理，以及熟练使用工具的需要，以出色完成这些任务。人类很容易在这些问题上拿高分（平均得分98%），而表现最好的系统得分约为56%。为了促进通用人工智能助手解决这一富有挑战性和雄心勃勃的应用场景的进展，我们通过公共排行榜发布350个问题，保留其中250个问题的答案，并将其余问题留作私有测试集。