LLM2D
浏览丢失的未形成立 State: 一种舌尖上的.search 和推理基准
Browsing Lost Unformed Recollections: A Benchmark for Tip-of-the-Tongue Search and Reasoning
作者: Sky CH-Wang, Darshan Deshpande, Smaranda Muresan, Anand Kannappan, Rebecca Qian
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19193v1

摘要

arXiv:2503.19193v1 公告类型: 新 摘要: 我们介绍了一种名为“We Browsing Lost Unformed Recollections”的提示-舌尖现象已知项目搜索与推理基准,该基准适用于通用人工智能助手。BLUR 引入了一套573个经过实际验证的问题,这些问题是多模态和多语言输入的搜索与推理,以及熟练使用工具的需要,以出色完成这些任务。人类很容易在这些问题上拿高分(平均得分98%),而表现最好的系统得分约为56%。为了促进通用人工智能助手解决这一富有挑战性和雄心勃勃的应用场景的进展,我们通过公共排行榜发布350个问题,保留其中250个问题的答案,并将其余问题留作私有测试集。