摘要
arXiv:2409.00159v3 公告类型:替换-交叉
摘要:大型语言模型(LLMs)现在被用于广泛的任务。本文我们探讨了它们在回忆和生成图形方面的能力。我们首先研究了LLMs从文献中回忆熟知图形(例如Karate俱乐部或图大全)的能力。其次,我们通过请求Erdos-Renyi随机图形来质疑LLMs的生成能力。与他们有可能记住其抓取训练集中的一些Erdos-Renyi图形的情况不同,这项第二项调查旨在研究LLMs可能 emergence 的能力。对于这两项任务,我们提出了一个度量标准,以幻觉(即错误信息被当作事实返回)的视角评估其错误。我们尤其发现,图形幻觉的幅度可以表征某些LLMs的优势。确实,在回忆任务中,我们观察到图形幻觉与 hallucination ranking 领先榜相关,这是一个利用10,000倍更多提示来获得其排名的幻觉等级。在生成任务中,我们惊讶地发现大多数LLMs取得了很好的且可再现的结果。我们认为这一点构成了更深入研究这种 emergent 能力的起点,并为他们改进提供了具有挑战性的基准。总的来说,这些LLMs能力的这两方面填补了网络科学与机器学习社区之间的差距。