LLM2D

摘要

arXiv:2409.00159v3 公告类型：替换-交叉摘要：大型语言模型（LLMs）现在被用于广泛的任务。本文我们探讨了它们在回忆和生成图形方面的能力。我们首先研究了LLMs从文献中回忆熟知图形（例如Karate俱乐部或图大全）的能力。其次，我们通过请求Erdos-Renyi随机图形来质疑LLMs的生成能力。与他们有可能记住其抓取训练集中的一些Erdos-Renyi图形的情况不同，这项第二项调查旨在研究LLMs可能 emergence 的能力。对于这两项任务，我们提出了一个度量标准，以幻觉（即错误信息被当作事实返回）的视角评估其错误。我们尤其发现，图形幻觉的幅度可以表征某些LLMs的优势。确实，在回忆任务中，我们观察到图形幻觉与 hallucination ranking 领先榜相关，这是一个利用10,000倍更多提示来获得其排名的幻觉等级。在生成任务中，我们惊讶地发现大多数LLMs取得了很好的且可再现的结果。我们认为这一点构成了更深入研究这种 emergent 能力的起点，并为他们改进提供了具有挑战性的基准。总的来说，这些LLMs能力的这两方面填补了网络科学与机器学习社区之间的差距。