LLM2D

摘要

arXiv:2502.04426v1 类型:交叉学科摘要：大型语言模型（LLMs）越来越多地被用于评估新闻可信度，但对于它们如何作出这些判断知之甚少。虽然先前的研究已经考察了LLM输出中的政治偏见或是它们进行自动事实核查的潜在能力，但它们内部评估过程仍然很大程度上未被研究。了解LLMs如何评估可信度可以为我们提供关于AI行为以及可信度如何在大规模语言模型中构建和应用的洞察。本研究对最前沿的LLMs——Gemini 1.5 Flash（谷歌）、GPT-4o mini（OpenAI）和LLaMA 3.1（Meta）——进行了基准测试，将其与结构化、专家驱动的评价系统（如NewsGuard和Media Bias Fact Check）进行对比。除了评估分类性能外，我们还分析了塑造LLMs决策的语言标志，识别出哪些词汇和概念驱动它们的评估。通过检查关键词频率、上下文决定因素和排名分布，我们发现了LLMs如何将可信度与特定语言特征关联起来的模式。除了静态分类之外，我们提出了一种框架，其中LLMs通过检索外部信息、查询其他模型并调整其响应，来进一步细化其可信度评估。这使我们能够调查其评估是否反映的是结构化的推理还是主要依赖于先前学习的关联。