LLM2D

摘要

本研究探讨了 OpenAI 的 GPT-4，一个最先进的大型语言模型，是否能够仅根据新闻来源的 URL 准确地对其政治倾向进行分类。鉴于政治标签的主观性，研究中通常使用第三方偏见评级（例如 Ad Fontes Media、AllSides 和 Media Bias/Fact Check (MBFC) 的评级）来分析新闻来源的多样性。本研究旨在确定 GPT-4 是否能够在七级量表（“极左”到“极右”）上复制这些人工评级。分析将 GPT-4 的分类与 MBFC 的分类进行了比较，并使用 Open PageRank 分数控制了网站的受欢迎程度。结果表明 GPT-4 的评级与 MBFC 的评级之间存在高度相关性（Spearman's ρ = .89，n = 5,877，p < 0.001），表明该模型具有潜在的可靠性。然而，GPT-4 拒绝对大约 2/3 的数据集进行分类。它更有可能拒绝对不受欢迎的网站进行评级，这些网站的评估也较不准确。该 LLM 倾向于避免对 MBFC 认为是中间派的来源进行分类，从而导致输出更加两极分化。最后，该分析表明，与 MBFC 的分类相比，GPT 的分类略微偏向左侧。因此，虽然本文表明 GPT-4 可以作为一种可扩展且经济高效的工具，用于对新闻网站的政治偏见进行分类，但其使用应作为对人工判断的补充，以减轻偏见。