摘要
arXiv:2502.04382v1 交叉类型公告
摘要:我们描述了HypotheSAEs,这是一种通用方法,用于假设文本数据(例如,标题)与目标变量(例如,点击量)之间的可解释关系。HypotheSAEs有三个步骤:(1) 在文本嵌入上训练一个稀疏自编码器,以生成描述数据分布的可解释特征;(2) 选择预测目标变量的特征;(3) 使用大规模语言模型(LLM)生成每个特征的自然语言解释(例如,“提及惊讶或震惊的情况”)。每个解释都作为一种假设,说明什么预测目标变量。与基准方法相比,我们的方法在合成数据集上更好地识别了参考假设(至少在F1分数上提高0.06),并且在现实数据集上产生了更多的具有预测性的假设(约是先前基于LLM方法的两倍),尽管所需的计算量比最近的LLM基方法少一个到两个数量级的量级。HypotheSAEs还在两个广泛研究的任务中产生了新颖的发现:解释国会演讲中的立场差异以及识别在线头条新闻引起参与度的驱动因素。