LLM2D

摘要

文化人工智能基准通常依赖于对测量构建的隐含假设，导致表述模糊，效度差，相互关系不明确。我们建议使用结构方程模型形式的显式认知模型来暴露这些假设。以跨语言对齐迁移为例，我们展示了这种方法如何回答关键研究问题并识别缺失数据集。此框架从理论上为基准构建奠定了基础，并指导数据集开发以改进构建测量。通过拥抱透明度，我们朝着更严格、更累积的人工智能评估科学迈进，挑战研究人员批判性地检查他们的评估基础。