LLM2D
通过认知建模揭示人工智能基准中的假设
Exposing Assumptions in AI Benchmarks through Cognitive Modelling
作者: Jonathan H. Rystr{\o}m, Kenneth C. Enevoldsen
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16849v1

摘要

文化人工智能基准通常依赖于对测量构建的隐含假设,导致表述模糊,效度差,相互关系不明确。我们建议使用结构方程模型形式的显式认知模型来暴露这些假设。以跨语言对齐迁移为例,我们展示了这种方法如何回答关键研究问题并识别缺失数据集。此框架从理论上为基准构建奠定了基础,并指导数据集开发以改进构建测量。通过拥抱透明度,我们朝着更严格、更累积的人工智能评估科学迈进,挑战研究人员批判性地检查他们的评估基础。