摘要
arXiv:2412.06303v2 数据科学家AI (DSAI)类型: 交叉替换
摘要:大型语言模型(LLMs)往往难以客观地在大规模数据集中识别潜在特征,因为它们依赖预训练知识而非实际数据模式。为了解决这一数据关联问题,我们提出了数据科学家AI(DSAI),这是一种框架,通过具有可量化的突出度度量的多阶段管道实现无偏且可解释的特征提取。在具有已知真实特征的合成数据集中,DSAI在识别专家定义的特征方面表现出高召回率,并忠实地反映了底层数据。应用于实际数据集的例子展示了该框架在最少专家监督的情况下发现有意义模式的实际用途,支持可解释分类等应用场景。
我们论文的标题是基于DSAI生成的标准从多个候选者中选择的。