摘要
大型语言模型已在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于大型语言模型的方法……
在许多社会科学学科中,定性分析对于理解人类数据集至关重要。开放式编码是一种归纳性定性过程,它识别并解释数据集中的“开放式代码”。然而,满足方法论期望(例如“尽可能详尽”)可能具有挑战性。虽然许多机器学习 (ML)/生成式人工智能 (GAI) 研究试图支持开放式编码,但很少有研究系统地测量或评估 GAI 结果,从而增加了潜在的偏差风险。基于扎根理论和主题分析理论,我们提出了一种计算方法来系统地测量和识别“开放式代码”中的潜在偏差。我们的方法不是将人类专家结果作为“基本事实”来操作,而是建立在人机编码员之间的团队合作方法之上。我们使用两个 HCI 数据集通过 1) 与人工分析进行比较,以及 2) 分析其输出的稳定性来验证该方法的可靠性。我们提出了基于证据的建议和支持开放式编码的 ML/GAI 示例工作流程。