LLM2D

摘要

本文旨在回答一个核心问题：开源生成式文本模型在何种程度上可以用于工作流程以近似社会科学研究中的主题分析？为了回答这个问题，我们提出了基于生成式人工智能的主题组织和结构化 (GATOS) 工作流程，该流程使用开源机器学习技术、自然语言处理工具和生成式文本模型来促进主题分析。为了验证该方法的有效性，我们展示了三个案例研究，应用 GATOS 工作流程，利用这些模型和技术归纳地创建类似于传统主题分析程序的代码簿。具体来说，我们研究了包含开源模型和工具的工作流程在多大程度上可以归纳地生成接近已知主题和子主题空间的代码簿。为了应对从这些文本中获取见解的挑战，我们将开源生成式文本模型、检索增强生成和提示工程相结合，以识别大量文本中的代码和主题，即生成定性代码簿。该过程模拟了研究人员在传统主题分析中可能使用的归纳编码过程，即一次阅读一个分析单元，考虑代码簿中现有的代码，然后根据现有代码簿是否提供足够的主题覆盖范围来决定是否生成新的代码。我们使用来自假设组织研究环境的三个合成数据集展示了此工作流程：团队合作环境中队友反馈的研究、组织道德行为文化的研究以及员工对疫情后返回办公室的观点的研究。我们表明，GATOS 工作流程能够识别用于生成原始合成数据集的文本中的主题。