摘要
我们探索了一种创新的语言模型交互系统中的协作动态,该系统涉及GPT-4-0125-preview、Meta-LLaMA-3-70B-Instruct、Claude-3-Opus和Gemini-1.5-Flash等高级模型。这些模型能够生成并回答复杂的博士级别统计问题,而这些问题并没有确切的标准答案。我们的研究调查了模型间的共识如何增强响应的可靠性和精确性。通过采用卡方检验、Fleiss Kappa和置信区间分析等统计方法,我们评估了共识率和评分者间一致性,以量化协作输出的可靠性。关键结果表明,Claude和GPT-4表现出最高的可靠性和一致性,这体现在它们更窄的置信区间和与问题生成模型更高的匹配度上。相反,Gemini和LLaMA在共识率方面表现出更大的差异性,这反映在更宽的置信区间和更低的可靠性百分比上。这些发现表明,大型语言模型(LLM)之间的协作交互显著提高了响应的可靠性,为人工智能系统中的自主、协作推理和验证提供了新的见解。