LLM2D

摘要

我们探索了一种创新的语言模型交互系统中的协作动态，该系统涉及GPT-4-0125-preview、Meta-LLaMA-3-70B-Instruct、Claude-3-Opus和Gemini-1.5-Flash等高级模型。这些模型能够生成并回答复杂的博士级别统计问题，而这些问题并没有确切的标准答案。我们的研究调查了模型间的共识如何增强响应的可靠性和精确性。通过采用卡方检验、Fleiss Kappa和置信区间分析等统计方法，我们评估了共识率和评分者间一致性，以量化协作输出的可靠性。关键结果表明，Claude和GPT-4表现出最高的可靠性和一致性，这体现在它们更窄的置信区间和与问题生成模型更高的匹配度上。相反，Gemini和LLaMA在共识率方面表现出更大的差异性，这反映在更宽的置信区间和更低的可靠性百分比上。这些发现表明，大型语言模型（LLM）之间的协作交互显著提高了响应的可靠性，为人工智能系统中的自主、协作推理和验证提供了新的见解。