LLM2D

摘要

arXiv:2410.02820v3 通知类型: 替换摘要: 我们在三个大型语言模型（LLMs）：GPT-4o、Gemma 2 和 Llama 3.1 中调查了认知偏差的存在。该研究使用了九种已确立的认知偏差的1,500次实验来评估这些模型的响应和一致性。GPT-4o 在整体性能上表现最强。Gemma 2 在处理沉没成本谬误和期望价值理论方面表现出优势，但其在不同偏差方面的表现有所波动。Llama 3.1 始终表现不佳，依赖启发式方法，并表现出频繁的一致性和矛盾性。研究结果突显了在 LLMs 中实现稳健且可推广推理的挑战，并强调了需要进一步发展以减轻人工智能通用性（AGI）中的偏差。该研究强调了在未来的AI发展中整合统计推理和伦理考虑的重要性。