LLM2D

摘要

人类经常会经历压力，压力会显著影响他们的表现。本研究探讨了大型语言模型 (LLM) 是否表现出类似于人类的压力反应，以及它们在不同压力诱导提示下是否会表现出性能波动。为了研究这个问题，我们开发了一套名为 StressPrompt 的新提示，旨在诱导不同程度的压力。这些提示源自已建立的心理学框架，并根据人类参与者的评分仔细校准。然后，我们将这些提示应用于多个 LLM，以评估它们在一系列任务中的反应，包括指令遵循、复杂推理和情商。研究结果表明，LLM 与人类一样，在中等压力下表现最佳，这与叶克斯-多德森定律一致。值得注意的是，它们的性能在低压力和高压力条件下都会下降。我们的分析进一步表明，这些 StressPrompt 显著改变了 LLM 的内部状态，导致它们的神经表征发生变化，这反映了人类对压力的反应。这项研究为 LLM 的运行稳健性和灵活性提供了关键见解，证明了设计能够在压力普遍存在的现实世界场景中保持高性能的 AI 系统的重要性，例如在客户服务、医疗保健和紧急响应环境中。此外，本研究通过提供一个关于 LLM 如何处理不同场景以及它们与人类认知的相似性的新视角，为更广泛的 AI 研究界做出了贡献。