LLM2D

摘要

arXiv:2504.05683v1 宣布类型: cross 摘要：本研究论文对知名预训练大型语言模型（LLMs），包括GPT-4 Turbo、GPT-3.5 Turbo、text-davinci-003、text-babbage-001、text-curie-001、text-ada-001、llama-2-7b-chat、llama-2-13b-chat 和 llama-2-70b-chat 在提供评分、识别错误、并为候选人提供反馈和改进建议方面的性能，进行了全面分析，并将其与专家的人力资源（HR）面试评估进行了比较。我们介绍了一个名为 HURIT（人力资源面试转录）的数据集，该数据集包含3,890份来自实际人力资源面试场景的HR面试转录。我们的研究发现表明，预训练LLMs，特别是在提供评分方面，GPT-4 Turbo和GPT-3.5 Turbo表现出色，并能够生成与专家人力资源评估相当的评价。尽管这些LLMs在提供与人力资源专家相当的评分方面表现出色，但在HR面试中，它们经常无法识别错误，并为候选人的表现改进提供具体可操作的建议。我们的研究结果表明，当前最新的预训练LLMs不完全适合自动部署于HR面试评估。相反，我们的研究建议采取人工介入的方法，包括人工检查不一致性和改进反馈质量，作为更为合适的战略。