摘要
arXiv:2504.05683v1 宣布类型: cross
摘要:本研究论文对知名预训练大型语言模型(LLMs),包括GPT-4 Turbo、GPT-3.5 Turbo、text-davinci-003、text-babbage-001、text-curie-001、text-ada-001、llama-2-7b-chat、llama-2-13b-chat 和 llama-2-70b-chat 在提供评分、识别错误、并为候选人提供反馈和改进建议方面的性能,进行了全面分析,并将其与专家的人力资源(HR)面试评估进行了比较。我们介绍了一个名为 HURIT(人力资源面试转录)的数据集,该数据集包含3,890份来自实际人力资源面试场景的HR面试转录。我们的研究发现表明,预训练LLMs,特别是在提供评分方面,GPT-4 Turbo和GPT-3.5 Turbo表现出色,并能够生成与专家人力资源评估相当的评价。尽管这些LLMs在提供与人力资源专家相当的评分方面表现出色,但在HR面试中,它们经常无法识别错误,并为候选人的表现改进提供具体可操作的建议。我们的研究结果表明,当前最新的预训练LLMs不完全适合自动部署于HR面试评估。相反,我们的研究建议采取人工介入的方法,包括人工检查不一致性和改进反馈质量,作为更为合适的战略。