LLM2D
面向更智能的招聘:零-shot 和少-shot 预训练大语言模型适合用于人力资源口语面试记录分析吗?
Towards Smarter Hiring: Are Zero-Shot and Few-Shot Pre-trained LLMs Ready for HR Spoken Interview Transcript Analysis?
作者: Subhankar Maity, Aniket Deroy, Sudeshna Sarkar
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05683v1

摘要

arXiv:2504.05683v1 宣布类型: cross 摘要:本研究论文对知名预训练大型语言模型(LLMs),包括GPT-4 Turbo、GPT-3.5 Turbo、text-davinci-003、text-babbage-001、text-curie-001、text-ada-001、llama-2-7b-chat、llama-2-13b-chat 和 llama-2-70b-chat 在提供评分、识别错误、并为候选人提供反馈和改进建议方面的性能,进行了全面分析,并将其与专家的人力资源(HR)面试评估进行了比较。我们介绍了一个名为 HURIT(人力资源面试转录)的数据集,该数据集包含3,890份来自实际人力资源面试场景的HR面试转录。我们的研究发现表明,预训练LLMs,特别是在提供评分方面,GPT-4 Turbo和GPT-3.5 Turbo表现出色,并能够生成与专家人力资源评估相当的评价。尽管这些LLMs在提供与人力资源专家相当的评分方面表现出色,但在HR面试中,它们经常无法识别错误,并为候选人的表现改进提供具体可操作的建议。我们的研究结果表明,当前最新的预训练LLMs不完全适合自动部署于HR面试评估。相反,我们的研究建议采取人工介入的方法,包括人工检查不一致性和改进反馈质量,作为更为合适的战略。