摘要
arXiv:2505.10260v1 交叉公告类型:cross
摘要:在自然语言处理(NLP)系统日益 sophisticated 的时代,大规模语言模型(LLMs)在各类应用中展现出了惊人的潜力,包括那些需要细致文本理解和上下文推理的任务。本研究探讨了 GPT-3.5、GPT-4、LLAMA3、Mistral 7B 和 Claude-2 等多个最先进的 LLMs 在繁复文本数据集中的零样本和少样本标注能力,该数据集包含俄语和乌克兰语的社会媒体帖子。具体而言,本研究的重点是在数据集中识别人权侵犯的二元分类任务。
为了评估这些模型的有效性,它们的标注与 1000 个样本的人类双标注标准集进行了对比分析。分析包括在不同提示条件下评估标注性能,提示有提供英文和俄文两种版本。此外,研究还探讨了每种模型在错误模式和分歧方面展现的差异化特点,这为了解它们的优势、限制及其跨语言适应性提供了见解。
通过将LLM输出与人类标注进行对比,本研究有助于理解在多语言环境中,LLMs在敏感、特定领域任务中的可靠性和适用性。它还揭示了语言模型在处理本质上主观且依赖于上下文的判断方面的方式,这是其在现实世界场景中部署时需要考虑的关键因素。