摘要
arXiv:2502.14975v1 交叉公告类型
摘要:我们提出了一种开源基准和评估框架,用于评估大型语言模型(LLMs)在情绪边界处理方面的表现。利用涵盖六种语言的1156个提示数据集,我们评估了三种领先的大语言模型(GPT-4o、Claude-3.5 Sonnet和Mistral-large)在通过模式匹配响应分析维持适当情绪边界的能力。我们的框架量化了七个关键模式的响应:直接拒绝、道歉、解释、偏移、认可、边界设定和情绪意识。结果表明,在边界处理方法上存在显著差异,Claude-3.5在整体得分上最高(8.69/10),并产生更长、更复杂的回应(平均86.51个单词)。我们发现英语(平均得分25.62)和非英语互动之间的显著性能差距(<0.22),英语回应中的拒绝率明显更高(43.20% vs. 低于1%的非英语)。模式分析揭示了模型特定的策略,例如Mistral倾向于偏移(4.2%),并在所有模型中保持一致的低共情评分(<0.06)。局限性包括通过模式匹配可能的简化处理,响应分析中缺乏上下文理解,以及复杂情绪回应的二元分类。未来的研究应探索更细致的评分方法,扩大语言覆盖面,并调查文化差异在情绪边界期望方面的影响。我们的基准和方法提供了一个系统评估LLM情绪智能和边界设定能力的基础框架。