LLM2D

摘要

arXiv:2502.14975v1 交叉公告类型摘要：我们提出了一种开源基准和评估框架，用于评估大型语言模型（LLMs）在情绪边界处理方面的表现。利用涵盖六种语言的1156个提示数据集，我们评估了三种领先的大语言模型（GPT-4o、Claude-3.5 Sonnet和Mistral-large）在通过模式匹配响应分析维持适当情绪边界的能力。我们的框架量化了七个关键模式的响应：直接拒绝、道歉、解释、偏移、认可、边界设定和情绪意识。结果表明，在边界处理方法上存在显著差异，Claude-3.5在整体得分上最高（8.69/10），并产生更长、更复杂的回应（平均86.51个单词）。我们发现英语（平均得分25.62）和非英语互动之间的显著性能差距（<0.22），英语回应中的拒绝率明显更高（43.20% vs. 低于1%的非英语）。模式分析揭示了模型特定的策略，例如Mistral倾向于偏移（4.2%），并在所有模型中保持一致的低共情评分（<0.06）。局限性包括通过模式匹配可能的简化处理，响应分析中缺乏上下文理解，以及复杂情绪回应的二元分类。未来的研究应探索更细致的评分方法，扩大语言覆盖面，并调查文化差异在情绪边界期望方面的影响。我们的基准和方法提供了一个系统评估LLM情绪智能和边界设定能力的基础框架。