LLM2D

摘要

arXiv:2504.07801v1 类型: cross 摘要: 近期大规模语言模型（LLMs）的发展使其能够应用于推荐系统（RecLLMs），但人们仍对这些模型在人口统计和心理用户维度上的公平性存有担忧。我们引入了FairEval，一个全新的评估框架，用于系统地评估基于LLM的推荐系统的公平性。FairEval将个性特征与八个人口统计敏感属性相结合，包括性别、种族和年龄，从而能够全面评估用户层面的偏差。我们对ChatGPT 4o和Gemini 1.5 Flash等模型在音乐和电影推荐上的表现进行了评估。FairEval的公平性指标PAFS在ChatGPT 4o上的得分为0.9969，在Gemini 1.5 Flash上的得分为0.9997，偏差达到了34.79个百分点。这些结果强调了提示敏感性鲁棒性的重要性，并支持更具包容性的推荐系统。