摘要
arXiv:2503.24228v1 宣告类型: 新
摘要:在电子商务中,为了进行决策而收集的行为数据往往成本高昂且耗时。使用LLM(大型语言模型)驱动的代理进行模拟正逐渐成为代表人类群体行为的一种有前景的替代方案。然而,众所周知,LLM表现出一定的偏见,如品牌偏见、评分偏见以及某些群体在人口中的有限表现,因此它们需要经过仔细的基准测试和与用户行为的对齐。最终,我们的目标是合成一个代理群体,并验证其集体行为近似于真实的人类样本。为此,我们提出了一个框架:(i) 通过自动挖掘匿名的历史购物数据中的个性特征来创建合成购物代理,(ii) 为代理配备特定零售工具以合成购物会话,并 (iii) 引入一套新颖的对齐套件,该套件在群体(即,人口)层面上而不是传统意义上的"个体"层面上衡量人类和购物代理之间的分布差异。实验结果表明,使用个性特征可以改善对齐套件的性能,尽管与人类行为之间仍存在差距。我们展示了该框架在自动代理A/B测试中的一种初步应用,并将其发现与人类结果进行比较。最后,我们讨论了应用、限制和挑战,为未来有影响力的进一步工作奠定了舞台。