摘要
这项工作研究了针对道德推理微调的大型语言模型 (LLM) 与执行相同任务的人类行为数据和/或脑部数据的匹配程度 (BrainScore)。我们还探讨了使用人类执行道德推理的 fMRI 数据对多个 LLM 进行微调是否可以提高 BrainScore。我们使用 ETHICS 基准测试 [Hendrycks 等人,2020] 中的道德推理行为数据、Koster-Hale 等人 [2013] 的道德推理 fMRI 数据或两者数据,对多个 LLM(BERT、RoBERTa、DeBERTa)进行微调。我们研究了 ETHICS 基准测试的准确性和模型激活与 fMRI 数据之间的 BrainScore。虽然更大的模型在两个指标上的表现普遍更好,但微调后 BrainScore 没有显著提高。