LLM2D

摘要

本文探究了 Transformer 架构中是否存在 OCR 敏感神经元，以及它们对历史文献命名实体识别 (NER) 性能的影响。通过分析神经元对干净文本和噪声文本输入的激活模式，我们识别并中和了 OCR 敏感神经元，从而提高了模型性能。基于两个开放访问的大型语言模型 (Llama2 和 Mistral)，实验结果证明了 OCR 敏感区域的存在，并展示了在历史报纸和古典注释上 NER 性能的提升，突出了有针对性的神经元调节在提高模型对噪声文本性能方面的潜力。