LLM2D
Dialz: 一个 Python 工具包,用于操控向量
Dialz: A Python Toolkit for Steering Vectors
作者: Zara Siddique, Liam D. Turner, Luis Espinosa-Anke
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06262v1

摘要

arXiv:2505.06262v1 交叉类型: 摘要: 我们介绍了Dialz,这是一种用Python实现的框架,用于推动开源LLM的引导向量研究。引导向量允许用户在推理时修改激活值,以增强或削弱某种“概念”,例如诚实或积极性,为预设或微调提供了更强大的替代方案。Dialz支持一系列任务,包括创建对比对数据集、计算和应用引导向量以及可视化。与现有库不同,Dialz强调模块化和易用性,既支持快速原型设计,也支持深入分析。我们展示了Dialz如何被用于减少有害输出,如刻板印象,同时也为不同层的模型行为提供了见解。我们发布了Dialz,附带完整的文档、教程和对流行开源模型的支持,以鼓励在安全可控的语言生成方面进行进一步研究。Dialz加快了研究周期,并促进了对模型可解释性的见解,为更安全、更透明和更可靠的AI系统的实现铺平了道路。