LLM2D
自我提升词嵌入
On Self-improving Token Embeddings
作者: Mario M. Kubek, Shiraj Pokharel, Thomas B\"ohme, Emma L. McDaniel, Herwig Unger, Armin R. Mikler
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14808v1

摘要

arXiv:2504.14808v1 Announce Type: cross 摘要:本文介绍了一种新颖且快速的方法,用于细化预训练的静态词嵌入或更广义地讲,是词元嵌入。通过整合文本语料库中相邻词元的嵌入,该方法不断更新每个词元的表示,包括那些没有预分配嵌入的词元。这种方法有效地解决了词汇量外(OOV)问题。该方法独立于大型语言模型和浅层神经网络,能够实现各种应用,如语料库探索、概念搜索和词义消歧。该方法旨在增强主题活动一致语料库中的词元表示,其中词汇量受限于特定领域,从而与通用预训练向量相比产生更具意义的嵌入。例如,该方法应用于探索NOAA风暴事件数据库子集中的叙述所揭示的风暴事件及其对基础设施和社区的影响。本文还展示了该方法如何随着时间的推移改进与风暴相关的术语表示,揭示了灾难叙述演变的有价值见解。