摘要
链接是信息网络的基石,将孤立的知识片段转化为一个信息网络,其价值远超各部分之和。然而,向网络添加新链接并非易事:它不仅需要识别合适的源实体和目标实体对,还需要理解源内容,以便在文本中找到合适的链接插入位置。后一个问题尚未得到有效解决,尤其是在源文本中没有可作为锚点来插入指向目标实体的链接的文本片段的情况下。为了弥合这一差距,我们引入了信息网络中实体插入的任务并使其可操作。以维基百科为例,我们通过实证表明,这个问题对于编辑来说既有意义又具有挑战性。我们构建了一个包含 105 种语言的基准数据集,并开发了一个名为 LocEI(本地化实体插入)及其多语言变体 XLocEI 的实体插入框架。我们证明了 XLocEI 优于所有基线模型(包括最先进的基于提示的 LLM 排名,例如 GPT-4),并且它可以在没有训练过的语言上以零样本的方式应用,性能下降微乎其微。这些发现对于在实践中应用实体插入模型至关重要,例如,支持编辑在维基百科的 300 多种语言版本之间添加链接。