LLM2D
URECA: 适应语义代码搜索中概念转移背后存在着两阶段最小集覆盖问题的链
URECA: The Chain of Two Minimum Set Cover Problems exists behind Adaptation to Shifts in Semantic Code Search
作者: Seok-Ung Choi, Joonghyuk Hahn, Yo-Sub Han
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07494v1

摘要

arXiv:2502.07494v1 宣告类型: 新 摘要: 调整是让模型学习训练分布变化后的模式。一般来说,这种调整被形式化为最小熵问题。然而,最小熵问题存在固有的局限性——转移初始化级联现象。我们通过勒贝格积分将最小熵问题与最小集覆盖问题的关系进行了扩展。这一扩展揭示了最小熵问题内部机制忽视解纠缠表示之间的关系,从而导致转移初始化级联现象。从分析中,我们引入了一种新的聚类算法,基于并查集的递归聚类算法(URECA)。URECA 是一种利用解纠缠表示之间关系高效聚类的算法。URECA 的更新规则依赖于阈值可更新稳态假设,这是一种稳态假设的释放版本。这一假设帮助 URECA 基于解纠缠表示之间的关系无误地传输解纠缠表示。URECA 还使用模拟技巧来高效聚类解纠缠表示。广泛的研究评估表明,URECA 在查询转移场景中实现了对各种类型转移的少量调整的一致性能提升,并且在 CoSQA 场景中达到了最先进的性能。