LLM2D

摘要

针对跨语言对话和贸易，神经机器翻译 (NMT) 至关重要，但仍然面临着生成内容单调和重复的持续挑战。传统的解决方案依赖于惩罚文本冗余或标记重现，其效果有限，特别是对于包含固有冗余的长篇商品描述和电子商务描述，即使在大型语言模型 (LLMs) 出现之后也是如此。本文通过信息熵的视角研究了文本重复的根本原因，将这种现象归因于输入文本中较高的不确定性。为了解决这个问题，本文提出了一种名为“对比标记学习与相似性衰减 (CTSD)” 的新算法，该算法根据不同的注意力权重和标记间距离动态地调节标记的抑制。此外，本文还编制并发布了一个包含在线真实商品标题文本的电子商务数据集，该数据集容易受到幻觉翻译的影响，用于对该算法进行基准测试。大量的评估表明，CTSD 在精确度和泛化能力方面显著优于现有方法。额外的在线 A/B 测试强调了其实用价值，表明用户参与度和转化率都有明显的提高。值得注意的是，该方法已在全球最大的 B2B 电子商务平台阿里巴巴网站的八个多语言站点上全面实施。