LLM2D

循环Transformer能否学会为上下文学习实现多步梯度下降？

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning?

作者: Khashayar Gatmiry, Nikunj Saunshi, Sashank J. Reddi, Stefanie Jegelka, Sanjiv Kumar

发布日期: 10/14/2024

arXiv ID: oai:arXiv.org:2410.08292v1

大型语言模型（LLMs）在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于 LLMs 的方法……