2018 年 OpenAI 采用 Transformer Decoder 结构在大规模语料上训练了 GPT1 模型,揭开了NLP模型预训练+微调的新范式。2019 年,OpenAI 提出了 GPT2,GPT2 拥有和 GPT1 一样的模型结构,但得益于更多和更高的数据质量以及新引入的多任务学习方式,语言生成能力得到大幅提升。之后由于 GPT 采用 Decoder 单向结构天然缺陷是无法感知上下文,Google 很快提出了 Encoder 结构的 Bert 模型可以感知上下文,效果上也明显有提升,同年 Google 采用Encoder-Decoder 结构,提出了 T5 模型,从此大规模预训练语言模型朝着三个不同方向发展。