Bidirectional Encoder Representations from Transformers,双向表征编码器

ref:

BERT 实际上就是利用了 Transformer 的 Encoder 部分,包含:

几个理解:

  • 双向:注意力的计算是双向并非单向的,意味着 BERT 算法能够完整理解单句句子的完整上下文
  • 编码:对语言文本编码,即为 BERT 最终输出的是句子语义上下文的抽象表示。

总而言之,就是“对自然语言的编码器”。

BERT 的应用场景和 GPT 有所不同,BERT 更倾向于对语义的编码理解。

如果说 GPT 仅使用 Decoder,善于生成,那么 BERT 仅使用 Encoder ,善于理解。

所以 BERT 一般用于分类任务,或者理解任务使用。