阿森知识库

❯

计算机理论

❯

BERT

2026年3月26日2分钟阅读

Bidirectional Encoder Representations from Transformers，双向表征编码器

ref:

Building A GPT-Style LLM Classifier From Scratch

BERT 实际上就是利用了 Transformer 的 Encoder 部分，包含：

多头自注意力网络
前馈网络 FFN

几个理解：

双向：注意力的计算是双向并非单向的，意味着 BERT 算法能够完整理解单句句子的完整上下文
编码：对语言文本编码，即为 BERT 最终输出的是句子语义上下文的抽象表示。

总而言之，就是“对自然语言的编码器”。

BERT 的应用场景和 GPT 有所不同，BERT 更倾向于对语义的编码理解。

如果说 GPT 仅使用 Decoder，善于生成，那么 BERT 仅使用 Encoder ，善于理解。

所以 BERT 一般用于分类任务，或者理解任务使用。

关系图谱

反向链接

BERT

最近的笔记

Transformer
2026年3月26日
BERT
2026年3月26日
GQA
2026年3月25日

Created with Quartz v4.5.2 © 2026

GitHub