阿森知识库

❯

计算机理论

❯

MLA

2026年3月25日1分钟阅读

MLA，Multi-Head Latent Attention

ref:

A Visual Guide to Attention Variants in Modern LLMs

多头潜在注意力，也是多头注意力的优化形式，是 DeepSeek 的主要模式，用以进一步压缩 KV 的尺寸。

这种方式虽然提升了模型性能，但是实现和服务的方式会更复杂一些。

关系图谱

反向链接

注意力

最近的笔记

Transformer
2026年3月26日
BERT
2026年3月26日
GQA
2026年3月25日

Created with Quartz v4.5.2 © 2026

GitHub