MLA,Multi-Head Latent Attention

ref:

多头潜在注意力,也是多头注意力的优化形式,是 DeepSeek 的主要模式,用以进一步压缩 KV 的尺寸。

这种方式虽然提升了模型性能,但是实现和服务的方式会更复杂一些。