Grouped-Query Attention ref A Visual Guide to Attention Variants in Modern LLMs 这是一种注意力的优化形式,以 q-k 多对一的形式优化 k v 的数量,最终减少存储空间。