Multi-head Attention,多头注意力
ref
经过优化的注意力形式,将多个注意力并行计算,用以提取文章中多个不同的“关注点”。

理解
一个 attention 可以理解为一个“语法维度”,例如代词,形容词,动作联系。
多个 attention 识别的是多个“语法维度”,更多的 attention 在一起,得到的就是对整句话的完整语义理解。
Multi-head Attention,多头注意力
ref
经过优化的注意力形式,将多个注意力并行计算,用以提取文章中多个不同的“关注点”。

一个 attention 可以理解为一个“语法维度”,例如代词,形容词,动作联系。
多个 attention 识别的是多个“语法维度”,更多的 attention 在一起,得到的就是对整句话的完整语义理解。