介绍 transformer 架构的注意力机制,尤其是关于 Query、Key、Value 矩阵,已经 Head 的概念。MQA 如何进行注意力机制的优化?

视频信息