帮我说说大模型训练中的注意力机制是怎么一回事情

视频信息