概述

完整的Transformer包含Embeddings、Positional encoding、AddNormal、MultiHeadAttention、DecoderLayer、attention、FeedForward、EncoderLayer等多个部分。

注意力机制

VGG -> ResNet -> Inception

QKV