概述
完整的Transformer包含Embeddings、Positional encoding、AddNormal、MultiHeadAttention、DecoderLayer、attention、FeedForward、EncoderLayer等多个部分。
注意力机制
VGG -> ResNet -> Inception
QKV
完整的Transformer包含Embeddings、Positional encoding、AddNormal、MultiHeadAttention、DecoderLayer、attention、FeedForward、EncoderLayer等多个部分。
VGG -> ResNet -> Inception
QKV