手搓Transformer

Transformers理论学习与使用实践

August 22, 2025 · 141 words · compasty

概述

完整的Transformer包含Embeddings、Positional encoding、AddNormal、MultiHeadAttention、DecoderLayer、attention、FeedForward、EncoderLayer等多个部分。

VGG -> ResNet -> Inception

QKV