Self-attention
transformer 论文之前已经有人提出,但
transformer 是第一个只依赖自注意力机制(self-attnetion)来实现
encoder-decoder 架构的模型。