Transformer
Attention is all you need Model Architecture Encoder and decoder stacks Encoder:在本篇论文中编码层设置了6层,每一层都有两个子网络,第一个multi-head self-attention mechanism第二个是简单的position-wise 全连接前向网络,并且在每一个子网络中都引入了残差结构之后再接上一个la
Smooth-label
When Does Label Smoothing Help Contribution Preliminaries 假设我们将倒数第二层神经网络的激活函数写为softmax函数: $$p_k=\\frac{e^{x^Tw_k}}{\\sum_{l=1}^Le^{x^Tw_l}}$$ 式中\\(p_k\\)对应模型第\\(k\\)类的置信度,\\(w_k\\)代表模型的权重和偏置,\\(x\\)为倒数第二层(包括激活曾