HRNet

Deep High-Resolution Representation Learning for Human Pose Estimation Introduction 本篇文章提出了HRNet结构可以在整个网络过程中保持图片较高的分辨率,以高分辨率子网作为第一步,逐步将从高到低的分辨率子网添加以形成更多的网络阶段,然后将多分辨率子网并行连接。通过在整个过程中重复地在并行多分辨率子网中交换信息来进行

Transformer

Attention is all you need Model Architecture Encoder and decoder stacks Encoder:在本篇论文中编码层设置了6层,每一层都有两个子网络,第一个multi-head self-attention mechanism第二个是简单的position-wise 全连接前向网络,并且在每一个子网络中都引入了残差结构之后再接上一个la

Smooth-label

When Does Label Smoothing Help Contribution Preliminaries 假设我们将倒数第二层神经网络的激活函数写为softmax函数: $$p_k=\\frac{e^{x^Tw_k}}{\\sum_{l=1}^Le^{x^Tw_l}}$$ 式中\\(p_k\\)对应模型第\\(k\\)类的置信度,\\(w_k\\)代表模型的权重和偏置,\\(x\\)为倒数第二层(包括激活曾