Escaping the Big Data Paradigm with Compact Transformers
Introduction
本篇文章的动机在于消除transformer需要大量数据驱动
所以作者的想法就是将CNN与transformer的结构结合起来
所以本篇论文的贡献如下:
- 通过引入ViT-Lite来消除transformer需要数据驱动
- 引入Compact Vision Transformer(CVT)主要就是引入seq pooling
- 引入Compact Convolutional Transformer
Methodology
首先VIT-lite就是相当于普通的ViT但是patch的尺度更小
Convolutional Block
作者为了能够将归纳偏置引入模型中,所以将embedding patch转换成了卷积模块,
这样做的好处可以让输入的图像尺寸大小变得更加灵活
SeqPool
说白了就是将矩阵
$$
R^{b×n×d}→R^{b×d},g(x_L)∈R^{d×1}
$$
其中b代表的是batch size,n代表sequence length,d代表矩阵嵌入的维度
具体的映射步骤为
$$
x_L^′=softmax(g(x_L )^T )∈R^{b×1×n}
$$
$$
z=x_L^′ x_L=softmax(g(x_L )^T)×x_L∈R^{b×1×d}
$$