CCT

xyh
CV
2022-02-08
389热度
0评论

Escaping the Big Data Paradigm with Compact Transformers

Introduction

文章的动机在于消除transformer需要大量数据驱动，所以作者的想法就是将CNN与transformer的结构结合起来。

所以本篇论文的贡献如下：

通过引入ViT-Lite来消除transformer需要数据驱动
引入Compact Vision Transformer（CVT）主要就是引入seq pooling
引入Compact Convolutional Transformer

Methodology

VIT-lite就是相当于普通的ViT但是patch的尺度更小

Convolutional Block

为了能够将归纳偏置引入模型中，将embedding patch转换成了卷积模块，好处是可以让输入的图像尺寸大小变得更加灵活。

公式表示为：

$$ x_0=MaxPool(ReLU(Conv2d(x))) $$

SeqPool

说白了就是将矩阵
$$
R^{b×n×d}→R^{b×d},g(x_L)∈R^{d×1}
$$
其中b代表的是batch size，n代表sequence length，d代表矩阵嵌入的维度。

具体的映射步骤为
$$
x_L^′=softmax(g(x_L )^T )∈R^{b×1×n}\\
z=x_L^′ x_L=softmax(g(x_L )^T)×x_L∈R^{b×1×d}
$$

恨相知晚

一起参与讨论！

基于Wordpress. Theme By Document. ICP备案号 ICP备10086号