backbone－XYH Blog

T2T

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Introduction 作者认为现在的VIT有以下两种缺点：针对上述问题，作者给出了本文的两个贡献点： Tokens-to-Token ViT Tokens-to-Token: Progressive Tokenization 包含两个步骤 Re

CV
xyh
2022-02-05
331 热度
0评论

Swinv2

Swin Transformer V2: Scaling Up Capacity and Resolution 在本篇论文中，作者主要想解决的问题视觉任务模型目前无法去像语言模型那样可以一直增大模型规模，当视觉模型参数量增大时，通常会遇到下面两个问题所以作者针对上述问题对swin transformer做出了改进 Introduction 作者针对摘要的问题又进行了一定的解释：首先作者发现随

CV
xyh
2022-01-28
154 热度
0评论

ReDet

ReDet: A Rotation-equivariant Detector for Aerial Object Detection Introduction contribution 论文里提到的方法如下图所示：一共包含了两个部分：旋转同变性特征的提取和旋转不变性特征的提取 Preliminaries 同变性的等式可以列为： $$Φ=T_g^Y $$ 其中\\(

CV
xyh
2021-08-15
46 热度
0评论

RoI-transformer

Learning RoI Transformer for Oriented Object Detection in Aerial Images Introduction 由于遥感检测目标的任意性，有许多检测器会在设置anchor的时候加入旋转角的anchor，虽然这在一定程度上能够提升召回率，但是精度会下降除此之外还会增加计算成本。而如果RPN单纯去预测水平候选区域的边界框，那么可能一个候选区域

CV
xyh
2021-06-15
282 热度
0评论

Aggregated Residual Transformations for Deep Neural Networks Introduction 作者介绍了谷歌的Inception module的工作，指出该module是通过\$1*1\$的卷积将输入拆分出低维的嵌入，然后再通过特定的卷积核之后将得到的向量特征图拼接在一起。但是该模型有一个缺点，需要人为手动去设计每一层，较为繁琐。所以本篇文章提

CV
xyh
2021-06-01
142 热度
0评论

HRNet

Deep High-Resolution Representation Learning for Human Pose Estimation Introduction 本篇文章提出了HRNet结构可以在整个网络过程中保持图片较高的分辨率，以高分辨率子网作为第一步，逐步将从高到低的分辨率子网添加以形成更多的网络阶段，然后将多分辨率子网并行连接。通过在整个过程中重复地在并行多分辨率子网中交换信息来进行

CV
xyh
2021-05-31
289 热度
0评论

T2T

Swinv2

ReDet

RoI-transformer

ResNeXt

HRNet