Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Introduction 作者认为现在的VIT有以下两种缺点: 针对上述问题,作者给出了本文的两个贡献点: Tokens-to-Token ViT Tokens-to-Token: Progressive Tokenization 包含两个步骤 Re
Learning RoI Transformer for Oriented Object Detection in Aerial Images Introduction 由于遥感检测目标的任意性,有许多检测器会在设置anchor的时候加入旋转角的anchor,虽然这在一定程度上能够提升召回率,但是精度会下降除此之外还会增加计算成本。 而如果RPN单纯去预测水平候选区域的边界框,那么可能一个候选区域
Aggregated Residual Transformations for Deep Neural Networks Introduction 作者介绍了谷歌的Inception module的工作,指出该module是通过\\(1*1\\)的卷积将输入拆分出低维的嵌入,然后再通过特定的卷积核之后将得到的向量特征图拼接在一起。但是该模型有一个缺点,需要人为手动去设计每一层,较为繁琐。所以本篇文章提
Deep High-Resolution Representation Learning for Human Pose Estimation Introduction 本篇文章提出了HRNet结构可以在整个网络过程中保持图片较高的分辨率,以高分辨率子网作为第一步,逐步将从高到低的分辨率子网添加以形成更多的网络阶段,然后将多分辨率子网并行连接。通过在整个过程中重复地在并行多分辨率子网中交换信息来进行