T2T

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Introduction 作者认为现在的VIT有以下两种缺点: 针对上述问题,作者给出了本文的两个贡献点: Tokens-to-Token ViT Tokens-to-Token: Progressive Tokenization 包含两个步骤 Re

Swinv2

Swin Transformer V2: Scaling Up Capacity and Resolution 在本篇论文中,作者主要想解决的问题 视觉任务模型目前无法去像语言模型那样可以一直增大模型规模,当视觉模型参数量增大时,通常会遇到下面两个问题 所以作者针对上述问题对swin transformer做出了改进 Introduction 作者针对摘要的问题又进行了一定的解释: 首先作者发现随

ReDet

ReDet: A Rotation-equivariant Detector for Aerial Object Detection Introduction contribution 论文里提到的方法如下图所示: 一共包含了两个部分:旋转同变性特征的提取和旋转不变性特征的提取 Preliminaries 同变性的等式可以列为: $$Φ=T_g^Y $$ 其中\\(

RoI-transformer

Learning RoI Transformer for Oriented Object Detection in Aerial Images Introduction 由于遥感检测目标的任意性,有许多检测器会在设置anchor的时候加入旋转角的anchor,虽然这在一定程度上能够提升召回率,但是精度会下降除此之外还会增加计算成本。 而如果RPN单纯去预测水平候选区域的边界框,那么可能一个候选区域

ResNeXt

Aggregated Residual Transformations for Deep Neural Networks Introduction 作者介绍了谷歌的Inception module的工作,指出该module是通过\\(1*1\\)的卷积将输入拆分出低维的嵌入,然后再通过特定的卷积核之后将得到的向量特征图拼接在一起。但是该模型有一个缺点,需要人为手动去设计每一层,较为繁琐。所以本篇文章提

HRNet

Deep High-Resolution Representation Learning for Human Pose Estimation Introduction 本篇文章提出了HRNet结构可以在整个网络过程中保持图片较高的分辨率,以高分辨率子网作为第一步,逐步将从高到低的分辨率子网添加以形成更多的网络阶段,然后将多分辨率子网并行连接。通过在整个过程中重复地在并行多分辨率子网中交换信息来进行