XYH Blog－与你共享美好生活

FAR

Frequency Autoregressive Image Generation with Continuous Tokens 概览以MAR为基础（需要注意的是，作者提到VAR的token是离散的，本文使用的是连续的，原因：信息损失以及压缩率），但是将尺度替换成了频率整体框架如下图所示：方法频谱依赖：在自回归图像生成的回归方向问题中，核心挑战在于如何协调因果序列要求与图像的固有先验。本文

AIGC
xyh
2025-05-19
32 热度
0评论

DAPO: An Open-Source LLM Reinforcement Learning System at Scale 单纯从公式表现形式上来可以看成是PPO与GRPO的融合: PPO的化目标为: $$\\mathcal{J}_{PPO}(\\theta)=\\mathbb{E}{(q, a) \\sim \\mathcal{D}, o_{\\leq t} \\sim \\pi_{\\theta_{old

RL
xyh
2025-03-20
71 热度
0评论

TOOD

TOOD: Task-aligned One-stage Object Detection Introduction 这篇文章想要解决的问题为：得分最高和回归最好的物体可能并不是同一个位置所预测出来的针对上述问题作者提出了TAHead与TAL 现在主流的检测器会有以下问题作者接着分析造成上述两种问题的原因，其一是两个分支是分别预测的，并没有太多内在联系，其二是样本分配的策略只关注了几何特征而忽

CV
xyh
2022-02-28
54 热度
0评论

CFC-Net

CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented Object Detection in Remote Sensing Images INTRODUCTION 作者的动机在于认为现在的模型并不能提取和利用复杂的的特征也不能区分特征，并且提前设置anchor可能会造成以下问题：上图解释了什么是关键特征，作者发现

CV
xyh
2022-02-24
61 热度
0评论

CCT

Escaping the Big Data Paradigm with Compact Transformers Introduction 文章的动机在于消除transformer需要大量数据驱动，所以作者的想法就是将CNN与transformer的结构结合起来。所以本篇论文的贡献如下： Methodology VIT-lite就是相当于普通的ViT但是patch的尺度更小 Convolutio

CV
xyh
2022-02-08
271 热度
0评论

DAE

Anchor Retouching via Model Interaction for Robust Object Detection in Aerial Images INTRODUCTION 作者写这篇文章的动机为：作者认为anchorbased的方法按照默认的参数其实没有办法分配到小目标，会导致最终检测的性能下降由于水平框内通常为旋转目标，所以框内有大量噪声干扰，无法很准确的进行特征尺度

CV
xyh
2022-02-07
102 热度
0评论

O2MER

Learning Oriented Remote Sensing Object Detection via Naive Geometric Computing Introduction 作者把目前的遥感检测模型的回归方式分成了三类但是这些方法其实都不是很鲁棒，作者的想法就是结合水平预测的区域与任意方向的请些区域预测的坐标关系使得函数更加鲁棒本篇论文的贡献： Methodology 该框架以Ro

CV
xyh
2022-02-07
99 热度
0评论

GFL

Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection Introduction 作者写本文的动机：因此作者提出了GFL，这种GFL loss方式可以被特化为QFL与DFL用于分类和定位 GFL的好处： Method Quality Focal Los

CV
xyh
2022-02-06
107 热度
0评论

T2T

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Introduction 作者认为现在的VIT有以下两种缺点：针对上述问题，作者给出了本文的两个贡献点： Tokens-to-Token ViT Tokens-to-Token: Progressive Tokenization 包含两个步骤 Re

CV
xyh
2022-02-05
91 热度
0评论

VFNet

VarifocalNet: An IoU-aware Dense Object Detector Introduction 本篇文章的贡献： 1、提出了IACS（IoU-aware classification）,准确地对候选检测进行排名(得分)对于高性能密集对象检测器至关重要，并且 IACS 比其他方法获得了更好的排名 2、提出了新的loss Varifocal Loss 3、设计了一个星形表示

CV
xyh
2022-01-30
99 热度
0评论