DAPO: An Open-Source LLM Reinforcement Learning System at Scale 单纯从公式表现形式上来可以看成是PPO与GRPO的融合: PPO的化目标为: $$\\mathcal{J}_{PPO}(\\theta)=\\mathbb{E}{(q, a) \\sim \\mathcal{D}, o_{\\leq t} \\sim \\pi_{\\theta_{old
Escaping the Big Data Paradigm with Compact Transformers Introduction 文章的动机在于消除transformer需要大量数据驱动,所以作者的想法就是将CNN与transformer的结构结合起来。 所以本篇论文的贡献如下: Methodology VIT-lite就是相当于普通的ViT但是patch的尺度更小 Convolutio
Anchor Retouching via Model Interaction for Robust Object Detection in Aerial Images INTRODUCTION 作者写这篇文章的动机为: 作者认为anchorbased的方法按照默认的参数其实没有办法分配到小目标,会导致最终检测的性能下降 由于水平框内通常为旋转目标,所以框内有大量噪声干扰,无法很准确的进行特征尺度
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Introduction 作者认为现在的VIT有以下两种缺点: 针对上述问题,作者给出了本文的两个贡献点: Tokens-to-Token ViT Tokens-to-Token: Progressive Tokenization 包含两个步骤 Re