KalelPark's LAB

[ 논문 리뷰 ] VOLO: Vision Outlooker for Visual Recognition 본문

Data Science/Classification

[ 논문 리뷰 ] VOLO: Vision Outlooker for Visual Recognition

kalelpark 2023. 5. 10. 09:27

Abstract

본 논문에서는, attention-based model이 CNN을 능가할 수 있음을 보여주고, 성능간의 격차를 줄이려고 노력했음을 보여줍니다. 또한, Image Classification에서의 ViT가 성능적으로 제한되는 요소가 fine-level feature에서 token representation으로 encoding하는데  low efficacy라는 것을 발견하였습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 기법인 outlook attention을 보여주고, 단순한 알고리즘인 VOLO를 제시합니다. 기존 coarse level 내 global dependency modeling 인 Attention과 다르게, Outlook attention은 context token내에서, fine-level feature를 encoding하는 것이 가능합니다. 

Introduction

본 연구에서는 simple 하고, light-weight attention mechanism인 fine level information  efficiently와 tken representation을 풍부하게 가진 Outlooker라고 불리는 방법을 제시합니다. 이러한 방법은 token aggregation에 대해서 새로운 방식으로 형성하고, fine-level information을 효율적으로 형성하는 것이 가능합니다. 특히 효율적인 선형 투영 접근법을 통하여, anchor token feature로부터 주위의 token을 집계하는 방식을 사용합니다. 

Method

우선 patch embedding module은 input을 token representation으로 변경합니다. 우리의 방법은 2가지 stage로 분리되어 간주됩니다. 첫 번째 stage는 fine-level token representation을 생성하기 위한, Outlookers를 제시합니다. 두 번째 stage는 global information을 집계하기 위한, sequence of transformer block의 sequence를 제시합니다. 

Outlooker

Outlooker는 spatial information encoding과 multi-layer perceptron으로도 구성되어 있습니다. 

Outlooker Attention : Outlook atttention은 구현하기 쉽고 단순합니다. 주된 2가지 기여는..

    1) Each spatial location feature는 이웃 feature들간의 집계를 위한 attention weights를 생성할 수 있습니다.

    2) dense local spatial aggregation은 fine-level information을 encoding하는 것이 가능합니다.

Discussion

VOLO의 방법론은 Convolution과 Self-Attention 장점 2가지 모두 지니고 있습니다. 이러한 방법은 2가지 장점을 제공합니다.

First of all, Outlook attention은  token representation pairs 사이의 similarity를 measuring 함으로써, spatial information을 encoding하는 것이 가능합니다. Second, outlook atteention은 sliding window mechanism을 사용하여, fine-level 부분까지 token representation을 하는 것이 가능합니다. Third, Attention weight을 만드는 방법이 단순하고,효율적입니다. 

Ablatin Analysis

Reference

https://arxiv.org/abs/2106.13112

 

VOLO: Vision Outlooker for Visual Recognition

Visual recognition has been dominated by convolutional neural networks (CNNs) for years. Though recently the prevailing vision transformers (ViTs) have shown great potential of self-attention based models in ImageNet classification, their performance is st

arxiv.org

 

 

Comments