일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 딥러닝
- 머신러닝
- pytorch
- clean code
- Vision
- GAN
- Python
- nerf
- web
- SSL
- CV
- 자료구조
- REACT
- math
- 3d
- FGVC
- Front
- 알고리즘
- Torch
- PRML
- dl
- cs
- algorithm
- ML
- Depth estimation
- Meta Learning
- nlp
- classification
- FineGrained
- computervision
- Today
- Total
KalelPark's LAB
[ Computer Vision ] Integrally Pre-Trained Transformer Pyramid Networks 본문
[ Computer Vision ] Integrally Pre-Trained Transformer Pyramid Networks
kalelpark 2023. 5. 9. 20:15
Abstract
ITPN의 경우, MIM과 downstream recognition tasks 간의 관계의 격차를 최소화하도록, backbone과 neck을 동시에 pre-training을 진행합니다. 본 논문에서의 주된 기여는 2가지 입니다.
1) pretraining stage 내, feature pyramid를 투입합으로써, recognition task 와 reconstructure task를 통합합니다.
2) Multi-stage supervision을 feature pyramid로 제공하는 Masked feature Modeling (MFM)를 활용하여, Masked Image
Modeling (MIM)을 보완합니다.
ITPN의 경우, upstream pre-training 과 downstream fine-tunning task를 통합하는 방식으로의 연구에 영감을 줍니다.
Introduction
최근 SSL과 downstream task의 조합은 상당한 성능 향상을 보여주었습니다. 일반적으로, 이전 연구에서는 fine-tunning 과 pre-training사이의 격차를 줄이는데 초점을 두었습니다. 이러한 관점에서 본 논문에서는 hierarchical visual feature의 필요성을 주장합니다. 기존 pre-training에서는 단지 backbone에만 영향을 미쳤습니다. 하지만, 이러한 방법은 optimization이 사전 훈련된 백본과 협락할 것이 보장되지 않는 무작위로 초기화된 네에서 시작되기 때문에, downstream pre-training에서는 문제가 발생할 우려가 있습니다.
본 논문에서 제안하는 방법은 HiViT 기반으로 활용되고, 2가지 주된 기여가 존재합니다.
1) pre-training stage에서 feature를 추가하는 방식으로써 downstream necks 과 upstream을 통합합니다.
2) Feature Pyramid를 더 효율적으로 학습시키기 위해서, Masked feature Modeling을 제안합니다.
1) moving-average backbone에 original image를 feeding함으로써, target과 즉각적으로 계산을 진행합니다.
2) 각 stage의 output을 즉각적으로 reconstructure합니다.
또한, Ablation study를 통하여, 첫째의 경우 iTPN은 MIM pre-training에서 lower reconstructure loss를 보여줄 뿐만 아니라, 빠른 속도로 downstream task에서 fine tunning이 된다는 것을 확인할 수 있었습니다.
The Proposed Approach
Motivation : Integral Pre-training
그냥, Learnable parameters 와 Architecture 내 각각의 특징들을 함수로 표현하였습니다.
하지만, 이러한 방법은 각각의 pre-training 과 fine-training에 대한 2가지 문제점이 존재합니다. 우선, θ의 경우, multi-levelfeature extraction을 위한 방향으로 Optimizered가 되지 않습니다. 둘째로, φ 와 ψ 의 경우, 무작위로 초기화 되기 때문에, 이러한 방법은 training procedure를 매우 느리게 하거나, 불만족스러운 결과를 초래합니다. 이러한 격차를 완화하기 위해, generator를 fine tunning에서 활용하는 것과 pre training에서 활용하는 것의 통합된 방식을 지지합니다.
Unifying Reconstruction and Recognition
Hierarchical vision transformer의 경우, S개의 Stage가 존재하며, transformer block을 포함하고 있습니다. 본 논문에서는, 각 stage별로 feature를 추출하고 재사용합니다. 본 논문의 방법론은 g_ft(·)와 g_pt(·)가 동일한 아키텍처와 매개 변수를 공유할 수 있다는 것을 보여줍니다. 둘 다 각 stage로부터 얻은 vector에서 시작하여 점차 하위 레벨 기능으로 통합되기 때문입니다. 이러한 매개변수가 fine-tunning에서 재사용되면서, 우리는 단지 module의 head를 변경함으로써, transfer gap을 줄입니다.
Masked Feature Modeling
Loss의 경우, 전체 Reconstructure Loss와 feature Reconstructure Loss를 합산하여, 적용합니다. Feature Reconstructure Loss의 경우 본 그림에서 3개가 됩니다. Feature Reconstructure Loss의 경우 본 논문에서는 masked feature Modeling (MFM) loss라고 합니다. 이것은 전체 이미지에 대한 Loss 를 보완해줍니다.
Technical Details
본 논문은, HiViT의 method를 따릅니다. HiViT는 shifted window attentions을 channels-wise multi-layer perceptrons로 대체하여 사용합니다. 이러한 방식을 통해서, HiViT는 input으로부터 masked token을 버리는 것이 가능하여, Computing Costs를 절약할 수 있으며, 상당한 performance를 가져올 수 있습니다.
또한, 모든 Convolution을 feature pyramid 와 C-MLPs로 변경하였습니다. 이러한 이유는, visible patches를 invisible patches로의 정보 손실을 완화하기 위해서입니다.
Ablation Study
해당 Task에서는 CMLP와 masked feature Modeling에 대해서 적용했을 때의 성능들과 관련된 특징들을 보여줍니다.
또한, pre-training epoch에서 상당히 이미지를 더 잘 만들 수 있음을 보여줍니다.
Conclusion
본 논문에서는 hieararchical vision transfromer framework를 제안합니다. 주된 기여는 reconstructure 와 recognition을 동시에 사용하는 것이고, 이러한 방법을 통하여, pre-training과 fine-tunning의 격차를 줄이고자 하는 것이다. 또한 본 논문에서는 추후 연구에서 upstream과 downstream을 통합한 방식의 visual representation learning을 연구할 필요가 있음을 보여줍니다.
Reference
https://github.com/sunsmarterjie/iTPN