Recent Posts

Link

kalelPark's GitHub

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Today

Total

관리 메뉴

KalelPark's LAB

[논문 리뷰] TransFG [2021] 본문

Data Science/Fine Grained

[논문 리뷰] TransFG [2021]

kalelpark 2022. 12. 10. 14:26

GitHub를 참고하시면, CODE 및 다양한 논문 리뷰가 있습니다! 하단 링크를 참고하시기 바랍니다.
(+ Star 및 Follow는 사랑입니다..!)

https://github.com/kalelpark/AI_PAPER

GitHub - kalelpark/AI_PAPER: Machine Learning & Deep Learning AI PAPER

Machine Learning & Deep Learning AI PAPER. Contribute to kalelpark/AI_PAPER development by creating an account on GitHub.

github.com

Abstract

최근 Vision Transformer가 강세를 보이고 있습니다.

Transformer의 self attention은 모든 Patch를 classification toekn에 연결합니다. 본 연구에서는 ViT의 영향력에 관하여, 연구를 진행합니다.

Attention의 strength는 token의 importance를 알려주는 지표가 될 수 있습니다. 본 연구에서 제시한 Part Selection Module은 transformer의 architecture 대부분에 적용가능합니다. Contrastive loss는 confusing classes의 feature representation사이에서 거리를 증가시킵니다.

Introduction

Feature Encoding 방법과 비교할 때, localization method는 미묘한 차이를 파악합니다. 그로 인하여, 넓은 분야에서 좋은 결과를 해석할 수 있습니다. 이전에는 RPN방식을 활용하였지만, 이러한 방법은 선택된 영역 간의 관계를 무시하므로, RPN이 중요한 영역을 찾지 못하는 bounding box를 제안하도록 권장됩니다.

또한, RPN Module은 backbone Network과 비교하여, Network를 재사용하게 어려울 뿐만 아니라, backbone pipeline 또한 복잡하게 만듭니다.

최근에, Vision Transformer는 Classification에서 큰 성취를 이뤘습니다. 또한, FGVC에 ViT를 적용하면, 만족스러운 결과가 나오는데, 추가적으로 다양한 특징을 적용하면 성능을 더욱 향상시킬 수 있다는 것을 발견하였습니다.

discriminative regions을 발견하고, redundant information을 제거하는 것이 가능한, Part Selection Module을 제안하였습니다.

Contributes

Fine Grained Visual Classification은 CNN의 Backbone에 비해서 더 많은 효율성을 제공합니다.
TransFG를 제안하였는데, TransFG는 객체의 차별적인 지역에 초점 맞추는 것이 가능하고, SOTA를 달성할 수 있었습니다.
TransFG의 결과를 visualization하는 경우, image의 discriminative하는 곳을 포착하는 것이 가능하며, 정확한 예측을 어떻게 해야하는지에 대해서 도움을 줍니다.

Related Work

Fine-Grained Visual Classification

localization methods :

discriminative part regions를 탐지하고, 재사용하는데에 중점을 둡니다.

feature encoding methods :

higher-order information 또는 contrastive pairs에서 관계를 찾아 계산함으로써, 더 효율적인 정보를 찾는 것에 초점을 둡니다.

Image Sequentialization

일반적인 분할 방법은 Image를 겹치지 않는 Patch로 절단하여, 차별적인 영역으로 분할될 때, local neighboring structure를 harmful합니다.

이러한 문제를 완화하기 위해서, overlapping patches sliding window 방식을 제안합니다. 구체적으로 우리는 Input Image를 resolution H * W로 만들고, S로 Sliding하여, Image를 Patch의 형태로 만듭니다.

그러므로, Input Image는 N개의 Patch로 생성되는 것이 가능합니다.

이러한 방식으로, Overlapping area는 better local region information 보존합니다. 솔직히 말하면, Patch Size를 줄이면 줄일수록 성능은 좋아지지만, 상당한 시간이 소요됩니다.

TransFG Architecture

Pure VisionTransformer가 세분회된 시각적 분류에 직접 적용될 수 있고, 인상적인 결과를 얻을 수 있음을 보여주었습니다. 하지만, FGVC에 필요한 local information을 찾지는 못하였습니다.

우리는 Part Selection Module(PSM)을 제안하였고, confusing sub-categories에서 representation의 distance를 확대하기 위해 contrastive feature learning을 적용하였습니다.

Part Selection Module

FineGrained에서 가장 중요한 것은 similar sub-categories에서 미묘한 차이점에 대해서, discriminative regions하는 것이다. PSM은 previous layers로부터, attention weights를 통합하는 방식을 제안합니다.

Informative regions과 대응하는 token을 input sequence로 대체하고, classification token을 last transformer layer의 input으로 활용함으로써, 우리는 global information을 유지할 뿐만 아니라, last Transformer layer가 subtle differences 에 초점을 두게하도록, 능력을 향상시킵니다.

Contrastive feature learning

ViT에 따르면, classification을 위한 PSM module의 first token z를 우선적으로 활용합니다.

sub categories의 미묘한 차이로 인하여, Simple CrossEntropy loss는 fully supervise learning of feature에 충분하지 않습니다.

결국 contrastive loss를 활용하여, 같은 특징을 지는 것들에 대해서는 loss를 최소화하고, 서로 다른 특징을 지는 것들에 대해서는, loss를 최대화 하는 방식으로 contrastive loss를 활용합니다.

손실이 easy negatives에 지배되는 것을 방지하기 위해서, a를 도입하여, a보다 큰 유사성을 가진 음수 쌍만이 손실에 기여하도록 합니다.

Conclusion

FGVC에 활용 가능한 TransFG를 제안합니다. small image patches는 Transformer layer로부터 효율적으로 다뤄지는 것이 가능합니다.

결과를 산출하기 위해서, 각각의 지역에 의존하는 대신에, 서로간의 관계에 의존합니다.

또한 Cotrastive loss는 classification token의 discriminative ability를 향상시킵니다.

Reference

TransFG: A Transformer Architecture for Fine-grained Recognition

Fine-grained visual classification (FGVC) which aims at recognizing objects from subcategories is a very challenging task due to the inherently subtle inter-class differences. Most existing works mainly tackle this problem by reusing the backbone network t

arxiv.org