일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- 딥러닝
- PRML
- nlp
- CV
- Python
- clean code
- computervision
- Meta Learning
- REACT
- FineGrained
- FGVC
- cs
- classification
- SSL
- 자료구조
- nerf
- pytorch
- GAN
- ML
- math
- Depth estimation
- algorithm
- dl
- 3d
- Torch
- Vision
- web
- 알고리즘
- Front
- Today
- Total
KalelPark's LAB
[논문 리뷰] GPT : Improving Language Understandingby Generative Pre-Training 본문
[논문 리뷰] GPT : Improving Language Understandingby Generative Pre-Training
kalelpark 2023. 3. 20. 14:06
Abstract
Text의 Unlabeled 데이터는 풍부함. 이에 반하여, 데이터는 풍부하지 못하고, 빈약한 상황임. 이에 따라, 적절한 작업을 수행하기 어려
움. 그러므로, masking을 활용한 학습 방법을 제안 (상당한 성능 개선이 있음.)
Masked AutoEncoder와 다르게, Image의 경우 Enocder를 사용하지만, NLP의 경우, Decoder를 사용합니다.
Introduction
Supervised fine-tunning과 unsupervised pre-training의 결합을 활용하여, language understanding tasks로 접근합니다.
Two-stage의 절차를 따라 학습을 진행합니다. 첫 번째는 Unlabeled data를 학습하고, 이후에는 Supervised learning에 대응하는 방식으로 학습을 진행합니다.
Transformer 구조를 사용하며, RNN을 대안하여, long-term dependencies text를 다루는 과정으로 memory를 생성합니다.
Transfer 시에는 기존의 학습방법으로 학습을 진행합니다.
Method
Unsupervised Learning시에는, SSL에서의 JigsawPuzzle과 같은 방식으로, 문맥에서의 단어를 맞추도록 학습을 진행합니다.
이후, 기존의 방법을 따릅니다. 좌측 사진을 보면, Backbone에 무엇을 사용하느냐에 따라,
원하는 형태의 모델의 구조로 변형하여 사용할 수 있음을 보여줍니다.
Ablation Study
auxiliary LM obejective 없이 학습을 진행하였을 때, 성능을 비교하였으며, LSTM과 비교하였을 때, 성능이 어느정도 나오는지를 판단하였습니다. 마지막으로 pre-training이 성능에 미치는 영향을 파악하였습니다.
(기존 관련 논문들을 많이 읽었으면, 쉽게 읽히는 것 같습니다.)
Conclusion
generative pre-training 과 discriminative fine-tunning을 통하여, 강력한 모델을 생성합니다. 다양한 corpus를 활용하여, pre-trained함으로써, 모델은 상당한 지식을 얻었으며, 여러 domain에서 활용하는 것이 가능합니다.
'Data Science > Large Language Model' 카테고리의 다른 글
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (0) | 2023.03.12 |
---|