일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Python
- nlp
- math
- nerf
- CV
- 머신러닝
- classification
- Meta Learning
- pytorch
- PRML
- 자료구조
- computervision
- 3d
- 알고리즘
- cs
- FGVC
- SSL
- clean code
- FineGrained
- Vision
- REACT
- Torch
- web
- Depth estimation
- 딥러닝
- Front
- ML
- algorithm
- dl
- GAN
- Today
- Total
KalelPark's LAB
[논문 리뷰] Learning Loss for Active Learning 본문
[논문 리뷰] Learning Loss for Active Learning
kalelpark 2023. 4. 1. 10:52
Abstract
최근 딥러닝에서모델을 계속해서 발전시키고자 한다면 annotated data가 많이 필요합니다. 이에 대한 한가지 해결방법은 active learning을 하는 것입니다. active learning이란, labeling되지 않은 데이터를 사람이 데이터를 생성하는 것을 말합니다. 본 논문에서는 annotate data를 표기합니다. 본 논문에서는, task에 구애받지 않고, 딥러닝 모델에 효과적으로 적용할 수 있는 새롭고, 단순한 방법을 제기합니다. "loss prediction module"이라고 불리는, small parameteric module을 붙이고, unlabel data의 target에 대한 loss가 어느정도인지 예측하도록 학습합니다. 이러한 묘듈은 모델이 잘못된 예측을 생성할 가능성이 있는 데이터를 파악할 수 있습니다.
Introduction
기존 딥러닝에서의 한계점들을 언급하고, semi, unsupervised가 발전했음에도, 불구하고 성능향상에 제한이 있음. (+ 기타 문제점들을 언급함.) active learning의 핵심 아이디어는 중요한 데이터는 임의로 고른 데이터보다 유익하므로, 더 많이 학습을 해야 합니다.
label이 존재하지 않는 데이터에 접근하는 3가지 방법론으로는 uncertainty-based approach, a diversity-based approach, expected model change. 우리의 방법론은 task에 구애 받지 active learning에서 영감을 받았습니다. 만약 data에 대해서, Loss를 예측할 수 있다면, loss를 많이 생성하는 데이터를 파악하는 것이 가능합니다. 이러한 데이터는 모델에 상당한 학습을 요구하면 모델은 더욱 많은 정보를 학습하는 것이 가능합니다.
Contributes
1. loss prediction module을 active learning에 부착하는 것을 제안.
2. 여러 task에서 증명을 함
Method
Loss Prediction Module
target model 내 정의된 loss를 예측하는 것은 본 논문의 핵심입니다. loss prediction module은 engineering cost를 최소화하는 것을 목표로 합니다. 게다가 우리는, loss prediction module의 computational cost를 최소화하도록 노력합니다. 결국 우리는 loss prediction module을 design하도록 노력합니다. 이러한 2개의 target을 예측하기 위해서는 적은 computation이 필요하고, module을 깊게하고, 넓게 하는 실험을 진행했지만, 성능의 변화가 거의 없었습니다.
Learning Loss
본 section에서는, 어떻게 손실 예측 모듈을 학습하는지에 대한 자세한 설명을 제공합니다.
Evaluation
Limitations and Future work
비록, 불확실한 값을 예측하는 방향으로 진행하지만, 상당히 효율적임을 증명합니다. 또한 후속 연구에서는 data distribution을 고려해서 연구할 수 있는지에 대해서 파악할 것이고, better architecture를 만들려고 노력할 것입니다.
Reference
https://arxiv.org/abs/1905.03677