일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Depth estimation
- classification
- Vision
- cs
- web
- clean code
- dl
- algorithm
- REACT
- Torch
- CV
- nlp
- 알고리즘
- nerf
- pytorch
- Meta Learning
- 머신러닝
- ML
- GAN
- computervision
- 3d
- PRML
- FineGrained
- SSL
- math
- Python
- Front
- FGVC
- 딥러닝
- 자료구조
- Today
- Total
목록전체 글 (216)
KalelPark's LAB
Stereo Vision이란? 사람의 시각 시스템을 모방한 기술이며, 자율 주행 자동차등의 관심이 높아짐에 따라, 라이더 및 레이더 센서 기술을 대체할 수 있는 기술로 관심을 받고 있습니다. 사람은 두 눈으로부터 좌/우 차이가 존재하는 2차원의 영상을 입력받고, 입력 받은 영상을 인간의 뇌로 부터 융합되는 과정을 통해3차원의 거리 감을 인지합니다. 이와 마찬가지로, Stereo Vision은 카메라를 통해, 입력되는 2차원의 좌/우 영상을 계산하면서 3차원 거리 정보를 획득하는 것이 가능합니다. * 거리 계산 방법 - 3차원 거리 정보는 시차(Parllax, disparity), 초점 거리(focal length), 베이스라인(baseline) 3가지 요소를 고려하여, 획득합니다. - 시차(Dispari..
Abstract Learning based Method는 single Image로부터 depth를 추정하는데 상당히 좋은 결과를 보여주었지만, 기존의 접근법은 상당히 많은 데이터가 필요하다는 문제가 있습니다. 본 논문에서는, training동안에 데이터를 쉽게 얻을 수 있는 binocular stereo footage training을 사용함으로써, 기존의 depth data를 대체합니다. 우리는 새로운 training loss를 도입함으로써, 기존의 학습하는 동안 생성하는 disparity image의 quality를 향상시킵니다. 즉, 하나의 이미지를 좌우측에서의 비교하여, disparity를 파악함으로써, 성능을 개선하거나 기존의 방법론을 Robust하게 합니다. Introduction 기존의 De..
우선, Depth Estimation이란 말 그대로 영상에서 깊이를 그대로 추정하는 것을 의미합니다. 컴퓨터는 사진만 보고, 사진 내 존재하는 객체를 추정하기 어려워 합니다. 따라서 깊이를 추정하기 위해 train하는 것을 말합니다. 하단의 그림을 보다시피, 가까운 부분은 밝은색, 어두운 부분은 보라색임을 알 수 있습니다. Depth Estimation이란, Stereo와 Mono가 존재합니다. Mono Depth Estimation은 말 그대로 하나의 image만을 가지고, Depth를 추정하는 방식입니다. Depth를 추정할 때는, Stereo Camera로 찍은 left image와 right image가 필요합니다. left image와 right image로부터 차이가 얼마나는지 파악함으로써, ..
최근 3D Reconstructure에 관심이 생겨 추후 읽어볼 논문들을 메모하고자 작성합니다. 3D reconstructure의 가장 근본적인 문제는 Image Pixel의 depth를 추정하는 것이다. 최근 연구에서는 Single Image View를 사용하거나, Multi View를 사용하는 방식을 채택하였습니다. Single Image View로는 "Depth Map Prediction from a Single Image using a Multi-Scale Deep Network" "Unsupervised Monocular Depth Estimation with Left-Right Consistency" 2가지 논문을 읽어보기를 제안합니다. 또한 아래의 논문을 추가적으로 제안하는데요. 한번 살펴보..
시험 끝..! 난 하늘에 있는 별을 볼때 제일 행복하더라구요.. 오늘 시험이 끝나 너무 행복하다 시험 기간 너무 힘들었다.... 처음으로 이틀동안 1시간 자봤다. AI 공부할 때도 그렇게는 안했는데 올해는 간절했나봅니다.. 빨리 시험 복기를 해보고자 한다.. 공부한만큼 열심히 하지는 못한 것 같다. 시험을 볼 때 순간에 휩쓸려 시야를 좁게 문제를 본 것 같다. 그래도 뭐 얼추 하기는 했다.. ( 다행 ) 4월에는 학교 공부에 조금 몰두하느라, 논문도 많이 못 읽고, 나의 진로 개발에 집중을 못한 것 같다.. 이제는 조금 집중해보고자 한다..! 앞으로는 매일 논문을 읽고자 한다..! 1일 1 논문 도전..! 그리고 이제는 ICLR 2024도 슬슬 스프린트하고자 한다. 올해는 간절히 붙이고 인정받고 싶다. ..
Abstract 최근 거대한 데이터셋으로의 NLP의 성공이 Computer Vision에도 유사한 방식으로 혁신을 보여주고 있습니다. 이러한 방법은, 선별된 데이터셋에서만 사용이 가능합니다. 우리는 기존 방식을 재검토하고, 다양한 기술을 결합하여 데이터 및 모델의 크기 측면을 확장합니다. 대부분 기술적 기여는 학습의 규모를 안정화하거나 가속화를 진행합니다. Introduction task에 구애받지 않은 표현력 학습을 하는 것은 NLP에서는 기본이 되어왔습니다. NLP에서의 영향을 받아, Vision에도 상당한 영향을 미치고 있습니다. 대부분 유망한 노력은 text-guided pretraining에 초점이 되어왔으며, feature를 학습하는데 상당한 기여를 해왔습니다. Caption은 이미지의 풍부한..
Collapse란? "Collapse"는 모델의 학습 과정에서 출력 값이 제한된 범위로 수렴하거나, 제한된 값만을 출력하는 현상을 의미합니다. 예를 들어, 모델이 다양한 입력에 대해 동일한 출력 값을 예측하거나, 출력 값이 특정 값으로 수렴하는 경우 "collapse"가 발생합니다. 2가지 예시가 존재합니다. GAN) Generator 와 Discirminator를 균형있게 학습시켜야 하는데, Discriminator가 학습속도가 너무 빨라지는 경우가 있다. 이 경우, GAN은 "진짜" 같은 이미지를 생성하는 목적은 잃어 버리고, discriminator가 헷갈릴만한 그림만 만드는 과정을 의미한다. 이를 Mode Collapse라고 한다. Representation Learning) Contrastive..
Abstract 본 논문에서는 Self-supervised Learning이, ConvNet과 비교하여, ViT에서의 두드러진 특징이 있는지 의문을 제시합니다. ViT에 SSL을 적용함으로써, 2가지를 관찰합니다. 1) Supervised에서 ViT 혹은 ConvNet에서의 Semantic segmentation에 대한 정보를 남기지 않지만, Self-supervised Learning에서의 ViT에서는 명시적으로 남깁니다. 2) 이러한 feature들은 K-NN classifier에서 높은 성능을 보이며, small ViT에서의 상당한 성능을 보입니다. 또한 본 논문에서는 Momentum Enocder, Multi-crop의 중요성을 강조합니다. Introduction NLP에서 영감을 받아, VIT..