참고해볼 자료 모음
medium.com/vitrox-publication/understanding-circle-loss-bdaa576312f7
www.youtube.com/watch?v=C4UQWJcp7w4
www.youtube.com/watch?v=sVKE7CMDd_o
먼저 영상부터 보고 있다.
Self-supervised learning에 대한 CVPR 2020 튜토리얼이다. 약 한시간짜리.
당연히 labeled data가 좋지만, 매우 비싸다. Phd Student 한명 데려오는 것만큼 비싸다고 얘기한다. (ㅋㅋㅋ)
레이블이 없더라해도 raw data에 이미 intrinsic feature들이 있다고 한다. 이게 self-supervised learning.
예시) Basic Operations
- Image colorization.
- Jigsaw puzzles
- Image Inpainting
- Relative Location Precition
예시) Contrastive Learning (Vision)
- CPC
- CMC
- MoCo
- SimCLR
예시) NLP
- BERT
- GPT2 (3도 나옴)
발표자는 image/text를 같이 다루는 본인 연구에 대해 설명하는 것 같다.
먼저 single stream architecture의 경우이다.
transformer가 있는데, 이미지와 텍스트를 같이 임베딩한다.
이미지는 RCNN으로 얻은 것과 location 정보. 이걸로 image feature를 뽑고, text feature는 token과 각각의 position 정보이다. 이게 transformer 내부에서 같이 이어져있어서 최종적으로 joint representation.
Pretext tasks
- MLM : 단어를 가리는 것
- MRM : region을 가리는 것. (어떤 오브젝트 피쳐만 가리는 것이라고 보면 됨)
region recover를 하도록 학습한다는데, 픽셀단위인건가? 아니면 object class 맞추는건가?
더 들어보니까 둘다 있다.
KLD 쓰겠지. - ITM : image-text matching.
이미지와 텍스트가 페어가 맞는지/아닌지를 맞춤 - 다른 논문들의 pretext 기법들도 설명된다.
뭐 나오긴 하는데 계속 이미지-language라서 건너뛰고, video-language로 넘겼다. (36:23)
CBT라는 논문을 봐야겠음. Learning video representation using Contrastive Bidirectional Transformer.
MIL-NCE
hoya012.github.io/blog/Self-Supervised-Learning-Overview/
위 링크는 고전적인 이미지 pretext tasks를 소개함.
일단 내 목적은 비디오이니만큼, 그냥 슥 읽기만 하면 될 것 같음.
'AIML 분야 > self supervised, Learning Theory 등' 카테고리의 다른 글
[Active Learning] A Survey of Deep Active Learning 읽기 (0) | 2021.02.23 |
---|---|
[Active Learning] 서베이 하기 (0) | 2021.02.23 |
[연구 노트] Deep Active Learning 베이스라인 코드 리뷰 + 내 연구 (0) | 2021.01.15 |
[20201221] active learning, self supervised learning, 비디오 연구에 대해서 생각하기 (0) | 2020.12.21 |
(작성중) Circle Loss 논문 읽는 중 (0) | 2020.12.16 |
댓글