본문 바로가기
AIML 분야/self supervised, Learning Theory 등

Self-Supervised Learning 몰라서 공부하는 글

by 포숑은 맛있어 2020. 12. 21.
반응형

참고해볼 자료 모음

medium.com/vitrox-publication/understanding-circle-loss-bdaa576312f7

 

Siamese Net, Triplet Loss, and Circle Loss Explained.

Understanding “Circle Loss: A Unified Perspective of Pair Similarity Optimization” Pap

medium.com

www.youtube.com/watch?v=C4UQWJcp7w4

www.youtube.com/watch?v=sVKE7CMDd_o

먼저 영상부터 보고 있다.

 

Self-supervised learning에 대한 CVPR 2020 튜토리얼이다. 약 한시간짜리.

 

당연히 labeled data가 좋지만, 매우 비싸다. Phd Student 한명 데려오는 것만큼 비싸다고 얘기한다. (ㅋㅋㅋ)

레이블이 없더라해도 raw data에 이미 intrinsic feature들이 있다고 한다. 이게 self-supervised learning.

 

예시) Basic Operations

  • Image colorization.
  • Jigsaw puzzles
  • Image Inpainting
  • Relative Location Precition

예시) Contrastive Learning (Vision)

  • CPC
  • CMC
  • MoCo
  • SimCLR

예시) NLP

  • BERT
  • GPT2 (3도 나옴)

 

발표자는 image/text를 같이 다루는 본인 연구에 대해 설명하는 것 같다.

먼저 single stream architecture의 경우이다.

 

transformer가 있는데, 이미지와 텍스트를 같이 임베딩한다.

이미지는 RCNN으로 얻은 것과 location 정보. 이걸로 image feature를 뽑고, text feature는 token과 각각의 position 정보이다. 이게 transformer 내부에서 같이 이어져있어서 최종적으로 joint representation.

 

Pretext tasks

  • MLM : 단어를 가리는 것
  • MRM : region을 가리는 것. (어떤 오브젝트 피쳐만 가리는 것이라고 보면 됨)
    region recover를 하도록 학습한다는데, 픽셀단위인건가? 아니면 object class 맞추는건가?
    더 들어보니까 둘다 있다.
    KLD 쓰겠지.
  • ITM : image-text matching.
    이미지와 텍스트가 페어가 맞는지/아닌지를 맞춤
  • 다른 논문들의 pretext 기법들도 설명된다.

뭐 나오긴 하는데 계속 이미지-language라서 건너뛰고, video-language로 넘겼다. (36:23)

 

CBT라는 논문을 봐야겠음. Learning video representation using Contrastive Bidirectional Transformer.

MIL-NCE


hoya012.github.io/blog/Self-Supervised-Learning-Overview/

 

Unsupervised Visual Representation Learning Overview: Toward Self-Supervision

Self-Supervised Learning 분야에 대한 전반적인 설명과, Image 인식 분야에 Self-Supervised Learning을 적용시킨 대표적인 논문들을 간단하게 리뷰하였습니다.

hoya012.github.io

위 링크는 고전적인 이미지 pretext tasks를 소개함.

일단 내 목적은 비디오이니만큼, 그냥 슥 읽기만 하면 될 것 같음.

반응형

댓글