본문 바로가기
AIML 분야/다른 연구 분야

[서베이 & ideation] Scene Text Recognition (OCR) + Visual Feature로 representation learning을 한다?

by 포숑은 맛있어 2022. 10. 6.
반응형

서론.

과거에는 OCR로 텍스트 인식하여 정형화된 문서를 판독했는데 이제는 scene text recognition을 한다.

요즘 다시 STR쪽을 보고있는데 최근에도 논문이 활발하게 나오는 것 같다.

그렇게 text detection과 text recognition 단계를 거쳐 이미지 내의 텍스트를 인식하는 것 까지는 좋다.

여기서 더 나아가, 인식한 글자를 어떻게 활용할 수 있을지에 대한 고민을 하고있다.

 

Scene Understanding을 위해서 이미지랑 텍스트를 같이 사용하는거 없나?

caption과 이미지를 함께 사용하여 multimodal로 representation learning 하는건 요즘 foundation model이라고 부르면서 널리 연구되는 분야다. CLIP이라든가 ALIGN, ALBEF, Florence 이런거.

내가 제대로 논문을 읽고 코드까지 고쳐본건 ALBEF인데, 여기서는 주어진 문장(캡션)과 이미지를 매칭하는 loss라든가 text encoder 학습을 위해서 MLM loss도 필요하다.

그런데 Scene Text Recognition (STR)의 경우, 각 텍스트는 서로 별개의 것이라 MLM loss라든가 이미지 매칭으로는 유의미한 임베딩을 배울 수 없을 것이다. 흠...

그러면 STR을 활용하여 image와 함께 뭔가 representation learning을 하는 분야&태스크는 없을까?

 

본론.

그러한 논문을 찾았다.

Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image Classification and Retrieval

WACV 2021 논문.

링크: https://openaccess.thecvf.com/content/WACV2021/papers/Mafla_Multi-Modal_Reasoning_Graph_for_Scene-Text_Based_Fine-Grained_Image_Classification_and_WACV_2021_paper.pdf    

 

요약

Task: Representation Learning: Image Classification, Image Retrieval

이미지가 빵집이라는걸 알려면 텍스트를 알아야함

Approach:

  • object detection을 통해 이미지 내의 오브젝트 bbox를 찾고, scene text bbox도 찾는다.
  • 이것들을 vertex로 가지는 scene graph를 만든다.
  • GCN을 적용하여 이미지-텍스트 정보를 함께 임베딩 했다!
  • classification의 경우 별도의 head를 두고, image feature와 GCN output (image-text)을 합쳐서 prediction한다.
    그래프 정보의 경우 모든 vertex feature의 sum을 사용한다. 그리고 CE loss.
  • Image Retrieval은 feature 비교해서 가장 유사한것들 가져오겠지 뭐

 

실험 결과 성능이 많이 올랐다. 그런데 Con-Text dataset이랑 Drink Bottle 데이터셋을 썼던데 Paperswithcode benchmark에 이 데이터셋이 안 뜬다...

 

Image Retrieval은 어떻게 평가했을까? 캡션을 사용하는 다른 데이터셋들처럼 텍스트랑 매칭을 하는게 아닌데.

query-by-example (QbE) image retrieval을 한다고 한다. 이건 쿼리로 주어진 이미지와 같은 클래스에 속하는 이미지들의 ranked list를 구하는 문제이다.

이때 class probability vector를 사용하여 distance metric으로는 cosine similarity를 계산해서 가장 매칭되는 이미지들을 가져온다고 한다.

 

다음에는 vision-language의 다른 태스크에도 적용해보겠다는 코멘트를 future work로 저자가 언급했다.

 

 

참고로 Con-text 데이터셋 논문.

https://staff.fnwi.uva.nl/s.karaoglu/FINALVERSION.pdf    

https://staff.fnwi.uva.nl/s.karaoglu/datasetWeb/Dataset.html     <- 데이터셋 홈페이지

반응형

댓글