[2021.05.25] 연구일지 (모델 초기 구현, arxiv-sanity 살펴보기)
1.
AVA Action이랑 CholecT50 데이터셋을 요즘 보고있다. Spatio-Temporal Action Localization을 보기 위함이다.
CholecT50은 bbox annotation이 없어서 엄밀히 말하면 아닌데, 비디오를 더 잘 해석하기 위해서 triplet annotation을 제공하기 때문에 일단 이쪽에서 하고 있다. (수술 도메인)
CholecT50을 위한 모델구현이 조금 안정화 되며 + 현재 segmentation 실험이 어느정도 끝나 GPU가 남으면 mmaction2 셋업과 AVA 실험또한 진행할 예정이다.
일단 모델 초안을 대략 구상했고, 그대로 오늘 구현이 끝나서 대충 동작을 하는 것은 확인을 했다.
원래 AlphAction이라는 깃허브 코드를 가져와서 (이유: SlowFast-101을 Kinetics700에서 pretrain 제공함) 구현하려고 했는데 커스텀해야할게 넘 많아서 포기했다. 그냥 코드 쓰기 편한 3DResNet 사용.
memorization일수도 있겠지만 일단 학습 성능은 조금조금 올라가고 있는 것으로 보인다.
모델 급하게 짜느라 train/val data split도 안 짰고 validation 코드도 작업이 덜 되어서 내일이나 모레 완료하는 것을 목표로 하려고 한다.
bbox 대신으로 baseline에서는 CAM을 쓰는데, 이거 대신에 쓸 수 있는게 뭐가 있나 잘 생각을 해봐야겠다.
Action Detection쪽 논문 읽어봤는데 그냥 다들 bbox가 있으니까, RoI Align같은걸로 feature를 얻은다음에 correlation 구해주는 모듈을 위에 얹어서 구현하는 식이었다. 현 데이터셋에서 성능을 올리는 데에는 그렇게 참고할만한 아이디어는 없는 것 같다.
아 얼른 지금 모델 validation 성능 찍어보고싶다.
2.
굉장히 올만에 arxiv sanity를 살펴봤다. top recent의 month 기준이다.
맨 위에 있는 것은 역시 MLP Mixer. 전에 내가 이걸 여기서 리뷰 했나 안했나 기억이 안난다.
요약하자면, transformer도 CNN도 아닌 것도 ImageNet과 같은 vision task를 풀 수 있다는 것이다.
사실 요즘 트랜스포머 얘만 나와서 기분이 조금 안좋았는데 흥미로운 주제다.
딥마인드에서 나온 Neural Algorithmic Reasoning이라는 논문 주제도 흥미로워보이는데, 슬쩍 보니까 뭔가 실험같은거 안나와있어서 걍 안봤다. https://arxiv.org/pdf/2105.02761v1.pdf
이 논문은 한번 읽어야겠다. 페이스북에서 나왔으며 SlowFast의 저자다.
unsupervised spatiotemporal representation learning에 대한 논문이다.
이렇게 아래 네가지 것들을 각각 다르게 실험을 진행했다고 한다.
(i) unsupervised frameworks (MoCo, SimCLR 뭐 이런거)
(ii) pre-training datasets
(iii) downstream datasets
(iv) backbone architectures.
positive sample을 뽑을 때 timespan이 긴 것에서 뽑아야한다든가, 학습 기간이나 backbone이나 augmentation 등 모든 것이 성능에 중요하다고 뭐라뭐라 나오는데 기회가 되면 리뷰를.
https://arxiv.org/pdf/2104.14558v1.pdf
+ VICReg라는 이름이었나
https://arxiv.org/abs/2105.04906v1
아이디어는 흥미로웠는데, 연산 적은데 결국 이 방법의 성능이 그렇게까지 좋은건 아닌 것 같아서 패스..