본문 바로가기
딥러닝 어쩌구/Trendings

[2021.10.18] 서베이라는걸 해보자

by 포숑은 맛있어 2021. 10. 18.
반응형

코딩하기 싫다

걍 논문 뭐있나 구경해야지

 

1. Exploring the Limits of Large Scale Pre-training

JFT처럼 엄청나게 큰 dataset에서 pretrain 하는게 성능이 잘 나오니까 다들 그렇게 했다.

이에 대해 고찰하기 위하여 겁나 많은 실험을 했는데, 성능이 non-linear하게 saturation이 있었다고 한다.

심지어 pretrain-finetuning에서 서로 다른 모델을 쓸 경우에도 그랬다는 듯.

MLP-Mixer, ViT, CNN based model에서 실험을 했다. 겁나 많은 실험을 했던데... 구글만 가능한 연구.

암튼 결론은 하나의 좋은 pretrained model이 모든 곳에 만능은 아니니까, dataset diversity에 더 신경쓰란다.

https://arxiv.org/pdf/2110.02095v1.pdf               

 

2. PIX2SEQ: A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTION

전에 DETR였나? 걔도 transformer 사용했는데, 다른점이라고 하면 얘는 bbox의 sequence를 output으로 뱉게 하는 구조.

 

근데 또 보니까 네이버에서도 obj detection을 transformer 기반으로 하는거 냈더라

 

3. Well-classified Examples are Underestimated in Classification with Deep Neural Networks

보통 우리가 좋은 classifier라고 하면, decision boundary에서 멀리 떨어지도록 굉장히 certain한 결과를 내는걸 말한다. CE loss로 학습하면 모델 또한 그렇게 되니까. 그런데, 이런게 representation learning 관점에서 안좋다고 한다. 그래서 여기서는 잘 분류된 예제에 대해서, 학습에 얼마나 기여하는지를 부활(revive)시키도록 한다. 실험은 image classification, graph classification, machine translation에서 진행했다. 또한, 이 모델을 통해서 통해서 OOD detection, adversarial attack, imbalanced classification 문제도 다뤄본다.

https://arxiv.org/pdf/2110.06537v1.pdf     

dark knowledge의 개념이라든가, soft label이라든가, 정말 one-hot label이 GT로 여겨져야하는지에 대한 얘기가 떠오르는 주제이다. 이 주제에 대해 얘기할때마다 드는 생각이지만, one-hot이 GT 아닌건 알겠는데 probability로 label을 주는게 어려워서 그렇지 않나 싶은. 

왜 CE loss가 문제인가?

1. normalization function이 gradient vanishing을 야기하기 때문에 제대로된 representation 못만든다.

정답이 맞으면 그래디언트가 줄어들어서.

2. data manifold의 energy minimization하는데에 불충분함.

3. CE loss는 margin을 키우는데 효과적이지 않음.

수식으로 설명하는데, 정답을 맞출경우에는 margin을 키우는데에 대한 인센티브가 없음.

 

암튼 그래서 Encourage Loss라는걸 제안한다. well-classified example에 대해서도 더 잘 학습되게 강화하는 로스.

 

4. Vectorization of Raster Manga by Deep Reinforcement Learning

아앗.... manga가 뭔지 설명해야한다니

부끄럽다!

만화 픽이 근본있는 오타꾸

 

 

5. Is the Number of Trainable Parameters All That Actually Matters?

제목 쩐다... 뭔소리냐면

 

Frozen Parameter

RoBERTa model에 따르면, 이 모델의 몇 레이어는 파라미터 랜덤이닛 해주고 업데이트 안한다고 한다. 근데 이로인해 더 효과적으로 학습 가능했다고.

 

Structured parameter

Hadamard Transform, Discrete Fourier Transform, Discrete cosine transform같은걸 말함.

O(nlogn)개의 파라미터를 사용하지만 실제로는 n**2과 같은 효과를 낸다는데.

 

이 논문의 contribution은 뭐냐면, 저 frozen 파라미터니 structured 파리미터같은걸로 속일 수 없다는거다.

모델의 scaling Law는 오직 trainable parameter의 개수에만 관련 있으며, 저런거 필요 없다고 한다.

 

 

 

집가야지

반응형

댓글