사냥하러 가자
Gradients are Not All You Need
구글 브레인 팀
https://arxiv.org/pdf/2111.05803v1.pdf
미분 가능하게 만든게 딥러닝을 굉장히 부흥시켰으나, failure case가 있음을 언급한다. 그러면 대책은 없나?
이 논문에서는 시스템의 Jacobian을 계산해서 추적해봤으며, criterion을 제공하여 실패할지를 알 수 있다고 한다.
뭐 다들 gradient가지고 학습해온건 아니까 생략하고. 그런데 어떤 mathematical object를 가진 경우라면 상관 없겠지만, system dynamics의 특정 함수를 최적화하려는 경우에는 알고리즘적으로 유용하지 못하다.
이 논문에서는 그런 경우를 다루며, 이를 'chaos'라 명명했다.
Iterated Dynamical System
Chaos가 언제 발생하는가.
전개 건너뛰고 결론은, theta parameter를 업데이트 하기 위해 loss를 미분할경우 수식을 전개하면 state st의 야코비안 행렬이 계속 곱해지는 형태란거다. 심지어 이걸 N번 누적하며 더해가는 형태. 그럼 야코비안 행렬의 eigenvalue값 크기에 따라 loss가 발산하기도, vanishing gradient 문제가 발생하기도 하는 것.
그래서 이 논문에서는 system이 (dynamic이 아닌) deterministic하다고 가정한다. 뭐, 기울기 다 구하는거 아니고 원래 우리도 stochastic하게 많이 하니까.
... 제목은 멋지지만 지금 졸린데 이 논문 어려워보여서 도저히 더 읽을 엄두가 나지 않아 빠르게 도망
Understanding How Encoder-Decoder Architectures Attend
구글 브레인 팀
https://arxiv.org/pdf/2110.15253v1.pdf
abstract이 재밌어보여서 가져왔다! encoder-decoder 구조에다가 attention을 끼얹은 아키텍쳐가 굉장히 널리 쓰이고 있다. 요즘 트랜스포머가 흥하는 것도 그렇고 말이다. 트랜스포머가 왜 잘되는건지, attention 때문인지 position encoding 때문인지 또 다른 어떤 것 때문인건지 논란이 많다.
이 논문에서는 encoder-decoder 구조에다가 attention을 끼얹은 아키텍쳐에 대해 생각해본다. attention이 아키텍처마다 어떻게 다를까? 뭘 배울까? 여기서의 핵심은, sequence의 hidden state를 decompose할건데, 이걸 temporal (input이 뭐든 상관 없는 독립적인 요소)과 input-driven한 요소로 나눠서 본다.
Are Transformers More Robust Than CNNs?
https://arxiv.org/pdf/2111.05464v1.pdf
저번에 화제가 되었던 논문 중에서 transformer가 노이즈에 robust하다는 게 있었는데, 그게 fair comparison이 아니었나보다.
그래서 이 논문에서는 fair comparison 하면서 정말로 robust한지 다양한 실험을 해봤다고 한다.
perturbation based, patch based attack
Masked Autoencoders Are Scalable Vision Learners
https://arxiv.org/pdf/2111.06377v1.pdf
FAIR
읽고 있는데 흥미로워서 글 따로 빼서 작성중
'딥러닝 어쩌구 > Trendings' 카테고리의 다른 글
[TMI] transformer가 비디오랑 segmentation쪽 SOTA도 다 깨버렸구만 (0) | 2022.06.17 |
---|---|
[2021.10.18] 서베이라는걸 해보자 (0) | 2021.10.18 |
CVPR 2021 best paper candidates 목록 (0) | 2021.08.24 |
[2021.03.09] arxiv sanity 구경 (0) | 2021.03.09 |
[2021.02.13] arxiv sanity 대충 살펴보기 (0) | 2021.02.15 |
댓글