본문 바로가기
반응형

AIML 분야/Generative Model과 GAN9

[논문리뷰] Video Inpainting - Flow-Guided Diffusion for Video Inpainting (FGDVI) 보호되어 있는 글 입니다. 2023. 12. 13.
SPADE, OASIS, SEAN 모델만 빠르게 방금 SEAN 돌리고 왔다. 코드를 뜯어 합치려니까 논문 일단 읽어야겠다 다른건 관심 없고 구조 차이를 보려고 한다. 1. SPADE https://arxiv.org/pdf/1903.07291.pdf [아키텍쳐 전체 구조] 인퍼런스에서 만드는건 맵만 가지고 만들겠지만 학습때는 이미지 봐야하니까. [이미지 인코더] 간단하게 생겼다 Generator, Discriminator 구조를 각각 보자. Generator는 SPADE ResBlock과 upsample 연산으로 구성되어있다. Upsample은 nearest neighbor upsampling. 핵심은 SPADE ResBlock의 구조일 것이다. Spade ResBlock의 구조이다. {SPADE - ReLU - 3*3 Conv-k} * 2로 이루어져 .. 2021. 9. 16.
SEAN 돌려보고 이것저것 수정해보기 쓰면서 계속 추가중 코드 링크 https://github.com/ZPdesu/SEAN.git 스타일을 mask로부터 인코딩할때 region별로 추출하는 구조이다. 그러면 노이즈를 주거나 하는 식으로 특정 클래스만 컨트롤 할 수 있어보여서 한번 돌려보려고 한다. 일단 하려고 하는게, SEAN 논문 리뷰 코드 돌려보고 읽어보기 style vector 바꿔보기 -> 특정 클래스만 다양한 변화를 줘보자 OASIS 기반으로 옮기는 대신에, normalization만 SEAN 방식으로 바꿔주기 잘 모르고 하는 소리라 뭐가 안맞거나 불가능한 부분이 있을수는 있겠는데 아무튼 도전 1. 이것저것 다운 - CelebA-HQ 데이터 다운 - 깃허브 클론 후 requirements.txt 설치. torch 1.2를 쓴다. -.. 2021. 9. 16.
GAN 이것저것 대충 읽기 고전이라 이름은 많이 들어봤고, 직접 해본적은 없고, 논문은 길고, 검색하면 그래서 이 논문이 뭘한거지 싶어서 매우 대충 이것저것 읽은 기록 그냥 GAN (NIPS 14) 검색하면 경찰과 위조지폐 얘기가 잔뜩 나올테니 패스 Pix2Pix CVPR 2017 conditional GAN이 생각보다 일반적인 이미지 -> 이미지 모델에 다양하게 쓰일 수 있음을 시사하는 논문 generation시에 random noise z만 주는게 아님. 데이터 x도 준다. 참고로 디코더는 PixelGAN 썼다. real/fake를 패치 단위로 판단한다. ICCV 17 CycleGAN 그림으로 설명 끝남 UNIT, MUNIT은 여기 정리 잘 되어있다. https://velog.io/@tobigs-gm1/UNIT Unsuperv.. 2021. 9. 14.
[휘리릭 논문 읽기] CVPR 2021 Best Paper: GIRAFFE "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields" Michael Niemeyer, Andreas Geiger 발표 뭐할지 고민하는 중에 이름이 귀여운 논문을 발견했다! 근데 이번 CVPR best임. 세상에... 올해 CVPR best paper조차 모르고 연구하고 있었다니 어떻게 그럴 수가 있지? 당장 읽어보도록 하자 뭐 하는 논문인가요? 이런식으로 controllable image generation을 한다. ? 뭔가 저런식으로 controllable한걸 하려는 수요는 엄청 많았을테니 연구가 많긴 했을텐데, 3D 고려해서 한게 없다는 것 같다. 왜냐면 원래 자연이 3D라는걸 고려하지 않고 이미지상에서 요소를.. 2021. 8. 17.
StyleGAN v2보다 좋은 transformer 기반 GAN이 나왔음 ViTGAN: Training GANs with Vision Transformers https://arxiv.org/pdf/2107.04589v1.pdf UC San Diego, 구글 리서치 전에 봤던 TransGAN의 경우는 StyleGAN V2에 못미쳤었다. TransGAN 논문에 따르면 (transformer 기반일 경우) Discriminator 만들기가 생각보다 까다로웠고, Generator의 경우 transformer 기반으로 한게 AutoGAN (19년) 급의 성능을 보인 것으로 기억한다. 아마 이때 내가 투덜거렸던게, Generator에서 가능성이 있는거라면 좋은 transformer기반의 generator를 만드는 아키텍쳐 디자인 연구가 있다면 좋겠지만, 아직 사례가 없어서 아쉽다고 했었.. 2021. 8. 5.
GAN Cocktail: 학습된 GAN 모델을 합친다고? GAN Cocktail: mixing GANs without dataset access arxiv sanity top recent에 랭크된 논문. 일단 제목이 시선강탈이기는 하다. https://arxiv.org/pdf/2106.03847v1.pdf 저자들이 예루살렘에 있는 대학이라는데. 이스라엘의 딥러닝을 맛볼 수 있는건가요? 슬픈 DF-VO 논문이 넘 안읽히는 관계로 다른걸 기웃거리고 있다. 좋아. 주제 일단 주제는 흔하지 않다. 누가 GAN을 합치긴 합쳐? 조건으로는, 모델 크기가 커지지 않을 것. 모델 두개를 대충 붙이는 게 아니다. 각각의 모델들을 학습시켰던 데이터에 접근할 수 었는 상황을 가정한다. 요런 셋팅에서 시도하는건 본인들이 최초라고 한다. 다시 말해, data를 모르고 그냥 다른 도메.. 2021. 7. 2.
[논문리뷰] Transformer + GAN에 관한 논문 리뷰 논문 두개 대충 봐야지 Transformer-based GAN 논문이 있고, Transformer Generator + CNN Discriminator 논문이 있다. 후자가 더 나중에 나왔다. 1. "TransGAN: Two Transformers Can Make One Strong GAN" [요약] transformer만 활용한 아키텍쳐에 대한 고찰이 주된 주제. Transformer 기반의 Discriptor는 그냥은 안좋다. 여러 문제점이 있다. CNN Discriptor를 사용한 두 경우가 성능이 좋았는데, 이걸 끌어올리려는 노력보다는 그냥 transformer의 한계를 보고싶었던 듯. 그래서 여러 기법으로 영끌하면 AutoGAN 정도의 성능은 transformer만으로도 달성 가능하다는 것을 입.. 2021. 6. 15.
kaggle 첫번째: GAN 해보기 GAN은 진짜 처음 해본다. kaggle을 둘러보다가 부담스럽지 않게 할 수 있는걸 발견했다. input 이미지를 모네 그림처럼 바꿔주는 task이다. dataset이 400MB 미만으로 딱히 크지 않고, kaggle 웹에서 지원해주는 정도의 환경에서도 얼마든지 학습할 수 있다. 근데 이따 올릴 코드 15에폭까지 돌리기 전에 자꾸 끊기긴 한다. 코드를 다 돌리고 inference output 만든거 옆에 깔끔하게 정리되어 나온다. 여기서 leader board는 MiFID 기준인데, 원래 FID score에서 training시의 memorization효과를 같이 고려한 수식이다. 현재 진행중이 challenge인데, google cloud TPU 홍보를 위한것인지 순위권에 들면 상금이 아니라 4주간의 T.. 2021. 1. 25.
반응형