이 분야 계속 보고있어서, 논문 찾을때마다 업데이트할거임
“Train one, Classify one, Teach one” - Cross-surgery transfer learning for surgical step recognition (MIDL 2021)
https://arxiv.org/pdf/2102.12308.pdf
요약?
- 비디오 상에서의 Surgical Workflow step recognition 논문
- surgical step recognition을 4종류의 laparoscopic surgeries에서 진행
Cholecystectomy, Right Hemicolectomy, Sleeve Gastrectomy, and Appendectomy - Time-Series Adaptation Network (TSAN) 고안: transfer learning 하려고.
- self supervised learning 활용: Sequence Sorting Task를 풀도록 pretraining함
-> 이 덕에 데이터가 적어도 surgical 도메인에서 가능했음
- self supervised learning 활용: Sequence Sorting Task를 풀도록 pretraining함
- First, we assess the potential of using self-supervised pre-training to reduce dependence on explicitly labeled data.
- Second, we investigate the effectiveness of transfer learning to move pre-trained models between different surgical procedures.
- Finally, we explore the impact of data size on the adaptation capabilities.
Transfer 해야하는 이유?
네트워크는 간단
1. 3d convNet을 각각 task를 위해 학습.
2. Cholec에서 pretrained 3D features를 사용해서 time-series model을 평가.
- 1d conv를 temporal축에 적용해서 short-term context를 배움. 커널 사이즈에 대한 실험 있음. 아무튼 이걸 parallel하게 3개 가짐
- bi-lstm 사용해서 long term context 주기
- TSAN: 위에 3개+1개 concat -> 4개 합치고 -> 또 lstm에 넣음 -> FC (classification)
- SeSo: temporal 축에서 직쏘퍼즐을 푸는걸 정의해서 self-supervised training 하는걸 recognition 이전 단계로 정의.
모든 데이터셋에서 pretext task를 할수도 있고, source에서만 할수도 있고, target domain으로만 할수도 있었는데.
재밌는 결과. SeSo initialization task를 target task의 pretext task로 정의하는게 아니라, 아예 다른 source task의 데이터셋을 쓰는게 성능이 낫다고?
이 이유가 cholec데이터셋이 다른 데이터보다 커서인데, 어쨌거나 그러면 도메인이 달라도 unlabeled dataset이 크기만 하면 사용할 수 있다는 가능성을 보여준거라 되게 재밌는 지점임.
MuST같이 Multi-task를 통해서 하는게 아니라 self-supervised 방식으로 다른 데이터셋 활용해서 transfer 한다는게 재밌다.
댓글