본문 바로가기
AIML 분야/의료인공지능

[학회 리뷰] MICCAI 21 살펴보기

by 포숑은 맛있어 2021. 10. 1.
반응형

저작권 문제땜에 이 포스팅은 공개하면 안될 것 같다. 개인 정리용.

 

오늘의 목표

- 관련분야 한번 싸악 살펴보자

 

학회 홈페이지가 굉장히 잘 되어있다.

아직 최종본은 아니지만 저자들의 논문과 리뷰, 발표영상을 전부 볼 수 있다.

 

Surgical Action Recognition

  • Surgical Workflow Anticipation using Instrument Interaction
  • Multi-View Surgical Video Action Detection via Mixed Global View Attention

 

1. Surgical Workflow Anticipation using Instrument Interaction

<요약>
도구/페이즈별 잔여시간을 예측하기 때문에 기존의 surgical workflow analysis보다 훨씬 정확하고, real time이 되기 때문에 in-ops에 쓸 수 있다. 우리도 봐야하는 논문.
게다가 Cholec80 뿐만 아니라 이번에 열린 CholecTriplet 21 챌린지도 쓴 것 같다.

코드도 공개되어있다.

https://github.com/Flaick/Surgical-Workflow-Anticipation

 

GitHub - Flaick/Surgical-Workflow-Anticipation: Surgical Instrument & Phase Anticipation

Surgical Instrument & Phase Anticipation. Contribute to Flaick/Surgical-Workflow-Anticipation development by creating an account on GitHub.

github.com

 

오타와와 미노세타에서 진행한 연구이고, 소속은 전부 전기컴퓨터공학과.

Intra-operative decision-support system상에 도움을 주기 위해 Surgical workflow anticipation (surgical instrument & phase anticipation)이 필수적이다. 서전의 행위와 환자의 상태를 AI가 예측해서, 수술 도구나 페이즈를 (발생하기 전에) forcast 해줌으로써 도움을 주려고 한다.

이 논문에서는 Instrument Interaction Aware Anticipation Network (IIA-Net)를 제안한다.

-spatial: 도구 주변의 visual feature들을 활용

-temporal: long term dependency를 커버하기 위해서 'a causal dilated multi-stage temporal convolutional network'를 사용.

그 결과, noisy한 비디오에서도 prediction을 안정적으로 하는데다가 online inference가 가능하다고 한다.

실험은 Cholec80 데이터셋에서 했으며, 큰 격차를 벌리며 SOTA 성능을 달성했다. (inMAE, eMAE라는 지표를 사용한다.)

 

Rebuttals

되게 어이없는게, strong reject, strong accept, accept을 받은 논문이다. (ㄱ-?)

참고로, reject을 준 사람의 의견을 이렇다.

surgical workflow analysis와 surgical workflow anticipation의 차이가 뭐냐. 왜 그게 clinicians들에게 중요한거냐는 지적.

저자가 피드백을 준 것을 보면, 기존 연구는 직후에 뭐가 나올지를 보는건데 이 연구는도구/단계별로 잔여시간을 예측하기 때문에 시간적인 측면에서 훨씬 세분화되어있다. 하지만 real-time에 대한 실험이 논문에 실제로 표기된 것은 아니며, 임상에 사용한 것도 없고, 그냥 성능적인  qualitative results만 서플리에 더 넣었단다.

 

 

Task가 action segmentation의 형식은 아니고, (real-time) remaining time regression task를 푸는 형태.

모델은 둘로 구성되어있다.

 

- feature extractor+Instrument Interaction Module (IIM)

- dilated MSTCN (multi-stage TCN)

 

비디오x의 i프레임이 주어지면 semantic map과 bbox, Phase signal을 추출.

frame: ResNet50 encoded

tool, phase signal: cholec80 사용

 

 

IIM에서 어떻게 box, map을 뽑나.

map의 경우 synthesized image 사용.

"Generating Large Labeled Data Sets for Laparoscopic Image Processing Tasks Using Unpaired Image-to-Image Translation"

YOLO는 https://ieeexplore.ieee.org/abstract/document/8354185 이걸 사용해 학습.

 

Baseline. : Rethinking Anticipation Tasks: Uncertainty-Aware Anticipation of Sparse Surgical Instrument Usage for Context-Aware Assistance MICCAI20

 

 

 

 

 

 

2.

"Multi-view Surgical Video Action Detection via Mixed Global View Attention"

Adam Schmidt1(B) , Aidean Sharghi2 , Helene Haugerud2 , Daniel Oh2 , and Omid Mohareri2

 

OR circulation에 대한거다. 그니까 수술방 매니지먼트. 무한정 대기할수는 없으니까...

 

  • large-scale multi-view surgical action detection dataset을 공개했다!
    over 120 temporally annotated robotic surgery operations
    each recorded from 4 different viewpoints
    resulting in 480 full-length surgical videos, 영상 당 약 2시간
    액티비티 클래스는 10개
    서전 16명, 모두 다빈치 Xi 사용.
  • 이거 학습하는 모델 제안

 

 

흠.. 뭔가 우리가 원하는 그런 수술 내에서의 느낌은 아니다.

그냥 모달리티 여러개를 일반적인 모델에 때려 박은 느낌... 도구나 장기의 relation을 보는 액션 딕텍션이 아니다.

 

 

3. Instrument & Organ Localization

"Efficient Global-Local Memory for Real-Time Instrument Segmentationof Robotic Surgical Video"

https://github.com/jcwang123/DMNet 코드가 있는 척 없다..

 

중국의 Xiamen 대학교와 대학병원에서 진행한 연구.

논문이 되게 비전학회스럽다는 느낌이다.

수술쪽에서도 이제는 전처럼 그냥 시도하는데에 의의를 두는 게 아니라 성능을 올리기 위해 SOTA 모델을 제안하며, 심지어 그 모델이 CVPR같은 비전학회의 논문보다 정확도가 높다는걸 보면 세계에 많은 사람들이 의료인공지능을 한다는 실감이 난다.

 

Method?

이건 segmentation을 잘 하기 위해서 다른 temporal 정보까지 활용한다.

optical flow는 연산이 많이 드니까 안쓰고, 이 논문에서는 convolutional LSTM과 non local을 활용한다.

뭔가 정보가 있는 부분을 로컬라이징 해주면서 시간정보를 잘 인코딩해주겠다는거군.

Dual-Memory Network라는 이름인데. 아키텍쳐를 보자.

 

특이하게 global 정보도 메모리로 가지고 있는데, 가까운 프레임의 경우 정보를 날리고 시각적으로 많이 다른 프레임은 남기는 느낌.

 

성능?

Endovis17,18에서 실험했고, 20년 기준 SOTA를 깼다. TDNet과 비교하면 느리지만 38 fps라서 real-time이라고 봐도 될듯하다.

 

TDNet은 CVPR20인데, 이것도 여러 프레임을 보는 방식이지만 temporally distributed moddel이라는 이름답게 주변의 프레임정보만 활용한다.

https://openaccess.thecvf.com/content_CVPR_2020/papers/Hu_Temporally_Distributed_Networks_for_Fast_Video_Semantic_Segmentation_CVPR_2020_paper.pdf 이것은 TDNet

아무튼 여러 프레임을 활용하여 segmentation하는 모델이 이미 CVPR20에 나왔었는데 이걸 이긴 SOTA모델이라는 점은 굉장히 의미가 있는 것 같다. 메모리같은거 때문에 구현이 좀 복잡할 것 같은데 코드도 공개한다니 기다려봐야지.

물론 다른 비교모델들에 대해서 hyper-parameter tuning을 대충 했을수도 있긴 하다. TDNet은 완전 real-world dataset에서만 실험했기 때문. 이전 모델과 성능갭이 별로 크진 않아서...

 

 

 

 


 

Fei-Fei Li 교수님의 keynote 영상도 봤다.

"Illuminating the Dart space of healthcare with Ambient Intelligence"를 얘기하셨다.

액세스 팅겨서 이따 이어서 본다.

약물, 메디컬 이미징, 장비, 유전 등에 많이 적용을 하고 있지만, 그게 아닌 medical error에서 많은 사망자수가 발생한다?

굉장히 많은 부분 dark space에서 error가 발생하며, 이유도 모른다. 어떻게 밝힐 수 있을까?

 

 

 

1. 방에 센서를 둔다?

2. 그러면 activity 단위로 분석을 할 수 있을거야. 

3. 그걸 의료계에 적용한다. AI-assisted hospital.

 

병원과 일상공간 둘로 나눠서 설명.

 

[Hospital Spaces]

ICU (Intensice Care Unit)

일단 비싸잖아...

1. 병원 방 안에다가 뎁스 카메라를 설치해서 침대에서 일어나고 눕고 그런 동ㅇ작들을 인식하는 것으로 시작함.

2. fine grained activity recognition로 확장. 

 

Hand Hygiene

감염때문에 중요. 10년 전부터 하셨다는데. 

 

[Daily living space]

웨어러블도 좋지만, 불편하다고. 그럼 뭐가 있지?

온도센서는 occlusion에도 강건하니까 이걸 사용했나봄.

마찬가지로 activity를 보는건데, sleep 패턴 등 많은 정보가 있으니까.

 

Action Recognition.

특히 complex motivity recognition의 중요성을 강조하는데, 이번 교수님께서 NIPS 21에 MOMA라는 dataset을 공개했다.

AVA는 사실 알고보면 그냥 bbox단위의 multi-label classification이지 뭔가 relation이 있는건 아닌데, 여기서는 정말로 causual한 정보를 담은 것으로 보임. 

hyper scene graph.

 

Societal & Ethical Implications

물론 애플리케이션 측면에서 알고리즘 잘 동작하는것도 중요하지만, privacy에 대한 concern이다.

 

- 블러링. 얼굴이나, 사람 실루엣

- federated learning, edge computing의 중요성에 대해서도 언급한다.

data를 centralization하지 않기 위함. metadata만 전송하고, 프라이버시 관련 데이터는 전송하지 않게 하면서 학습하기?

그런 privacy 알고리즘이 잘 동작하지 않나봐.

 

Legal Challenges

- Can ambient sensors be potential withness?

 

Fairness Issue

 

Scientific Integrity, resesarch ethics and consent.

의료계는 그렇지만 아무래도 우리 분야 사람들은... 응.. 

 

 

 

 

 

 

반응형

댓글