본문 바로가기

AI/논문 리뷰

[논문리뷰] U-Net: Convolutional Networks for Biomedical Image Segmentation

728x90
반응형

1. Introduction

초기 컨볼루션 신경망은 훈련 데이터셋의 부족과 모델의 크기 제한으로 인해 성능이 제한되었음

ImageNet 데이터 세트에서 8개의 레이어 등 대규모 네트워크를 지도 학습하며 더 크고 심층적인 네트워크가 훈련됨

 

일반적인 사용 : 단일 클래스인 분류 작업

Biomedical task에서는 localization( 분할된 각 픽셀에 클래스 라벨이 할당됨 )을 필요로함 

sliding-window setup을 사용해 픽셀 주위에 로컬 영역(patch)을 제공함

 

장점

1. localize가 가능함.

2. patch의 관점에서 훈련 데이터는 훈련 이미지의 수보다 훨씬 큼. ( 이미지의 다양한 부분을 다양한 패치로 나누어 훈련 데이터를 확장)

 

단점

1. patch마다 네트워크 별도로 실행 - 속도 느림. patch 중복 발생

2. Localization accuracy와 context 사용 사이의 Trade-off

(큰 patch는 더 많은 맥스 풀링레이어 필요, 정확도 낮아짐)

 

Sliding-window 

[출처: https://www.researchgate.net/figure/Object-detection-by-sliding-window-approach_fig1_266215670]

 

일정 크기의 window를 이동시키며 window 내에서 object를 탐지하는 방법

 

Patch -> 이미지 인식 단위

 

아키텍처가 매우 적은 훈련 이미지에서 작동하고 더 정확한 분할을 산출하도록 수정

1. contracting network 는 연속적인 레이어. pooling 연산자를 upsampling 연산자로 대체 ▶ 출력의 해상도를 높임

2. contracting path의 고해상도 특징과 upsampling된 출력을 결합

 

 

Overlap-tile 전략

노란색 부분을 예측하려면 파란색 지역의 데이터가 필요함.

 

업샘플링 부분은 많은 특징 채널이 있어 context를 고해상도 레이어로 전파할 수 있음.

Fully Connected Layers (완전 연결 레이어) 사용하지 않음.

이미지의 테두리 영역에서는 픽셀을 예측하기 위해 mirroring함. 

 

( 적은 데이터로 충분한 학습을 하기 위해 Data Augmentation)

 

 

2. Network Architecture

 

Contracting path와 Expansive path

< constracting path >

  • 3x3conv 두 차례 반복 → ReLU 
  • 2x2 max pooling (stride 2)

downsampling 과정에서 feature map 채널 수는 2배로 증가. feature map의 크기는 1/2배

 

< Expanding path >

  • 3x3conv + ReLU (두 차례 반복 )
  • 2x2 convolution (“up-convolution”)

upsample 시 feature map의 크기는 2배(2x2 up-convolution), feature map의 채널 수는 1/2배

 

Copy and crop

  • Crop된 featrue map을 Expanding path 에 보냄
  • mirror padding을 진행할때 손실되는 path를 살리기 위해 데이터를 적당한 크기로 crop한 후에 대칭되는 계층에 보내어 이미지 보상처리를 해줌.

 

<마지막 레이어>

1x1 convolution 사용 

64개의 component feature vector를 원하는 클래스 수로 매핑

전체 23개의 컨볼루션 레이어

출처: https://medium.com/@msmapark2/u-net-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-u-net-convolutional-networks-for-biomedical-image-segmentation-456d6901b28a

 

 

3. Training

마지막에 얻은 feature map에 픽셀 단위로 soft-max를 수행 + cross entropy loss function을 적용

 x: feature map에 있는 각 픽셀

 

w(x): weight map (픽셀 별로 가중치를 부과)

각 픽셀이 경계와 얼마나 가까운지를 판단.

 

d1(x) : 픽셀 x의 위치로부터 가장 가까운 경계와 거리
d2(x) : 픽셀 x의 위치로부터 두번째로 가까운 경계와 거리

 픽셀 x와 경계의 거리가 가까우면 큰 값을 갖게 되므로 해당 픽셀의 Loss 비중이 커짐.

경계에 해당하는 픽셀을 잘 학습

 

3.1 Data Augmentationm

shift, rotation 외에 Random elastic deformations 사용

 

4. Experiments

EM segmentation challenge

데이터셋 - 전자 현미경으로 찍은 512 x 512 해상도의 이미지 30장.

                    이미지의 각 부분에 세포는 흰색, 세포막(membrane)은 검은색으로 색칠한 ground truth segmentation map

평가 지표 - warping error, Rand error, pixel error

 

UNET 이 가장 좋은 성능을 보임.

 

ISBI cell tracking challenge

a, c 입력 이미지 / b, d 테두리 세분화 결과

 

성능 IOU로 평가

 U-Net 좋은 성능을 보임.

 

 

5. Conclusion

생체 의료쪽 사진을 세분화할 때 좋은 성능을 보임. 

U-NET 아키텍처는 더 많은 작업에 쉽게 사용될 것임.

728x90
반응형