[논문리뷰] U-Net: Convolutional Networks for Biomedical Image Segmentation

728x90

1. Introduction

초기 컨볼루션 신경망은 훈련 데이터셋의 부족과 모델의 크기 제한으로 인해 성능이 제한되었음

ImageNet 데이터 세트에서 8개의 레이어 등 대규모 네트워크를 지도 학습하며 더 크고 심층적인 네트워크가 훈련됨

일반적인 사용 : 단일 클래스인 분류 작업

Biomedical task에서는 localization( 분할된 각 픽셀에 클래스 라벨이 할당됨 )을 필요로함

sliding-window setup을 사용해 픽셀 주위에 로컬 영역(patch)을 제공함

장점

1. localize가 가능함.

2. patch의 관점에서 훈련 데이터는 훈련 이미지의 수보다 훨씬 큼. ( 이미지의 다양한 부분을 다양한 패치로 나누어 훈련 데이터를 확장)

단점

1. patch마다 네트워크 별도로 실행 - 속도 느림. patch 중복 발생

2. Localization accuracy와 context 사용 사이의 Trade-off

(큰 patch는 더 많은 맥스 풀링레이어 필요, 정확도 낮아짐)

Sliding-window

일정 크기의 window를 이동시키며 window 내에서 object를 탐지하는 방법

Patch -> 이미지 인식 단위

아키텍처가 매우 적은 훈련 이미지에서 작동하고 더 정확한 분할을 산출하도록 수정

1. contracting network 는 연속적인 레이어. pooling 연산자를 upsampling 연산자로 대체 ▶ 출력의 해상도를 높임

2. contracting path의 고해상도 특징과 upsampling된 출력을 결합

Overlap-tile 전략

노란색 부분을 예측하려면 파란색 지역의 데이터가 필요함.

업샘플링 부분은 많은 특징 채널이 있어 context를 고해상도 레이어로 전파할 수 있음.

Fully Connected Layers (완전 연결 레이어) 사용하지 않음.

이미지의 테두리 영역에서는 픽셀을 예측하기 위해 mirroring함.

( 적은 데이터로 충분한 학습을 하기 위해 Data Augmentation)

2. Network Architecture

Contracting path와 Expansive path

< constracting path >

3x3conv 두 차례 반복 → ReLU
2x2 max pooling (stride 2)

downsampling 과정에서 feature map 채널 수는 2배로 증가. feature map의 크기는 1/2배

< Expanding path >

3x3conv + ReLU (두 차례 반복 )
2x2 convolution (“up-convolution”)

upsample 시 feature map의 크기는 2배(2x2 up-convolution), feature map의 채널 수는 1/2배

Copy and crop

Crop된 featrue map을 Expanding path 에 보냄
mirror padding을 진행할때 손실되는 path를 살리기 위해 데이터를 적당한 크기로 crop한 후에 대칭되는 계층에 보내어 이미지 보상처리를 해줌.

<마지막 레이어>

1x1 convolution 사용

64개의 component feature vector를 원하는 클래스 수로 매핑

전체 23개의 컨볼루션 레이어

출처: https://medium.com/@msmapark2/u-net-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-u-net-convolutional-networks-for-biomedical-image-segmentation-456d6901b28a

3. Training

마지막에 얻은 feature map에 픽셀 단위로 soft-max를 수행 + cross entropy loss function을 적용

x: feature map에 있는 각 픽셀

w(x): weight map (픽셀 별로 가중치를 부과)

각 픽셀이 경계와 얼마나 가까운지를 판단.

d1(x) : 픽셀 x의 위치로부터 가장 가까운 경계와 거리
d2(x) : 픽셀 x의 위치로부터 두번째로 가까운 경계와 거리

픽셀 x와 경계의 거리가 가까우면 큰 값을 갖게 되므로 해당 픽셀의 Loss 비중이 커짐.

▶ 경계에 해당하는 픽셀을 잘 학습

3.1 Data Augmentationm

shift, rotation 외에 Random elastic deformations 사용

4. Experiments

EM segmentation challenge

데이터셋 - 전자 현미경으로 찍은 512 x 512 해상도의 이미지 30장.

이미지의 각 부분에 세포는 흰색, 세포막(membrane)은 검은색으로 색칠한 ground truth segmentation map

평가 지표 - warping error, Rand error, pixel error

UNET 이 가장 좋은 성능을 보임.

ISBI cell tracking challenge

성능 IOU로 평가

U-Net 좋은 성능을 보임.

5. Conclusion

생체 의료쪽 사진을 세분화할 때 좋은 성능을 보임.

U-NET 아키텍처는 더 많은 작업에 쉽게 사용될 것임.