1. Introduction
초기 컨볼루션 신경망은 훈련 데이터셋의 부족과 모델의 크기 제한으로 인해 성능이 제한되었음
ImageNet 데이터 세트에서 8개의 레이어 등 대규모 네트워크를 지도 학습하며 더 크고 심층적인 네트워크가 훈련됨
일반적인 사용 : 단일 클래스인 분류 작업
Biomedical task에서는 localization( 분할된 각 픽셀에 클래스 라벨이 할당됨 )을 필요로함
sliding-window setup을 사용해 픽셀 주위에 로컬 영역(patch)을 제공함
장점
1. localize가 가능함.
2. patch의 관점에서 훈련 데이터는 훈련 이미지의 수보다 훨씬 큼. ( 이미지의 다양한 부분을 다양한 패치로 나누어 훈련 데이터를 확장)
단점
1. patch마다 네트워크 별도로 실행 - 속도 느림. patch 중복 발생
2. Localization accuracy와 context 사용 사이의 Trade-off
(큰 patch는 더 많은 맥스 풀링레이어 필요, 정확도 낮아짐)
Sliding-window
일정 크기의 window를 이동시키며 window 내에서 object를 탐지하는 방법
Patch -> 이미지 인식 단위
아키텍처가 매우 적은 훈련 이미지에서 작동하고 더 정확한 분할을 산출하도록 수정
1. contracting network 는 연속적인 레이어. pooling 연산자를 upsampling 연산자로 대체 ▶ 출력의 해상도를 높임
2. contracting path의 고해상도 특징과 upsampling된 출력을 결합
Overlap-tile 전략
노란색 부분을 예측하려면 파란색 지역의 데이터가 필요함.
업샘플링 부분은 많은 특징 채널이 있어 context를 고해상도 레이어로 전파할 수 있음.
Fully Connected Layers (완전 연결 레이어) 사용하지 않음.
이미지의 테두리 영역에서는 픽셀을 예측하기 위해 mirroring함.
( 적은 데이터로 충분한 학습을 하기 위해 Data Augmentation)
2. Network Architecture
Contracting path와 Expansive path
< constracting path >
- 3x3conv 두 차례 반복 → ReLU
- 2x2 max pooling (stride 2)
downsampling 과정에서 feature map 채널 수는 2배로 증가. feature map의 크기는 1/2배
< Expanding path >
- 3x3conv + ReLU (두 차례 반복 )
- 2x2 convolution (“up-convolution”)
upsample 시 feature map의 크기는 2배(2x2 up-convolution), feature map의 채널 수는 1/2배
Copy and crop
- Crop된 featrue map을 Expanding path 에 보냄
- mirror padding을 진행할때 손실되는 path를 살리기 위해 데이터를 적당한 크기로 crop한 후에 대칭되는 계층에 보내어 이미지 보상처리를 해줌.
<마지막 레이어>
1x1 convolution 사용
64개의 component feature vector를 원하는 클래스 수로 매핑
전체 23개의 컨볼루션 레이어
3. Training
마지막에 얻은 feature map에 픽셀 단위로 soft-max를 수행 + cross entropy loss function을 적용
x: feature map에 있는 각 픽셀
w(x): weight map (픽셀 별로 가중치를 부과)
각 픽셀이 경계와 얼마나 가까운지를 판단.
d1(x) : 픽셀 x의 위치로부터 가장 가까운 경계와 거리
d2(x) : 픽셀 x의 위치로부터 두번째로 가까운 경계와 거리
픽셀 x와 경계의 거리가 가까우면 큰 값을 갖게 되므로 해당 픽셀의 Loss 비중이 커짐.
▶ 경계에 해당하는 픽셀을 잘 학습
3.1 Data Augmentationm
shift, rotation 외에 Random elastic deformations 사용
4. Experiments
EM segmentation challenge
데이터셋 - 전자 현미경으로 찍은 512 x 512 해상도의 이미지 30장.
이미지의 각 부분에 세포는 흰색, 세포막(membrane)은 검은색으로 색칠한 ground truth segmentation map
평가 지표 - warping error, Rand error, pixel error
UNET 이 가장 좋은 성능을 보임.
ISBI cell tracking challenge
성능 IOU로 평가
U-Net 좋은 성능을 보임.
5. Conclusion
생체 의료쪽 사진을 세분화할 때 좋은 성능을 보임.
U-NET 아키텍처는 더 많은 작업에 쉽게 사용될 것임.