Google Research, Brain Team

 

연산량, 연산 속도 관점에서 굉장히 효율적인 모델

 - One-Stage Detector 구조

 

*Main Challenge and Solution

(1) Efficient multi-scale feature fusion (BiFPN)

 - FPN(Feature Pyramid Network) : RetinaNet, M2Det, NAS-FPN

 - 위 모델들은 모두 서로 다른 input feature들을 합칠 때 구분없이 단순히 더하는 방식을 사용하고 있음

 - 서로 다른 input feature들은 해상도가 다르기 때문에 output feature에 기여하는 정도를 다르게 가져가야 함을 주장

 - 간단하지만 효과적인 weighted bi-directional FPN(BiFPN)구조를 제안

 

(2) Model scaling

 - EfficientNet에서 제안한 Compound Scaling 기법은 모델의 크기와 연산량을 결정하는 요소들(input resolution, depth, width)을 동시에 고려하여 증가시키는 방법

 - EfficientDet에서는 backbone, feature network, box/class prediction network 등 모든 곳에 적용

 

*Weighted Feature Fusion

- FPN : 서로 다른 resolution의 input feature들을 합칠 때, 일반적으로는 같은 해상도가 되도록 resize 시킨 뒤 합침

- 각 input feature 가중치 주는 3가지 방식

- scalar(per-feature), vector(per-channel), multi-dimensional tensor(per-pixel)

- (1) Unbounded fusion : unbounded 되어 있어서 불안정성

- (2) SoftMax-based fusion : GPU 하드웨어에서 slowdown을 유발하는 단점

- (3) Fast normalized fusion

 

*EfficientDet Architecture

- EfficientDet의 backbone : ImageNet-pretrained EfficientNet

- BiFPN을 Feature Network로 사용

 

*Compound Scaling

- input의 resolution과 backbone network의 크기를 늘려줌

- BiFPN, Box/class network도 동시에 키워줌

 

반응형

+ Recent posts