[AI] 카테고리 추천 모델(당근마켓)

2020. 8. 13. 17:26

(1) 이미지를 가지고 카테고리 분류하는 것 = 효율적이지 않고 속도가 느림

(2) 글의 제목 + 내용을 가지고 카테고리 분류하는 것

(3) 글의 제목 만 가지고 카테고리 분류하는 것 = 서비스에 적용할 만한 선능이 나옴

*데이터 EDA(Exploratory Data Analysis)

- 1000만 개

- 가장 많은 카테고리 : 유아동/유아도서, 여성의류

- 가장 적은 카테고리 : 반려동물용품, 스포츠/레저

- training set : validation set = 9 : 1 = 900만개 : 100만개

*카테고리 추천 모델

- CharCNN

- LSTM-CNN

- BERT

- fasttext = facebook research 에서 공개한 오픈소스 라이브러리 (여러 트릭을 써서 속도와 성능을 올림, 실시간 서비스에 적합)

*결과

- top-2 정확도 (2개 이상의 추천 카테고리를 보여줄 것이기 때문)

- fasttext에 있는 quantize는 모델의 크기를 줄이고 연산속도를 높일 수 있는 방식

- floating-point를 줄이거나 neural network의 몇몇 노드들을 잘라내는 방식으로 모델 사이즈를 줄임

- quantization 전 : 739MB → 후 : 3.3MB

MezzanineX