스타트업/AI
[AI] 카테고리 추천 모델(당근마켓)
mezzanineX
2020. 8. 13. 17:26
(1) 이미지를 가지고 카테고리 분류하는 것 = 효율적이지 않고 속도가 느림
(2) 글의 제목 + 내용을 가지고 카테고리 분류하는 것
(3) 글의 제목 만 가지고 카테고리 분류하는 것 = 서비스에 적용할 만한 선능이 나옴
*데이터 EDA(Exploratory Data Analysis)
- 1000만 개
- 가장 많은 카테고리 : 유아동/유아도서, 여성의류
- 가장 적은 카테고리 : 반려동물용품, 스포츠/레저
- training set : validation set = 9 : 1 = 900만개 : 100만개
*카테고리 추천 모델
- CharCNN
- LSTM-CNN
- BERT
- fasttext = facebook research 에서 공개한 오픈소스 라이브러리 (여러 트릭을 써서 속도와 성능을 올림, 실시간 서비스에 적합)
*결과
- top-2 정확도 (2개 이상의 추천 카테고리를 보여줄 것이기 때문)
- fasttext에 있는 quantize는 모델의 크기를 줄이고 연산속도를 높일 수 있는 방식
- floating-point를 줄이거나 neural network의 몇몇 노드들을 잘라내는 방식으로 모델 사이즈를 줄임
- quantization 전 : 739MB → 후 : 3.3MB
반응형