(1) 이미지를 가지고 카테고리 분류하는 것 = 효율적이지 않고 속도가 느림
(2) 글의 제목 + 내용을 가지고 카테고리 분류하는 것
(3) 글의 제목 만 가지고 카테고리 분류하는 것 = 서비스에 적용할 만한 선능이 나옴
*데이터 EDA(Exploratory Data Analysis)
- 1000만 개
- 가장 많은 카테고리 : 유아동/유아도서, 여성의류
- 가장 적은 카테고리 : 반려동물용품, 스포츠/레저
- training set : validation set = 9 : 1 = 900만개 : 100만개
*카테고리 추천 모델
- CharCNN
- LSTM-CNN
- BERT
- fasttext = facebook research 에서 공개한 오픈소스 라이브러리 (여러 트릭을 써서 속도와 성능을 올림, 실시간 서비스에 적합)
*결과
- top-2 정확도 (2개 이상의 추천 카테고리를 보여줄 것이기 때문)
- fasttext에 있는 quantize는 모델의 크기를 줄이고 연산속도를 높일 수 있는 방식
- floating-point를 줄이거나 neural network의 몇몇 노드들을 잘라내는 방식으로 모델 사이즈를 줄임
- quantization 전 : 739MB → 후 : 3.3MB
반응형
'스타트업 > AI' 카테고리의 다른 글
[AI] redis (0) | 2020.08.14 |
---|---|
[AI] 딥러닝 추천 시스템 in production (0) | 2020.08.13 |
[AI] 워드 임베딩(Word Embedding) (0) | 2020.08.07 |
[AI] mecab (0) | 2020.08.07 |
[AI] BERT 당근마켓 적용 사례 정리 (0) | 2020.08.07 |