(1) 이미지를 가지고 카테고리 분류하는 것 = 효율적이지 않고 속도가 느림

(2) 글의 제목 + 내용을 가지고 카테고리 분류하는 것 

(3) 글의 제목 만 가지고 카테고리 분류하는 것 = 서비스에 적용할 만한 선능이 나옴

 

*데이터 EDA(Exploratory Data Analysis)

- 1000만 개

- 가장 많은 카테고리 : 유아동/유아도서, 여성의류

- 가장 적은 카테고리 : 반려동물용품, 스포츠/레저

- training set : validation set = 9 : 1 = 900만개 : 100만개

 

*카테고리 추천 모델

- CharCNN

- LSTM-CNN

- BERT

- fasttext = facebook research 에서 공개한 오픈소스 라이브러리 (여러 트릭을 써서 속도와 성능을 올림, 실시간 서비스에 적합)

 

*결과

- top-2 정확도 (2개 이상의 추천 카테고리를 보여줄 것이기 때문)

- fasttext에 있는 quantize는 모델의 크기를 줄이고 연산속도를 높일 수 있는 방식

- floating-point를 줄이거나 neural network의 몇몇 노드들을 잘라내는 방식으로 모델 사이즈를 줄임

- quantization 전 : 739MB → 후 : 3.3MB

 

반응형

'스타트업 > AI' 카테고리의 다른 글

[AI] redis  (0) 2020.08.14
[AI] 딥러닝 추천 시스템 in production  (0) 2020.08.13
[AI] 워드 임베딩(Word Embedding)  (0) 2020.08.07
[AI] mecab  (0) 2020.08.07
[AI] BERT 당근마켓 적용 사례 정리  (0) 2020.08.07

+ Recent posts