*TF-IDF(Term Frequency - Inverse Document Frequency)
- TF는 특정한 단어가 "문서 내에 얼마나 자주 등장하는지를 나타내는 값" : 이 값이 높을수록 문서 내에서 중요함
- 하나의 문서에서 많이 나오지 않고, 다른 문서에서 자주 등장하면 단어의 중요도는 낮아진다.
- DF(문서 빈도, Document Frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다.
- TF-DF는 TF와 IDF를 곱한 값으로 점수가 높은 단어일수록 "다른 문서에는 많지 않고, 해당 문서에서 자주 등장하는 단어"를 의미함
반응형
'스타트업 > AI' 카테고리의 다른 글
[AI] jupyter notebook tensorboard, proxy (0) | 2020.07.09 |
---|---|
[AI] TensorboardX (0) | 2020.07.08 |
[AI] TensorBoard (0) | 2020.07.07 |
[AI] mmdetection transfer learning (0) | 2020.07.06 |
[AI] Adaptive Transfer Learning (0) | 2020.07.02 |