*TF-IDF(Term Frequency - Inverse Document Frequency)

- TF는 특정한 단어가 "문서 내에 얼마나 자주 등장하는지를 나타내는 값" : 이 값이 높을수록 문서 내에서 중요함

- 하나의 문서에서 많이 나오지 않고, 다른 문서에서 자주 등장하면 단어의 중요도는 낮아진다.

- DF(문서 빈도, Document Frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다.

- TF-DF는 TF와 IDF를 곱한 값으로 점수가 높은 단어일수록 "다른 문서에는 많지 않고, 해당 문서에서 자주 등장하는 단어"를 의미함

반응형

'스타트업 > AI' 카테고리의 다른 글

[AI] jupyter notebook tensorboard, proxy  (0) 2020.07.09
[AI] TensorboardX  (0) 2020.07.08
[AI] TensorBoard  (0) 2020.07.07
[AI] mmdetection transfer learning  (0) 2020.07.06
[AI] Adaptive Transfer Learning  (0) 2020.07.02

+ Recent posts