*Word Embedding
- Word를 R차원의 Vector로 매핑시켜주는 것
- W("cat") = (0.2, -0.4, 0.7, ...)
- W("hat") = (0.0, -0.5, 0.3, ...)
- W는 단어를 벡터로 바꿔주는 Matrix
- W는 학습시킨다.
- 1만개의 단어를 Word Embedding을 통해 32차원 벡터로 나타낼 경우, W의 dimension은 10000*32 이다.
- 단어를 밀집 벡터의 형태로(dense vector) 표현하는 방법
- Word Embedding 방법론 : LSA, Word2Vec, FastText, Glove 등이 있음
-
*희소 표현, Sparse Representation
- 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 것
*밀집 표현, Dense Representation
- 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춤
*pre-trained word embedding
- 이미 train되어져 있는 word embedding을 불러서 embedding vector로 사용하기도 함
반응형
'스타트업 > AI' 카테고리의 다른 글
[AI] 딥러닝 추천 시스템 in production (0) | 2020.08.13 |
---|---|
[AI] 카테고리 추천 모델(당근마켓) (0) | 2020.08.13 |
[AI] mecab (0) | 2020.08.07 |
[AI] BERT 당근마켓 적용 사례 정리 (0) | 2020.08.07 |
[AI] NLP Task (0) | 2020.08.05 |