[AI] 워드 임베딩(Word Embedding)

2020. 8. 7. 17:55

*Word Embedding

- Word를 R차원의 Vector로 매핑시켜주는 것

- W("cat") = (0.2, -0.4, 0.7, ...)

- W("hat") = (0.0, -0.5, 0.3, ...)

- W는 단어를 벡터로 바꿔주는 Matrix

- W는 학습시킨다.

- 1만개의 단어를 Word Embedding을 통해 32차원 벡터로 나타낼 경우, W의 dimension은 10000*32 이다.

- 단어를 밀집 벡터의 형태로(dense vector) 표현하는 방법

- Word Embedding 방법론 : LSA, Word2Vec, FastText, Glove 등이 있음

*희소 표현, Sparse Representation

- 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 것

*밀집 표현, Dense Representation

- 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춤

*pre-trained word embedding

- 이미 train되어져 있는 word embedding을 불러서 embedding vector로 사용하기도 함

MezzanineX