음운론(Phonotogy) : 말소리 연구
형태론(Morphology) : 단어와 형태소 연구
통사론(syntax) : 맥락
의미론(Senmantics) : 담화
[어휘분석(Lexical Analysis)]
- Part of speech(포스태깅) : 단어의 품사 정보를 결정하는 절차
- Named entity recognition(개체명 인식) : 인명, 지명 등 고유명사를 분류하는 방법론
- Co-reference(상호참조) : 선행 단어/구를 현재 단어/구와 비교해 같은 개체인지를 결정하는 문제
- Basic dependencies(의존관계 분석) : 성분에 따라 문장구조를 정의하는 구구조문법(생성문법 기반)과 달리 단어와 다른 단어가 가지는의존관계를 중시해 문장 구조를 분석하는 방법
[어휘분석 절차]
- Sentence splitting(문장분리) : 말뭉치를 우선 문장 단위로 끊는다.
- Tokenize(토크나이즈) : 문장을 분석하기 좋도록 Token(의미를 가지는 문자열)으로 나누는 작업
- Morphological analysis(Text Normalization) : 토큰을 좀 더 일반적인 형태로 분석해 단어 수를 줄여 분석의 효율성을 높이는 작업, stemming, temmatization
- 포스태깅 : 토큰의 품사정보를 할당하는 작업, 한국어는 교착어, 어근 + 접사 + 어미
반응형
'스타트업 > AI' 카테고리의 다른 글
[AI] BiLSTM + CRF (0) | 2020.05.25 |
---|---|
[AI] Word2Vec, Fasttext (0) | 2020.05.25 |
[AI] 형태소 분석기 (0) | 2020.05.25 |
[AI] ALBERT (0) | 2020.05.25 |
[AI] Transformer & ALBERT (0) | 2020.05.21 |