음운론(Phonotogy) : 말소리 연구

형태론(Morphology) : 단어와 형태소 연구

통사론(syntax) : 맥락

의미론(Senmantics) : 담화

 

[어휘분석(Lexical Analysis)]

- Part of speech(포스태깅) : 단어의 품사 정보를 결정하는 절차

- Named entity recognition(개체명 인식) : 인명, 지명 등 고유명사를 분류하는 방법론

- Co-reference(상호참조) : 선행 단어/구를 현재 단어/구와 비교해 같은 개체인지를 결정하는 문제

- Basic dependencies(의존관계 분석) : 성분에 따라 문장구조를 정의하는 구구조문법(생성문법 기반)과 달리 단어와 다른 단어가 가지는의존관계를 중시해 문장 구조를 분석하는 방법

 

[어휘분석 절차]

- Sentence splitting(문장분리) : 말뭉치를 우선 문장 단위로 끊는다.

- Tokenize(토크나이즈) : 문장을 분석하기 좋도록 Token(의미를 가지는 문자열)으로 나누는 작업

- Morphological analysis(Text Normalization) : 토큰을 좀 더 일반적인 형태로 분석해 단어 수를 줄여 분석의 효율성을 높이는 작업, stemming, temmatization

- 포스태깅 : 토큰의 품사정보를 할당하는 작업, 한국어는 교착어, 어근 + 접사 + 어미 

반응형

'스타트업 > AI' 카테고리의 다른 글

[AI] BiLSTM + CRF  (0) 2020.05.25
[AI] Word2Vec, Fasttext  (0) 2020.05.25
[AI] 형태소 분석기  (0) 2020.05.25
[AI] ALBERT  (0) 2020.05.25
[AI] Transformer & ALBERT  (0) 2020.05.21

+ Recent posts