[BERT 의 문제]
- Memory Limitation
- Training Time
- Memory Degradation
[Contribution]
- Factorized embedding parameterization : Input Layer의 Parameter 수를 줄여 모델 크기 줄임
- Cross-layer parameter sharing : Transformer의 각 Layer간 같은 Parameter를 공유하여 모델 크기 줄임
- Sentence order prediction : NSP 대신 두 문장 간 순서를 맞추는 방식으로 학습(Masked LM은 동일하게 활용)
[Factorized embedding parameterization]
- BERT : Input Token Embedding Size(E) = Hidden Size(H)
- ALBERT : Input Token Embedding Size(E) < Hidden Size(H)
- V = Vocabulary Size (BERT : 30,000)
- BERT : V * H
- ALBERT : V * E, E * H
[Cross-layer parameter sharing]
- Recursive Transfomer
- Self-Attention Layer만 공유했을 때는 성능이 크게 떨어지지 않는다.
- Feed Forward Network(FFN) 공유 시 성능이 다소 떨어진다.
[Sentence order prediction]
- 학습 데이터가 실제 연속인 두 문장(positive)과 두 문장의 순서를 앞뒤로 바꾼 것(negative)으로 구성되고, 문장의 순서가 옳은지 여부를 예측하는 방식으로 학습
'스타트업 > AI' 카테고리의 다른 글
[AI] NLP의 기본 절차와 Lexical Analysis (0) | 2020.05.25 |
---|---|
[AI] 형태소 분석기 (0) | 2020.05.25 |
[AI] Transformer & ALBERT (0) | 2020.05.21 |
[AI] NER (0) | 2020.05.20 |
[AI] OCR Parsing 관련 paper 2개 (0) | 2020.05.08 |