[BERT 의 문제]

- Memory Limitation

- Training Time

- Memory Degradation

 

[Contribution]

- Factorized embedding parameterization : Input Layer의 Parameter 수를 줄여 모델 크기 줄임

- Cross-layer parameter sharing : Transformer의 각 Layer간 같은 Parameter를 공유하여 모델 크기 줄임

- Sentence order prediction : NSP 대신 두 문장 간 순서를 맞추는 방식으로 학습(Masked LM은 동일하게 활용)

 

[Factorized embedding parameterization]

- BERT : Input Token Embedding Size(E) = Hidden Size(H)

- ALBERT : Input Token Embedding Size(E) < Hidden Size(H)

- V = Vocabulary Size (BERT : 30,000)

- BERT : V * H

- ALBERT : V * E, E * H

 

[Cross-layer parameter sharing]

- Recursive Transfomer

- Self-Attention Layer만 공유했을 때는 성능이 크게 떨어지지 않는다.

- Feed Forward Network(FFN) 공유 시 성능이 다소 떨어진다.

 

[Sentence order prediction]

- 학습 데이터가 실제 연속인 두 문장(positive)과 두 문장의 순서를 앞뒤로 바꾼 것(negative)으로 구성되고, 문장의 순서가 옳은지 여부를 예측하는 방식으로 학습

 

 

 

 

 

반응형

'스타트업 > AI' 카테고리의 다른 글

[AI] NLP의 기본 절차와 Lexical Analysis  (0) 2020.05.25
[AI] 형태소 분석기  (0) 2020.05.25
[AI] Transformer & ALBERT  (0) 2020.05.21
[AI] NER  (0) 2020.05.20
[AI] OCR Parsing 관련 paper 2개  (0) 2020.05.08

+ Recent posts