*multi head attention

- scaled dot product attention 을 여러 개 만들어 다양한 특징에 대한 attention을 볼 수 있게 한 방법

- 입력받은 query, key, value 를 head 수만큼 나우어 병렬적으로 계산해주는 것.

- 내적 self attention 에서 본 query, key, value를 head 수만큼 나누어 linear layer를 통과시키고, 내적 attention을 구해 합치는 과정. 마지막으로 inear layer를 거쳐 나오면 multi haed attention 이 끝난다.

 

반응형

'스타트업 > AI' 카테고리의 다른 글

[AI] 리눅스 명령어  (0) 2020.07.21
[AI] CRF 알고리즘 (Conditional Random Field)  (0) 2020.07.16
[AI] Albumentations  (0) 2020.07.15
[AI] OpenCV error  (0) 2020.07.15
[AI] pickle  (0) 2020.07.14

+ Recent posts