Multi-Head Latent Attention(MLA)은 대규모 트랜스포머 모델의 Key–Value(KV) 캐시 메모리 사용량과 통신 병목을 크게 줄이면서도 성능 저하를 최소화하기 위해 고안된 새로운 어텐션 메커니즘입니다. 기존의 Multi-Head Attention(MHA)이 쌓인 길이만큼 키와 밸류를 전부 캐시하는 데 반해, MLA는 이를 저차원(latent) 공간으로 압축하여 저장합니다.



1. 왜 필요할까?
• 메모리 병목
• MHA에서는 시퀀스가 길어질수록 KV 캐시가 선형적으로 증가.
긴 컨텍스트를 다룰 때 메모리 사용량과 대역폭이 급격히 늘어납니다.
통신 병목
분산 환경이나 하드웨어 가속기 상에서, 매스스트림으로 커다란 KV 텐서를 주고받는 데 병목이 발생합니다.  



2. 어떻게 동작할까?
1. 잠재 공간(Latent Space) 도입
쿼리(Q), 키(K), 밸류(V) 텐서를 각각 저차원의 잠재 벡터로 투영(projection)
• 이때 사용하는 투영 행렬은 보통 저랭크(low-rank)로 설계되어 파라미터 수와 연산량을 줄임.
2. 압축된 KV 캐시
• 평소에는 전체 차원의 K,V를 저장하지만, MLA는 이 잠재 벡터만 메모리에 남겨 둠
캐시 크기를 최대 90% 이상 줄일 수 있음 (예: Llama2-7B 모델에서 KV 캐시 92.2% 감소)  
3. 업프로젝션(Up-Projection)
압축 과정에서 손실된 표현력을 보완하기 위해, 잠재 공간에서 다시 원래 차원으로 올려주는(up-projection) 행렬을 사용
이 추가 연산은 약간의 계산 오버헤드를 발생시키지만, 전체 통신 비용 절감 효과가 훨씬 큼  



3. MLA vs. 기존 어텐션 비교
• Standard MHA
• KV 캐시 크기 = 시퀀스 길이 × 히든 차원
• 메모리·대역폭 부담 큼
• Grouped-Query Attention (GQA) / Multi-Query Attention (MQA)
• 키·밸류를 일부 그룹으로 묶어 캐시 크기 절감
• 모델 성능과 확장성 간 절충 필요
• MLA
• 모든 헤드의 KV를 하나의 저차원 잠재 공간에 압축
• GQA/MQA보다 더 작은 캐시, 높은 표현력 유지 가능
• 이론적으로 GQA는 MLA로 표현 가능하지만, 그 반대는 불가능   



4. 장점과 고려사항
• 장점
• KV 캐시 메모리 5–10배 감소
• 분산·하드웨어 병목 완화 → 추론(inference) 속도↑
• 추가 학습 없이도 전이 가능(TransMLA 기법)  
• 단점/유의점
• 압축·업프로젝션 연산으로 인한 소폭 연산 오버헤드
• 저차원 투영 행렬 차원 설정(하이퍼파라미터) 민감도
• 아직 GQA/MQA 대비 산업계 도입 사례는 제한적



5. 실제 적용 예시
DeepSeek-V2/V3/R1: MLA 도입으로 긴 컨텍스트 처리 시 메모리 80–90% 절감
• TransMLA: 사전학습된 GQA 기반 모델(LLaMA, Qwen 등)을 후처리만으로 MLA로 변환 후 재학습 → 캐시 절감 효과 구현   
• 하드웨어 관점 분석: MLA는 메모리 대역폭보다 연산 중심으로 워크로드를 전환, 대역폭 한계 플랫폼에서 특히 효율적  



요약: MLA는 트랜스포머의 핵심인 어텐션 메커니즘을 저차원 잠재 공간을 통해 압축·관리함으로써, 메모리 사용량과 통신 병목을 획기적으로 줄여 줍니다. 약간의 계산 오버헤드를 감수하는 대신, 긴 문맥 처리나 분산 추론 환경에서 효율성을 크게 높일 수 있는 최신 기법입니다.

반응형

+ Recent posts