Mixture-of-Experts(MoE) 아키텍처 250615
Mixture-of-Experts(MoE) 아키텍처는 기존의 “하나의 거대한 신경망” 대신에 여러 개의 작은 ‘전문가(expert)’ 네트워크를 만들고, 입력에 따라 그중 일부만 선택해 계산하도록 하는 방식입니다. Google Gemini 1.5에 적용된 MoE 구조를 중심으로, 단계별로 살펴보겠습니다.
⸻
1. MoE란 무엇인가?
• 전문가(expert): 서로 다른 특성을 학습한 작은 신경망들입니다. 예를 들어, “문장 이해에 강한” 전문가, “이미지 패턴 분석에 강한” 전문가처럼 역할을 분담합니다.
• 게이트(gate): 입력을 받아 어떤 전문가가 가장 적합할지 판단해, 상위 몇 개의 전문가만 선택하도록 하는 라우터(router) 역할을 합니다.
• 희소 활성화(sparse activation): 모든 전문가를 쓰지 않고, 입력마다 몇 개만 켜기 때문에(예: 상위 2–4개 전문가), 계산량(FLOPs)은 기존 모델과 비슷하면서도 파라미터 수는 크게 늘릴 수 있습니다. 
⸻
2. MoE의 동작 원리
1. 입력 처리: 텍스트 토큰이나 이미지 피처 등이 들어오면, 먼저 낮은 차원의 임베딩 벡터로 변환됩니다.
2. 게이트 네트워크 실행: 이 임베딩을 바탕으로 게이트가 전문가별 점수(logit)를 계산합니다. 보통 softmax를 지나, 각 전문가가 얼마나 기여할지 가중치(w_i)를 구합니다.
3. 전문가 선택: 가장 높은 가중치를 받은 상위 k개의 전문가만 활성화합니다(hard MoE) 또는 가중치에 따라 부분적으로 모두 사용할 수도 있습니다(soft MoE).
4. 전문가 병렬 계산: 선택된 전문가들만 자기 네트워크를 통해 출력을 생성하고, 이를 가중합해 최종 출력으로 합칩니다.
5. 역전파 학습: 전문가와 게이트 양쪽의 파라미터를 동시에 최적화해, ‘어떤 입력에 어떤 전문가를 쓸지’ 스스로 학습합니다.  
⸻
3. MoE의 장점
• 확장성: 파라미터 수를 크게 늘려 모델의 표현력을 높이되, 실제 연산량은 입력당 소수의 전문가만 사용하므로 크게 증가시키지 않습니다.
• 전문성 강화: 각 전문가가 특정 패턴이나 도메인에 특화되어 학습되므로, 복잡한 문제를 더 세밀하게 다룰 수 있습니다.
• 효율적 학습·추론: 큰 모델을 통째로 학습·추론하는 것보다, 필요한 부분만 골라 쓰므로 GPU 메모리·시간 자원을 절약할 수 있습니다.  
⸻
4. Google Gemini에서의 MoE 적용
• Gemini 1.5 Pro: Google DeepMind는 Gemini 1.5 Pro부터 MoE 아키텍처를 도입해 “효율적인 학습과 제공(serving)”을 달성했습니다. 기존 Gemini 1.0 Ultra와 동급 이상의 성능을 내면서, 학습 속도와 서비스 응답 속도를 크게 개선했습니다 
• 긴 문맥 처리: 표준 128,000 토큰 컨텍스트 윈도우를 지원하며, 프라이빗 프리뷰에서는 최대 1백만(token)까지 확장 가능합니다. MoE의 희소 활성화 덕분에 이 거대한 컨텍스트도 현실적인 자원으로 처리할 수 있게 되었습니다  
• 미래 확장성: MoE는 전문가의 수를 유연하게 늘릴 수 있어, 향후 더 높은 성능과 더 긴 문맥, 더 다양한 멀티모달 입력(텍스트·이미지·오디오 등)에 대응하는 기반 기술로 꼽힙니다.
⸻
요약
1. MoE는 ‘여러 전문가 중 일부만 선택해 쓰는’ 희소 모델
2. 게이트가 입력 별로 전문가를 동적으로 라우팅
3. 파라미터 수 확장 vs 실제 연산량 최소화
4. Gemini 1.5 Pro에 적용되어 대규모 문맥·멀티모달 처리 효율을 높임
MoE는 앞으로도 대형 언어·멀티모달 모델의 핵심 설계 기법 중 하나로, 더욱 다양한 분야에서 활용될 전망입니다.