카테고리 없음

Mixture-of-Experts(MoE) 아키텍처 250615

mezzanineX 2025. 6. 15. 01:18

Mixture-of-Experts(MoE) 아키텍처는 기존의 “하나의 거대한 신경망” 대신에 여러 개의 작은 ‘전문가(expert)’ 네트워크를 만들고, 입력에 따라 그중 일부만 선택해 계산하도록 하는 방식입니다. Google Gemini 1.5에 적용된 MoE 구조를 중심으로, 단계별로 살펴보겠습니다.



1. MoE란 무엇인가?
전문가(expert): 서로 다른 특성을 학습한 작은 신경망들입니다. 예를 들어, “문장 이해에 강한” 전문가, “이미지 패턴 분석에 강한” 전문가처럼 역할을 분담합니다.
게이트(gate): 입력을 받아 어떤 전문가가 가장 적합할지 판단해, 상위 몇 개의 전문가만 선택하도록 하는 라우터(router) 역할을 합니다.
희소 활성화(sparse activation): 모든 전문가를 쓰지 않고, 입력마다 몇 개만 켜기 때문에(예: 상위 2–4개 전문가), 계산량(FLOPs)은 기존 모델과 비슷하면서도 파라미터 수는 크게 늘릴 수 있습니다.  



2. MoE의 동작 원리
1. 입력 처리: 텍스트 토큰이나 이미지 피처 등이 들어오면, 먼저 낮은 차원의 임베딩 벡터로 변환됩니다.
2. 게이트 네트워크 실행: 이 임베딩을 바탕으로 게이트가 전문가별 점수(logit)를 계산합니다. 보통 softmax를 지나, 각 전문가가 얼마나 기여할지 가중치(w_i)를 구합니다.
3. 전문가 선택: 가장 높은 가중치를 받은 상위 k개의 전문가만 활성화합니다(hard MoE) 또는 가중치에 따라 부분적으로 모두 사용할 수도 있습니다(soft MoE).
4. 전문가 병렬 계산: 선택된 전문가들만 자기 네트워크를 통해 출력을 생성하고, 이를 가중합해 최종 출력으로 합칩니다.
5. 역전파 학습: 전문가와 게이트 양쪽의 파라미터를 동시에 최적화해, ‘어떤 입력에 어떤 전문가를 쓸지’ 스스로 학습합니다.   



3. MoE의 장점
• 확장성: 파라미터 수를 크게 늘려 모델의 표현력을 높이되, 실제 연산량은 입력당 소수의 전문가만 사용하므로 크게 증가시키지 않습니다.
전문성 강화: 각 전문가가 특정 패턴이나 도메인에 특화되어 학습되므로, 복잡한 문제를 더 세밀하게 다룰 수 있습니다.
효율적 학습·추론: 큰 모델을 통째로 학습·추론하는 것보다, 필요한 부분만 골라 쓰므로 GPU 메모리·시간 자원을 절약할 수 있습니다.   



4. Google Gemini에서의 MoE 적용
• Gemini 1.5 Pro: Google DeepMind는 Gemini 1.5 Pro부터 MoE 아키텍처를 도입해 “효율적인 학습과 제공(serving)”을 달성했습니다. 기존 Gemini 1.0 Ultra와 동급 이상의 성능을 내면서, 학습 속도와 서비스 응답 속도를 크게 개선했습니다  
긴 문맥 처리: 표준 128,000 토큰 컨텍스트 윈도우를 지원하며, 프라이빗 프리뷰에서는 최대 1백만(token)까지 확장 가능합니다. MoE의 희소 활성화 덕분에 이 거대한 컨텍스트도 현실적인 자원으로 처리할 수 있게 되었습니다   
미래 확장성: MoE는 전문가의 수를 유연하게 늘릴 수 있어, 향후 더 높은 성능과 더 긴 문맥, 더 다양한 멀티모달 입력(텍스트·이미지·오디오 등)에 대응하는 기반 기술로 꼽힙니다.



요약
1. MoE는 ‘여러 전문가 중 일부만 선택해 쓰는’ 희소 모델
2. 게이트가 입력 별로 전문가를 동적으로 라우팅
3. 파라미터 수 확장 vs 실제 연산량 최소화
4. Gemini 1.5 Pro에 적용되어 대규모 문맥·멀티모달 처리 효율을 높임

MoE는 앞으로도 대형 언어·멀티모달 모델의 핵심 설계 기법 중 하나로, 더욱 다양한 분야에서 활용될 전망입니다.

반응형