카테고리 없음

LLM 은 대부분 Self-Supervised Learning 으로 학습 250611

mezzanineX 2025. 6. 11. 08:37

대부분의 LLM은 supervised learning, unsupervised learning, 그리고 reinforcement learning을 혼합해서 사용합니다. 자세히 설명드리면 다음과 같습니다:



1. 초기 학습: Unsupervised Learning (정확히는 Self-Supervised Learning)
LLM은 먼저 웹, 책, 위키백과, 뉴스 등 대규모 텍스트 데이터를 기반으로 학습합니다.
• 이때 정답 라벨이 따로 주어지지 않기 때문에 Self-supervised라고 부릅니다.
예:
문장에서 단어를 가리고 맞히게 하거나
다음 문장을 예측하게 하는 방식 (언어 모델링)



2. 후반 학습: Supervised Fine-Tuning
• 모델이 어느 정도 언어를 이해하게 된 후에는, **사람이 작성한 고품질 질의응답 데이터 등으로 정제 학습(supervised fine-tuning)**을 합니다.
• 이때는 정답이 주어지고, 모델은 그 정답을 맞추도록 학습됩니다.



3. 강화학습 (RLHF: Reinforcement Learning from Human Feedback)
• 마지막으로, 사람이 선택한 더 좋은 답변을 기준으로 보상 신호를 주는 강화학습을 진행합니다.
• 이 과정이 ChatGPT 같은 모델을 “친절하고 유용하게” 만들어줍니다.



정리
• LLM은 순수 supervised 모델은 아니며,
→ Self-supervised + Supervised + RLHF를 거치는 혼합형 학습 방식입니다.

q1: 각 학습 방식의 비중은?

a1:

1. Self-Supervised Learning (기본 언어 모델링) — 약 80~90% 이상 비중
전체 학습에서 가장 큰 비중을 차지합니다.
방대한 텍스트 데이터(수백억 단어 이상)를 이용해 모델이 언어 구조, 문맥, 패턴 등을 학습하는 핵심 단계입니다.
이 단계에서 모델은 기초적인 언어 이해 능력을 갖추며, 단어 예측, 문장 완성 능력을 배웁니다.
• 데이터 규모가 크고, 학습 시간이 매우 길어 전체 학습 시간과 비용의 대부분을 차지합니다.



2. Supervised Fine-Tuning — 약 5~15% 비중
• Self-supervised 학습 후, 모델이 특정 태스크(질의응답, 요약, 번역 등)에 적합하도록 지도학습으로 미세조정합니다.
• 비교적 적은 양의 라벨 데이터로 진행되지만 모델의 성능을 실질적으로 크게 개선시킵니다.
• 사람이 만든 고품질 데이터가 필요하며, 이 단계에서 모델이 좀 더 정확하고 안정적인 답변을 내도록 다듬어집니다.



3. Reinforcement Learning from Human Feedback (RLHF) — 약 5~10% 비중
• 최종 단계로, 인간 평가자들이 선호하는 답변에 보상을 줘서 모델이 ‘좋은’ 답변을 내는 방향으로 최적화됩니다.
• 모델의 답변 품질, 친절함, 윤리성 등을 크게 향상시키는 역할을 합니다.
• 데이터량은 비교적 적지만, 품질 면에서 매우 중요한 단계입니다.



요약
• Self-supervised (언어모델링): 80~90% — 언어 이해의 기본 토대
• Supervised Fine-Tuning: 5~15% — 특정 태스크 정밀 조정
• RLHF: 5~10% — 답변 품질과 사용자 만족도 최적화

반응형