LLM(Large Language Model)의 시작 = “Attention Is All You Need” 논문(2017년) 250611

카테고리 없음

LLM(Large Language Model)의 시작 = “Attention Is All You Need” 논문(2017년) 250611

mezzanineX 2025. 6. 11. 08:34

LLM(대형 언어 모델, Large Language Model)의 시작을 이야기할 때 보통 “Attention Is All You Need” 논문(2017년)이 가장 중요한 출발점으로 꼽힙니다.

이 논문에서 트랜스포머(Transformer)라는 새로운 신경망 구조가 제안되었는데, 이는 이전의 RNN이나 LSTM 기반 모델들과 달리 어텐션 메커니즘만으로 문장 내 단어 간 관계를 학습할 수 있게 해줬습니다. 이 혁신 덕분에 이후 GPT, BERT, T5 같은 대형 언어 모델들이 탄생할 수 있었죠.
• 논문명: Attention Is All You Need
• 저자: Vaswani et al.
• 발표년도: 2017년
• 중요 내용: 순환 신경망 없이 어텐션만으로 시퀀스 처리 가능, 병렬 학습 용이

이 논문이 LLM 발전의 기초가 되었고, 이후 GPT 시리즈(특히 2018년 GPT, 2019년 GPT-2, 2020년 GPT-3) 같은 대규모 언어 모델이 나오면서 LLM 시대가 본격화되었습니다.