<답>
1. 개요
- LLM 사전 학습은 대규모 비라벨 텍스트를 이용해 언어 패턴·세계 지식을 학습시키는 기초 모델 구축 단계이며, 사후 학습은 이를 특정 작업,행동 양식에 맞게 정렬 및 최적화하는 단계임
- 사전 학습은 self-supervised next-token/마스킹 예측으로 거대 연산 및 데이터를 사용해 범용 기반 모델을 만들고, 사후 학습은 SFT,RLHF 등으로 지시 수행력, 안전성, 도메인 적합성을 높여 실사용 가능한 서비스 모델로 완성함
2. LLM 사전 학습과 사후 학습
가. 개념
| 구분 | 사전 학습(Pre-training) | 사후 학습(Post-training) |
| 개념 | 트랜스포머 기반 LLM에 대해 방대한 웹 텍스트·도서·코드 등 비라벨 코퍼스를 이용, 다음 토큰 예측(autoregressive) 또는 마스크 토큰 복원(MLM)과 같은 self-supervised 목표로 언어 구조·통계·상식 지식을 내재화하는 과정임 | 사전 학습된 base LLM을 입력-출력 페어, 지시·대화 데이터, 인간 선호 피드백 등을 이용해 미세조정(SFT)·강화학습(RLHF, RFT, DPO 등)·PEFT(LoRA, Adapter 등)로 특정 태스크, 안전 정책, 스타일에 맞게 행동을 정렬하는 후처리 단계임 |
나. LLM 학습 파이프라인 개념도

① 데이터 단계
· 사전 학습 데이터: 웹 크롤링, 위키, 서적, 코드 등으로 이루어진 수십~수백 TB 규모 코퍼스 구축, 중복 제거·품질 필터링·언어/도메인 비율 조정 수행
· 사후 학습 데이터: 지시-응답 쌍, 대화 로그, 도메인 태스크 데이터, 인간 선호 비교쌍, 안전·정책 예시 등 수백만 샘플 수준의 고품질·구조화 데이터 준비
② 모델·사전 학습 단계
· 트랜스포머 아키텍처(디코더 중심) 정의, 토크나이저 설계 후, 대규모 GPU/TPU 클러스터에서 next-token 예측 손실을 최소화하며 수십~수백 billion 파라미터 모델을 수 주~수개월 학습
· 학습 중 체크포인트 저장, 스케일링 법칙(Chinchilla 등)에 따라 파라미터 수·토큰 수·연산량의 균형 최적화하고, perplexity·벤치마크(언어이해, 수리, 추론 등)로 성능 모니터링함
③ 사후 학습 단계
· SFT: 사람 또는 고품질 모델이 생성한 정답 응답을 정답 레이블로 하여 슈퍼바이즈드 방식으로 모델을 미세조정, 지시 수행·대화 품질을 개선
· RLHF/RFT: 인간 또는 자동화된 평가자가 응답 세트에 선호 랭킹을 부여, 이를 학습한 Reward Model과 PPO·DPO·GRPO 등 RL 알고리즘으로 정책(모델)을 업데이트해 선호 정렬·안전성을 강화
④ 배포 및 피드백 단계
· 사후 학습된 모델을 API/온프레미스 형태로 배포, 모니터링, 로그 수집을 통해 오류 사례·새로운 태스크를 추출하고, 이를 다시 사후 학습 데이터로 순환시켜 지속적으로 모델을 개선함
다. 기술적 특징
| 구분 | 주요 목적 | 데이터 특성 | 연산/비용 | 산출물 | 주요 기술 |
| 사전 학습 | 일반 언어·세계 지식 학습, 범용 능력 확보 | 비라벨, 웹·도서·코드 등 대규모 텍스트, 저렴하지만 노이즈 많음 | 가장 고비용, 수조 토큰, 대규모 GPU 클러스터 필요 | Base LLM (지식 풍부, 지시 수행·안전성 미흡) | self-supervised(Next-token/MLM), 스케일링 법칙, 데이터·모델·연산 최적화 |
| 사후 학습(SFT) | 인스트럭션·대화 형식 학습, 태스크 적합도 향상 | 라벨된 프롬프트-응답 쌍, 수만~수백만 고품질 샘플 | 사전 대비 1~10% 수준, 단일/소수 GPU로도 가능 | Instruction-tuned 모델, 사용자 친화적 응답 생성 | Chat 템플릿, 포맷 정렬, 오버피팅·망각 방지(learning rate·data mixing) |
| 사후 학습(RLHF/RFT) | 인간 가치·선호 정렬, 안전성·일관성 강화 | 선호 랭킹·스코어 데이터, 비교·보상 라벨 필요 | 중간 비용, Reward Model+정책 모델 이중 학습 | Alignment 강화 모델, 유해 출력 감소 | PPO/DPO/GRPO, KL 페널티로 원 모델 분포와의 괴리 제어, reward hacking 방지 |
| 사후 학습(PEFT: LoRA 등) | 도메인·고객사별 경량 튜닝 | 소량 도메인 데이터, 기업 내부 로그·문서 등 | 적은 파라미터만 업데이트, 저비용로 반복 적용 가능 | 도메인 특화 모델 어댑터, 멀티버전 운영 용이 | LoRA, Adapter, Prefix-tuning 등, 원본 가중치 고정해 안전한 커스터마이징 |
| 운영·피드백 | 품질 모니터링·지속 개선 | 실제 사용자 쿼리/응답 로그, 실패 사례·에지 케이스 | 상시·점진적, 온라인 평가·A/B 테스트 포함 | 주기적 재사후학습, 버전 업그레이드 | 자동 평가(evals), 안전·성능 지표 관리, 데이터 루프 구축 |
3. LLM 사전 학습 및 사후 학습 비교
| 구분 | 사전 학습(Pre-training) | 사후 학습(Post-training) |
| 목표 역할 |
일반 언어·세계 지식 습득, 범용 표현·추론 능력 확보 | 특정 태스크·제품 요구에 맞게 행동·스타일·안전성 정렬 |
| 데이터 | 웹 크롤링, 위키, 책, 코드 등 거대 비라벨 텍스트, 품질·편향 관리가 과제 | 지시-응답, 대화, 선호 랭킹, 도메인 로그 등 구조화·고품질 라벨 데이터 |
| 규모 비용 |
수조 토큰, 수십~수백 B 파라미터, 초대형 GPU 클러스터와 장기간 학습 필요 | 수억~수십억 토큰 수준, 사전 학습의 1~10% 비용, 비교적 소규모 인프라로 반복 가능 |
| 기법 알고리즘 |
self-supervised language modeling(Next-token, MLM), 스케일링 법칙, 데이터 필터링·샘플링 전략 | SFT, RLHF/RFT(DPO·PPO·GRPO 등), LoRA/Adapter 기반 PEFT, reward model·evaluator 설계 |
| 결과 모델,활용 | Base LLM: API/오픈모델로 제공, 이후 다양한 조직이 이를 기반으로 사후 학습·도메인 특화 | Instruction/Chat/Domain LLM: 고객 응대, 코딩, 의료·법률 보조 등 실 업무 시스템에 직접 탑재 |
4. 활용 및 기술 동향
- LLM 사전 학습은 글로벌 소수 빅테크 및 컨소시엄 중심으로 초거대 모델,다국어,멀티모달 기반을 구축하고, 사후 학습은 각 기업,기관이 공개/상용 base 모델에 대해 도메인 특화,다국어,정책 정렬을 수행하는 구조로 분업화되는 추세임
- 최근에는 메모리,탄소발자국을 줄이는 효율적 사전 학습(STEP, domain-adaptive pretraining 등)과 보상학습,테스트타임 스케일링 등 Learning from Rewards 기반 정렬 기법이 고도화되며, 실제 현장에서는 로그 기반 지속 사후 학습 파이프라인과 경량 PEFT 조합이 운영·품질 관리의 핵심 실무 패턴으로 자리잡고 있음
<끝>
'인공지능(AI) 및 생성형 인공지능 > AI 주요 기술' 카테고리의 다른 글
| <문> 중첩학습(Nested Learning) (0) | 2026.03.09 |
|---|---|
| <문> 슈퍼팟(Superpod) (0) | 2026.03.09 |
| <문> 터보스파스(TurboSparse) 기술 (0) | 2026.03.09 |
| <문> 하이브리드 어텐션(Hybrid Attention) (0) | 2026.03.09 |
| <문> LLM, sLLM, SLM (0) | 2026.03.06 |