인공지능(AI) 및 생성형 인공지능/AI 주요 기술

<문> LLM 사전 학습 및 사후 학습

최술사 2026. 3. 9. 15:18

<답>

1. 개요

  •  LLM 사전 학습은 대규모 비라벨 텍스트를 이용해 언어 패턴·세계 지식을 학습시키는 기초 모델 구축 단계이며, 사후 학습은 이를 특정 작업,행동 양식에 맞게 정렬 및 최적화하는 단계임
  • 사전 학습은 self-supervised next-token/마스킹 예측으로 거대 연산 및 데이터를 사용해 범용 기반 모델을 만들고, 사후 학습은 SFT,RLHF 등으로 지시 수행력, 안전성, 도메인 적합성을 높여 실사용 가능한 서비스 모델로 완성함

 2. LLM 사전 학습과 사후 학습

가. 개념

구분 사전 학습(Pre-training) 사후 학습(Post-training)
개념 트랜스포머 기반 LLM에 대해 방대한 웹 텍스트·도서·코드 등 비라벨 코퍼스를 이용, 다음 토큰 예측(autoregressive) 또는 마스크 토큰 복원(MLM)과 같은 self-supervised 목표로 언어 구조·통계·상식 지식을 내재화하는 과정임 사전 학습된 base LLM을 입력-출력 페어, 지시·대화 데이터, 인간 선호 피드백 등을 이용해 미세조정(SFT)·강화학습(RLHF, RFT, DPO 등)·PEFT(LoRA, Adapter 등)로 특정 태스크, 안전 정책, 스타일에 맞게 행동을 정렬하는 후처리 단계임

나. LLM 학습 파이프라인 개념도

① 데이터 단계
· 사전 학습 데이터: 웹 크롤링, 위키, 서적, 코드 등으로 이루어진 수십~수백 TB 규모 코퍼스 구축, 중복 제거·품질 필터링·언어/도메인 비율 조정 수행
· 사후 학습 데이터: 지시-응답 쌍, 대화 로그, 도메인 태스크 데이터, 인간 선호 비교쌍, 안전·정책 예시 등 수백만 샘플 수준의 고품질·구조화 데이터 준비

② 모델·사전 학습 단계
· 트랜스포머 아키텍처(디코더 중심) 정의, 토크나이저 설계 후, 대규모 GPU/TPU 클러스터에서 next-token 예측 손실을 최소화하며 수십~수백 billion 파라미터 모델을 수 주~수개월 학습
· 학습 중 체크포인트 저장, 스케일링 법칙(Chinchilla 등)에 따라 파라미터 수·토큰 수·연산량의 균형 최적화하고, perplexity·벤치마크(언어이해, 수리, 추론 등)로 성능 모니터링함

③ 사후 학습 단계
· SFT: 사람 또는 고품질 모델이 생성한 정답 응답을 정답 레이블로 하여 슈퍼바이즈드 방식으로 모델을 미세조정, 지시 수행·대화 품질을 개선
· RLHF/RFT: 인간 또는 자동화된 평가자가 응답 세트에 선호 랭킹을 부여, 이를 학습한 Reward Model과 PPO·DPO·GRPO 등 RL 알고리즘으로 정책(모델)을 업데이트해 선호 정렬·안전성을 강화

④ 배포 및 피드백 단계
· 사후 학습된 모델을 API/온프레미스 형태로 배포, 모니터링, 로그 수집을 통해 오류 사례·새로운 태스크를 추출하고, 이를 다시 사후 학습 데이터로 순환시켜 지속적으로 모델을 개선함

다. 기술적 특징

구분 주요 목적 데이터 특성 연산/비용 산출물 주요 기술
사전 학습 일반 언어·세계 지식 학습, 범용 능력 확보 비라벨, 웹·도서·코드 등 대규모 텍스트, 저렴하지만 노이즈 많음 가장 고비용, 수조 토큰, 대규모 GPU 클러스터 필요 Base LLM (지식 풍부, 지시 수행·안전성 미흡) self-supervised(Next-token/MLM), 스케일링 법칙, 데이터·모델·연산 최적화
사후 학습(SFT) 인스트럭션·대화 형식 학습, 태스크 적합도 향상 라벨된 프롬프트-응답 쌍, 수만~수백만 고품질 샘플 사전 대비 1~10% 수준, 단일/소수 GPU로도 가능 Instruction-tuned 모델, 사용자 친화적 응답 생성 Chat 템플릿, 포맷 정렬, 오버피팅·망각 방지(learning rate·data mixing)
사후 학습(RLHF/RFT) 인간 가치·선호 정렬, 안전성·일관성 강화 선호 랭킹·스코어 데이터, 비교·보상 라벨 필요 중간 비용, Reward Model+정책 모델 이중 학습 Alignment 강화 모델, 유해 출력 감소 PPO/DPO/GRPO, KL 페널티로 원 모델 분포와의 괴리 제어, reward hacking 방지
사후 학습(PEFT: LoRA 등) 도메인·고객사별 경량 튜닝 소량 도메인 데이터, 기업 내부 로그·문서 등 적은 파라미터만 업데이트, 저비용로 반복 적용 가능 도메인 특화 모델 어댑터, 멀티버전 운영 용이 LoRA, Adapter, Prefix-tuning 등, 원본 가중치 고정해 안전한 커스터마이징
운영·피드백 품질 모니터링·지속 개선 실제 사용자 쿼리/응답 로그, 실패 사례·에지 케이스 상시·점진적, 온라인 평가·A/B 테스트 포함 주기적 재사후학습, 버전 업그레이드 자동 평가(evals), 안전·성능 지표 관리, 데이터 루프 구축

3. LLM 사전 학습 및 사후 학습 비교

구분 사전 학습(Pre-training) 사후 학습(Post-training)
목표
역할
일반 언어·세계 지식 습득, 범용 표현·추론 능력 확보 특정 태스크·제품 요구에 맞게 행동·스타일·안전성 정렬
데이터 웹 크롤링, 위키, 책, 코드 등 거대 비라벨 텍스트, 품질·편향 관리가 과제 지시-응답, 대화, 선호 랭킹, 도메인 로그 등 구조화·고품질 라벨 데이터
규모
비용
수조 토큰, 수십~수백 B 파라미터, 초대형 GPU 클러스터와 장기간 학습 필요 수억~수십억 토큰 수준, 사전 학습의 1~10% 비용, 비교적 소규모 인프라로 반복 가능
기법
알고리즘
self-supervised language modeling(Next-token, MLM), 스케일링 법칙, 데이터 필터링·샘플링 전략 SFT, RLHF/RFT(DPO·PPO·GRPO 등), LoRA/Adapter 기반 PEFT, reward model·evaluator 설계
결과 모델,활용 Base LLM: API/오픈모델로 제공, 이후 다양한 조직이 이를 기반으로 사후 학습·도메인 특화 Instruction/Chat/Domain LLM: 고객 응대, 코딩, 의료·법률 보조 등 실 업무 시스템에 직접 탑재

4. 활용 및 기술 동향

  •  LLM 사전 학습은 글로벌 소수 빅테크 및 컨소시엄 중심으로 초거대 모델,다국어,멀티모달 기반을 구축하고, 사후 학습은 각 기업,기관이 공개/상용 base 모델에 대해 도메인 특화,다국어,정책 정렬을 수행하는 구조로 분업화되는 추세임
  • 최근에는 메모리,탄소발자국을 줄이는 효율적 사전 학습(STEP, domain-adaptive pretraining 등)과 보상학습,테스트타임 스케일링 등 Learning from Rewards 기반 정렬 기법이 고도화되며, 실제 현장에서는 로그 기반 지속 사후 학습 파이프라인과 경량 PEFT 조합이 운영·품질 관리의 핵심 실무 패턴으로 자리잡고 있음

<끝>