인공지능(AI) 및 생성형 인공지능/AI 주요 기술

<문> 지식 증류(Knowledge Distillation, KD)

최술사 2026. 2. 25. 09:23

<답>

1. 개요

  • 대규모 교사(Teacher) 모델의 학습 지식을 소형 학생(Student) 모델로 이전하는 딥러닝 경량화 기술​
  • 추론 성능 유지·연산 비용 절감을 동시에 달성, LLM 시대 AI 모델 압축의 핵심 패러다임으로 부상

2. 지식 증류의 구조 및 기능

가. 개념

  • 사전 학습된 대형 Teacher 모델 → Soft Label(소프트 확률 분포) 생성 → Student 모델 학습에 활용; 단순 정답(Hard Label)이 아닌 모델의 '사고 과정(Dark Knowledge)' 전달
  • Teacher–Student 지식 이전 프레임워크

나. 개념도 

  • Temperature(T) 파라미터로 Soft Label 분포를 평탄화, Student 모델이 클래스 간 유사도까지 학습 가능
  • Loss = α·CE(Hard Label) + (1-α)·KL(Soft Label), 두 손실의 가중합으로 최적화

다. 지식 유형

구분 방식 달 지식 특징 활용 예
Response-Based Logit 증류 최종 출력값(소프트 확률) 구현 단순, 범용 적용 DistilBERT
Feature-Based 중간층 매칭 내부 특징맵(Activation) 심층 지식 전달 가능 FitNet
Relation-Based 데이터 관계 증류 샘플 간 관계 구조 일반화 성능 향상 RKD
Online 동시 학습 상호 소프트 예측값 Teacher 불필요 DML
Self-Distillation 자기 증류 자체 심층부→얕은 층 단일 모델 내 압축 Born-Again
  • 최신 LLM 영역에서는 추론 능력·스타일·정렬(Alignment) 등 추상적 특성까지 이전 가능

3. 관련 기술 비교 (모델 경량화 기법)

구분 지식 증류(KD) 양자화(Quantization) 가지치기(Pruning) 저랭크 분해(LoRA) NAS
핵심 원리 교사→학생 지식 이전 파라미터 비트 수 축소 불필요 뉴런 제거 행렬 저랭크 근사 구조 자동 탐색
성능 유지 높음 중간 중간 높음 높음
구조 변경 새 모델 설계 필요 불필요 부분 변경 어댑터 추가 완전 재설계
학습 비용 높음 (재학습) 낮음 중간 낮음 매우 높음
대표 사례 DistilBERT, DeepSeek-R1 INT4/INT8 LLM BERT Pruning LLaMA LoRA EfficientNet

4. 활용 및 기술 동향

  • DeepSeek-R1의 추론 능력을 소형 모델로 이전한 사례로 KD가 재주목, 멀티모달 증류·다중 교사 증류(Multi-Teacher KD)·AutoML 기반 자동화 증류로 진화 중
  • 연합 학습(Federated Learning)과 결합한 프라이버시 보존형 분산 증류, 온디바이스 AI 실시간 배포(모바일·IoT·엣지) 분야로 적용 범위 급속 확대

<끝>