<답>
1. 개요
- 대규모 교사(Teacher) 모델의 학습 지식을 소형 학생(Student) 모델로 이전하는 딥러닝 경량화 기술
- 추론 성능 유지·연산 비용 절감을 동시에 달성, LLM 시대 AI 모델 압축의 핵심 패러다임으로 부상
2. 지식 증류의 구조 및 기능
가. 개념
- 사전 학습된 대형 Teacher 모델 → Soft Label(소프트 확률 분포) 생성 → Student 모델 학습에 활용; 단순 정답(Hard Label)이 아닌 모델의 '사고 과정(Dark Knowledge)' 전달
- Teacher–Student 지식 이전 프레임워크
나. 개념도

- Temperature(T) 파라미터로 Soft Label 분포를 평탄화, Student 모델이 클래스 간 유사도까지 학습 가능
- Loss = α·CE(Hard Label) + (1-α)·KL(Soft Label), 두 손실의 가중합으로 최적화
다. 지식 유형
| 구분 | 방식 | 전달 지식 | 특징 | 활용 예 |
| Response-Based | Logit 증류 | 최종 출력값(소프트 확률) | 구현 단순, 범용 적용 | DistilBERT |
| Feature-Based | 중간층 매칭 | 내부 특징맵(Activation) | 심층 지식 전달 가능 | FitNet |
| Relation-Based | 데이터 관계 증류 | 샘플 간 관계 구조 | 일반화 성능 향상 | RKD |
| Online | 동시 학습 | 상호 소프트 예측값 | Teacher 불필요 | DML |
| Self-Distillation | 자기 증류 | 자체 심층부→얕은 층 | 단일 모델 내 압축 | Born-Again |
- 최신 LLM 영역에서는 추론 능력·스타일·정렬(Alignment) 등 추상적 특성까지 이전 가능
3. 관련 기술 비교 (모델 경량화 기법)
| 구분 | 지식 증류(KD) | 양자화(Quantization) | 가지치기(Pruning) | 저랭크 분해(LoRA) | NAS |
| 핵심 원리 | 교사→학생 지식 이전 | 파라미터 비트 수 축소 | 불필요 뉴런 제거 | 행렬 저랭크 근사 | 구조 자동 탐색 |
| 성능 유지 | 높음 | 중간 | 중간 | 높음 | 높음 |
| 구조 변경 | 새 모델 설계 필요 | 불필요 | 부분 변경 | 어댑터 추가 | 완전 재설계 |
| 학습 비용 | 높음 (재학습) | 낮음 | 중간 | 낮음 | 매우 높음 |
| 대표 사례 | DistilBERT, DeepSeek-R1 | INT4/INT8 LLM | BERT Pruning | LLaMA LoRA | EfficientNet |
4. 활용 및 기술 동향
- DeepSeek-R1의 추론 능력을 소형 모델로 이전한 사례로 KD가 재주목, 멀티모달 증류·다중 교사 증류(Multi-Teacher KD)·AutoML 기반 자동화 증류로 진화 중
- 연합 학습(Federated Learning)과 결합한 프라이버시 보존형 분산 증류, 온디바이스 AI 실시간 배포(모바일·IoT·엣지) 분야로 적용 범위 급속 확대
<끝>
'인공지능(AI) 및 생성형 인공지능 > AI 주요 기술' 카테고리의 다른 글
| <문> 장기 계획 강화학습 (Long-horizon RL) (0) | 2026.03.04 |
|---|---|
| <문> 에이전트 관리 하네스 엔지니어링 (0) | 2026.03.03 |
| <문> Mamba 기반 멀티모달 모델 (0) | 2026.02.19 |
| <문> AI 신뢰성 인증의 개념, 인증범위 및 특성별 점검사항 (0) | 2026.02.10 |
| <문> 컨텍스트 롯(Context Rot) 현상 (0) | 2026.02.09 |