<답>
- 개요
- 트랜스포머는 Self-Attention과 포지셔널 인코딩을 사용하는 시퀀스 모델로, RNN·CNN을 대체하며 LLM·ViT의 기본 구조로 활용되는 아키텍처임
- 디퓨전 모델은 점진적 노이즈 주입·제거 과정을 학습하여 고품질 이미지를 생성하는 확률적 생성 모델로, U-Net/ViT 백본과 노이즈 스케줄러로 구성됨
2. 트랜스포머 아키텍처
가. 트랜스포머 기본 구조
- 인코더–디코더 스택 기반으로, 각 블록은 멀티헤드 Self-Attention과 위치별(feed-forward) 네트워크, 잔차 연결과 정규화로 구성됨
ㅇ 개념
- 트랜스포머는 입력 토큰을 임베딩 후 포지셔널 인코딩을 더해 순서 정보를 부여하고, Self-Attention으로 전체 시퀀스의 관계를 한 번에 계산하는 구조임
- 인코더는 입력 표현을 추상화하고, 디코더는 Self-Attention과 인코더–디코더 Attention을 통해 조건부 출력 시퀀스를 생성하며, 모든 계층에서 병렬 연산이 가능해 대규모 모델 확장에 적합함
나. 구성도(아키텍처)

다. 트랜스포머 주요 기능 및 역할
| 구분 | 주요 내용 |
| 포지셔널 인코딩 | 절대/상대 위치 정보를 사인·코사인 또는 학습형 벡터로 표현하여 순서 정보 제공wikipedia+1 |
| 멀티헤드 어텐션 | 다양한 하위 공간에서 Query·Key·Value를 병렬 계산해 긴 의존성·다중 관계를 효과적으로 캡처wikipedia+1 |
| 포지션별 FFN | 각 토큰 위치별 동일 MLP를 적용해 비선형 변환·표현력 증대, 채널 확장 후 축소 구조 사용coronasdk.tistory+1 |
| 잔차+정규화 | Skip connection과 LayerNorm으로 기울기 흐름 안정화, 깊은 스택에서 학습 안정·수렴 속도 향상wikipedia+1 |
| 확장·변형 구조 | 인코더 전용(BERT), 디코더 전용(GPT), 비전 트랜스포머(ViT) 등 도메인별 변형 구조로 확장 가능wikipedia+2 |
- GPT류 디코더 전용 구조가 생성·대화, BERT류 인코더 전용 구조가 인코딩·분류에 주로 사용되며, ViT·DiT처럼 이미지 패치에도 동일 블록을 적용해 범용 백본으로 활용함
3. 트랜스포머 vs 디퓨전 모델 아키텍처 비교
비교 항목디
| 구분 | 트랜스포머 아키텍처 | 디퓨전 아키텍처 |
| 기본 구성 블록 | 멀티헤드 Self-Attention + 위치별 FFN 스택 | U형 인코더–디코더 CNN 또는 ViT 블록 + 스킵 연결 |
| 입력·출력 형식 | 주로 시퀀스(토큰/패치) 입력·출력, 자동회귀 또는 인코딩 | 노이즈가 섞인 이미지/잠복 벡터를 입력받아 노이즈 또는 깨끗한 데이터 추정 |
| 시간/스텝 처리 | 깊이 방향 레이어 스택, 단일 패스 또는 반복 디코딩 중심 | 수십~수백 타임스텝의 노이즈 스케줄에 따라 반복적(역)확산 수행 |
| 조건 정보 주입 | 토큰 임베딩·포지셔널 인코딩·조건 프롬프트로 직접 인코딩 | 시간 스텝 임베딩·텍스트 임베딩을 U-Net/ViT 레이어에 결합(Concat/AdaLN 등) |
| 대표 변형/동향 | BERT, GPT, ViT, DiT 등 도메인별 구조 최적화 및 스케일 확대 | ADM-UNet, Latent Diffusion, U-ViT, DiffiT 등 백본·노이즈 스케줄 최적화 |
4. 활용 및 기술 동향
- 디퓨전 모델은 U-Net 백본 기반 DDPM/Stable Diffusion에서 ViT/DiT·U-ViT·DiffiT 등 트랜스포머 백본으로 확장되며, 고해상도·고품질 텍스트-투-이미지 생성에서 SOTA를 달성 중임
- 노이즈 스케줄 재설계, 시간 임베딩·AdaLN·TMSA(시간 인지 Self-Attention) 등으로 적은 스텝·적은 연산량으로 높은 FID를 달성하는 효율 최적화 연구가 활발하며, 실무에서는 파이프라인 라이브러리(Diffusers 등)를 통해 U-Net/스케줄러·텍스트 인코더를 조합하는 형태로 시스템을 구성함
<끝>
'인공지능(AI) 및 생성형 인공지능 > AI 주요 기술' 카테고리의 다른 글
| <문 > MoE(Mixture of Experts) 전문가 혼합 기법 (0) | 2026.01.15 |
|---|---|
| LLM (Large Language Model) 대규모 언어 모델 (0) | 2026.01.14 |
| <문 > 시각언어행동(VLA(Vision-Language-Action)) 모델 (0) | 2026.01.13 |
| <문> 프롬프트 체이닝 (0) | 2026.01.13 |
| <문> 멀티모달 및 옴니모달 AI (0) | 2026.01.13 |