인공지능(AI) 및 생성형 인공지능/AI 주요 기술

<문> 트랜스포머(Transformer), 디퓨전(Diffusion) 모델 아키텍처

최술사 2026. 1. 14. 10:09

<답>

  1. 개요
  • 트랜스포머는 Self-Attention과 포지셔널 인코딩을 사용하는 시퀀스 모델로, RNN·CNN을 대체하며 LLM·ViT의 기본 구조로 활용되는 아키텍처임
  • 디퓨전 모델은 점진적 노이즈 주입·제거 과정을 학습하여 고품질 이미지를 생성하는 확률적 생성 모델로, U-Net/ViT 백본과 노이즈 스케줄러로 구성됨

2. 트랜스포머 아키텍처

가. 트랜스포머 기본 구조

  • 인코더–디코더 스택 기반으로, 각 블록은 멀티헤드 Self-Attention과 위치별(feed-forward) 네트워크, 잔차 연결과 정규화로 구성됨

ㅇ 개념

- 트랜스포머는 입력 토큰을 임베딩 후 포지셔널 인코딩을 더해 순서 정보를 부여하고, Self-Attention으로 전체 시퀀스의 관계를 한 번에 계산하는 구조임

- 인코더는 입력 표현을 추상화하고, 디코더는 Self-Attention과 인코더–디코더 Attention을 통해 조건부 출력 시퀀스를 생성하며, 모든 계층에서 병렬 연산이 가능해 대규모 모델 확장에 적합함

나. 구성도(아키텍처)

다. 트랜스포머 주요 기능 및 역할

구분 주요 내용
포지셔널 인코딩 절대/상대 위치 정보를 사인·코사인 또는 학습형 벡터로 표현하여 순서 정보 제공wikipedia+1
멀티헤드 어텐션 다양한 하위 공간에서 Query·Key·Value를 병렬 계산해 긴 의존성·다중 관계를 효과적으로 캡처wikipedia+1
포지션별 FFN 각 토큰 위치별 동일 MLP를 적용해 비선형 변환·표현력 증대, 채널 확장 후 축소 구조 사용coronasdk.tistory+1
잔차+정규화 Skip connection과 LayerNorm으로 기울기 흐름 안정화, 깊은 스택에서 학습 안정·수렴 속도 향상wikipedia+1
확장·변형 구조 인코더 전용(BERT), 디코더 전용(GPT), 비전 트랜스포머(ViT) 등 도메인별 변형 구조로 확장 가능wikipedia+2
  •  GPT류 디코더 전용 구조가 생성·대화, BERT류 인코더 전용 구조가 인코딩·분류에 주로 사용되며, ViT·DiT처럼 이미지 패치에도 동일 블록을 적용해 범용 백본으로 활용함

​3. 트랜스포머 vs 디퓨전 모델 아키텍처 비교

비교 항목디

구분 트랜스포머 아키텍처 디퓨전 아키텍처
기본 구성 블록 멀티헤드 Self-Attention + 위치별 FFN 스택 U형 인코더–디코더 CNN 또는 ViT 블록 + 스킵 연결
입력·출력 형식 주로 시퀀스(토큰/패치) 입력·출력, 자동회귀 또는 인코딩 노이즈가 섞인 이미지/잠복 벡터를 입력받아 노이즈 또는 깨끗한 데이터 추정
시간/스텝 처리 깊이 방향 레이어 스택, 단일 패스 또는 반복 디코딩 중심 수십~수백 타임스텝의 노이즈 스케줄에 따라 반복적(역)확산 수행
조건 정보 주입 토큰 임베딩·포지셔널 인코딩·조건 프롬프트로 직접 인코딩 시간 스텝 임베딩·텍스트 임베딩을 U-Net/ViT 레이어에 결합(Concat/AdaLN 등)
대표 변형/동향 BERT, GPT, ViT, DiT 등 도메인별 구조 최적화 및 스케일 확대 ADM-UNet, Latent Diffusion, U-ViT, DiffiT 등 백본·노이즈 스케줄 최적화

4. 활용 및 기술 동향

  • 디퓨전 모델은 U-Net 백본 기반 DDPM/Stable Diffusion에서 ViT/DiT·U-ViT·DiffiT 등 트랜스포머 백본으로 확장되며, 고해상도·고품질 텍스트-투-이미지 생성에서 SOTA를 달성 중임
  • 노이즈 스케줄 재설계, 시간 임베딩·AdaLN·TMSA(시간 인지 Self-Attention) 등으로 적은 스텝·적은 연산량으로 높은 FID를 달성하는 효율 최적화 연구가 활발하며, 실무에서는 파이프라인 라이브러리(Diffusers 등)를 통해 U-Net/스케줄러·텍스트 인코더를 조합하는 형태로 시스템을 구성함
    <끝>