self-attention 2

LLM (Large Language Model) 대규모 언어 모델

1. 개요LLM은 대규모 데이터 학습을 통해 인간 언어를 처리, 이해, 생성하는 AI 모델로, Transformer 기반 신경망을 활용하여 다양한 산업에서 활용됨2. LLM의 개념 및 구조 가. 개념LLM 정의: 대규모 데이터셋을 학습하여 인간 언어를 이해하고 생성하는 AI 모델 ​기술 기반: Transformer 신경망 구조를 사용하며, 수억~수십억 개의 파라미터를 포함 ​나. 개념도Transformer 모델의 Encoder와 Decoder 구조. Encoder는 입력 텍스트를 분석하고, Decoder는 이를 바탕으로 출력 텍스트를 생성Self-Attention은 문맥을 고려한 관계 분석을 가능하게 하며, 병렬 처리로 속도를 향상시킴​다. LLM 주요 기능 구분주요 내용텍스트 생성사용자 요청에 맞는 자..

<문> 트랜스포머(Transformer), 디퓨전(Diffusion) 모델 아키텍처

개요트랜스포머는 Self-Attention과 포지셔널 인코딩을 사용하는 시퀀스 모델로, RNN·CNN을 대체하며 LLM·ViT의 기본 구조로 활용되는 아키텍처임 디퓨전 모델은 점진적 노이즈 주입·제거 과정을 학습하여 고품질 이미지를 생성하는 확률적 생성 모델로, U-Net/ViT 백본과 노이즈 스케줄러로 구성됨 2. 트랜스포머 아키텍처가. 트랜스포머 기본 구조인코더–디코더 스택 기반으로, 각 블록은 멀티헤드 Self-Attention과 위치별(feed-forward) 네트워크, 잔차 연결과 정규화로 구성됨 ㅇ 개념 - 트랜스포머는 입력 토큰을 임베딩 후 포지셔널 인코딩을 더해 순서 정보를 부여하고, Self-Attention으로 전체 시퀀스의 관계를 한 번에 계산하는 구조임 - 인코더는 입력 표현을 추..