인공지능(AI) 및 생성형 인공지능/AI 주요 기술

<문> 터보스파스(TurboSparse) 기술

최술사 2026. 3. 9. 15:05

<답>

1. 개요

  • TurboSparse는 LLM(대규모 언어모델) 추론 시 FFN(Feed-Forward Network) 레이어의 활성화 희소성(Activation Sparsity)을 극대화하여, 최소 파라미터만 활성화함으로써 SOTA급 성능과 2~5배 추론 속도 향상을 동시에 달성하는 경량 추론 가속 기술임
  • SwiGLU·GeGLU 등 기존 활성화 함수는 희소성이 낮고, 단순 ReLU 대체 시 성능 저하 발생 → 신규 dReLU 함수 + 고품질 학습 데이터 혼합 + MoE 희소성 결합으로 문제 해결

 2. 터보스파스(TurboSparse) 기술

 가. 개념

  • 추론 시 각 입력 토큰에 대해 전체 파라미터 중 극히 일부만 활성화되는 "조건부 연산(Conditional Computation)" 구조를 구현하며, 비활성 뉴런은 Zero-mask 처리하여 FLOPs를 대폭 절감함
  • dReLU 함수는 Gated-MLP의 게이트 프로젝션과 업 프로젝션 양쪽에 ReLU를 적용하여, 두 경로 모두 음수값을 0으로 소거 → 기존 SwiGLU 대비 훨씬 높은 희소성 달성

나. 개념도

  • Dense 모델(Mistral-7B)에서는 FFN 90% 희소화로 실제 활성 파라미터 약 2.5B만 연산, MoE 모델(Mixtral-47B)에서는 Expert 라우팅(75% 희소) 뉴런 희소화 결합으로 97% 희소율 달성, 최종 활성 파라미터 약 4.3B로 압축됨

다. 기술적 특징

구분 상세 내용 적용 대상 성과 비고
dReLU 활성화 함수 Gate·Up 양측 ReLU 이중 마스킹으로 희소성 극대화 Gated-MLP 구조 LLM FFN 희소율 90%(Mistral-7B) SwiGLU·GeGLU 대체
Top-k% 마스킹 절댓값 상위 k% 뉴런만 선택·활성화 FFN 레이어 전체 희소율 정밀 제어 추론 시 동적 적용
고품질 데이터 혼합 학습 웹·코드·수학 데이터 다양성 확보로 ReLUfication 품질 향상 사전학습/미세조정 성능 저하 없이 희소화 15T 토큰 대비 <1% 사용
MoE 희소성 결합 Expert 라우팅 희소성에 FFN 뉴런 희소화 추가 적층 Mixtral-47B 등 희소율 75%→97% 향상 이중 희소화 구조
PowerInfer 하드웨어 가속 희소 패턴 인식 추론 엔진으로 실제 HW 가속 GPU·모바일 단말 llama.cpp 대비 22.2× 속도 온디바이스 배포 지원
  • 학습은 원본 모델(Mistral-7B / Mixtral-47B)을 기반으로 AdamW 옵티마이저와 다양성 높은 데이터 혼합으로 재학습(Post-training ReLUfication) 방식을 사용하며, 150B 토큰 미만의 소량 데이터로도 원본 모델 성능 유지 또는 초과가 가능함이 검증됨

3. TurboSparse vs 기타 LLM 경량화 기법 비교

구분 TurboSparse MoE(순수 라우팅) 단순 ReLU 대체 가중치 프루닝(구조적) 양자화(INT4/INT8)
희소화 방식 활성화 희소성 (동적, 입력별 적응) Expert 라우팅(동적) 활성화 희소성(정적) 가중치 제거(정적) 가중치 비트 축소(정적)
희소율 달성 수준 90~97%(FFN 기준) ~75%(Expert 단위) 낮음(성능 저하 동반) 50~80%(모델별 상이) 해당 없음(압축률 기준)
성능 유지 여부 원본 대비 동등·초과 달성 동등~소폭 저하 1~5% 수준 저하 구조 파괴 시 저하 위험 1~3% 수준 저하
추론 속도 향상 2~5× (PowerInfer 기준) 2~3× 미미 (추가 최적화 필요) HW 지원 시 1.5~3× 2~4×
온디바이스 적용성 모바일폰에서 11 tok/s 달성 모바일 적용 어려움 낮음 중간 높음(경량화 성숙)

 4. 활용 및 기술 동향

  • TurboSparse-Mistral-7B(활성 파라미터 2.5B)와 TurboSparse-Mixtral-47B(활성 파라미터 4.3B)가 HuggingFace에 공개되어, PC GPU·노트북·모바일폰 등 다양한 엣지 디바이스에서 PowerInfer 엔진과 연계한 온디바이스 LLM 추론에 실제 활용됨
  • 무선에서는 Massive MIMO·mmWave에서 각 사용자/안테나 간 공동 희소성을 활용한 터보-CS·터보-VBI 기반 채널 추정으로, 파일럿 감소,MSE 개선,계산량 절감을 동시에 달성하는 방향으로 연구가 활발히 진행중
  • ① 희소화 + 양자화(Sparse-Quantization) 결합 및 ② 어텐션 레이어까지 희소화 확장, ③ 하드웨어 인지(HW-aware) 희소 패턴 설계(NPU/모바일 SoC 구조 정렬) 방향으로 발전 중이며, 온디바이스 AI(On-Device AI) 및 엣지 추론 가속의 핵심 원천 기술로 자리매김하고 있음

<끝>