1. 개요TurboSparse는 LLM(대규모 언어모델) 추론 시 FFN(Feed-Forward Network) 레이어의 활성화 희소성(Activation Sparsity)을 극대화하여, 최소 파라미터만 활성화함으로써 SOTA급 성능과 2~5배 추론 속도 향상을 동시에 달성하는 경량 추론 가속 기술임SwiGLU·GeGLU 등 기존 활성화 함수는 희소성이 낮고, 단순 ReLU 대체 시 성능 저하 발생 → 신규 dReLU 함수 + 고품질 학습 데이터 혼합 + MoE 희소성 결합으로 문제 해결 2. 터보스파스(TurboSparse) 기술 가. 개념추론 시 각 입력 토큰에 대해 전체 파라미터 중 극히 일부만 활성화되는 "조건부 연산(Conditional Computation)" 구조를 구현하며, 비활성 뉴런은..