1. 개요상태공간모델(SSM) 기반 Mamba/Mamba‑2를 백본으로 하여 텍스트·이미지·오디오 등 복수 모달을 선형 복잡도로 처리하는 차세대 멀티모달 LLM 구조Transformer 대비 긴 시퀀스·고해상도 입력에 유리하고, Vision/Audio 커넥터·모달리티 전용 vocabulary·LoRA/Distillation 등으로 효율적 멀티모달 이해·생성을 달성2. Mamba 기반 멀티모달 기본 구조가. 개념SSM 기반 시퀀스 모델로, 시간에 따라 상태를 선형 미분방정식으로 갱신하고 이를 이산화하여 선형 시간 복잡도로 토큰 시퀀스를 처리Vision/Audio/Text 인코더에서 나온 토큰을 하나의 시퀀스로 정렬, Mamba 블록을 통해 통합 표현을 학습, 텍스트 또는 이미지 등으로 디코딩하는 구조긴 ..