1. 개요
ㅇ 비전-언어 모델(VLM)을 기반으로 시각(Vision)과 언어(Language)를 이해하고, 물리적 행동(Action)까지 직접 생성하는 통합 인공지능 모델
ㅇ 로봇 제어 신호를 언어 토큰처럼 취급하여 인터넷 규모의 데이터로 학습된 추론 능력을 로봇 제어에 전이, 기존 파이프라인 방식의 한계를 극복하고 범용성을 확보함
2. VLA 모델의 개념 및 구성
가. 개념
ㅇ Action as Tokens, 로봇의 행동을 텍스트와 동일한 토큰으로 변환하여 End-to-End 학습 시각/언어 데이터와 로봇 궤적 데이터를 Co-Fine-tuning 하여, 보이지 않는 물체나 명령에 대해서도 Semantic Reasoning(의미론적 추론)을 수행함
나. 구성도

다. 구성요소
| 구분 | 기능 | 설명 |
| 인식 | Semantic Grounding | 이미지 내 객체와 언어적 개념을 매핑하여 특정 물체 식별 |
| 추론 | Emergent Reasoning | 학습에 없는 상황에서 논리적 단계(CoT)를 거쳐 행동 결정 |
| 제어 | Direct Act Generation | 별도의 제어기 없이 모델이 직접 6-DoF 등 물리적 액션 생성 |
3. VLA 모델과 전통적 로봇 제어(Classical Pipeline) 비교
| 구분 | VLA 모델 (End-to-End) | 전통적 로봇 제어 (Modular) |
| 아키텍처 | 단일 신경망 (Unified Model) | 인식-계획-제어 분리 (Sensing-Planning-Act) |
| 데이터 처리 | 멀티모달(비전+언어) 합동 학습 | 모듈별 개별 데이터 처리 및 인터페이스 필요 |
| 일반화 성능 | 높음 (Zero-shot/Few-shot 가능) | 낮음 (정해진 환경/물체에만 최적화) |
| 추론 능력 | 의미론적 추론 및 유연한 대처 가능 | 명시적으로 코딩된 규칙 범위 내에서만 동작 |
| 주요 사례 | RT-2, OpenVLA, PaLM-E | ROS 기반 Pick-and-Place 알고리즘 seohyun00.tistory+1 |
4. 활용 및 기술 동향
ㅇ (활용) 범용 로봇(General Purpose Robot), 스마트 팩토리 비정형 물류 처리, 가사 도우미 로봇 등 비정형 환경 작업
ㅇ (동향) RT-2(Google)가 대표적이며, 최근 추론(System 2)과 빠른 제어(System 1)를 결합한 Dual Process VLA 및 오픈소스(OpenVLA) 모델로 발전 중
<끝>
'인공지능(AI) 및 생성형 인공지능 > AI 주요 기술' 카테고리의 다른 글
| LLM (Large Language Model) 대규모 언어 모델 (0) | 2026.01.14 |
|---|---|
| <문> 트랜스포머(Transformer), 디퓨전(Diffusion) 모델 아키텍처 (0) | 2026.01.14 |
| <문> 프롬프트 체이닝 (0) | 2026.01.13 |
| <문> 멀티모달 및 옴니모달 AI (0) | 2026.01.13 |
| <문> 멀티 모델 체이닝(Multi‑Model Chaining) (0) | 2026.01.13 |