인공지능(AI) 및 생성형 인공지능/AI 주요 기술

<문 > 시각언어행동(VLA(Vision-Language-Action)) 모델

최술사 2026. 1. 13. 11:32

1. 개요

비전-언어 모델(VLM)을 기반으로 시각(Vision)과 언어(Language)를 이해하고, 물리적 행동(Action)까지 직접 생성하는 통합 인공지능 모델

ㅇ 로봇 제어 신호를 언어 토큰처럼 취급하여 인터넷 규모의 데이터로 학습된 추론 능력을 로봇 제어에 전이, 기존 파이프라인 방식의 한계를 극복하고 범용성을 확보함

2. VLA 모델의 개념 및 구성

 가. 개념

Action as Tokens, 로봇의 행동을 텍스트와 동일한 토큰으로 변환하여 End-to-End 학습 시각/언어 데이터와 로봇 궤적 데이터를 Co-Fine-tuning 하여, 보이지 않는 물체나 명령에 대해서도 Semantic Reasoning(의미론적 추론)을 수행함

나. 구성도

다. 구성요소

구분 기능 설명
인식 Semantic Grounding 이미지 내 객체와 언어적 개념을 매핑하여 특정 물체 식별
추론 Emergent Reasoning 학습에 없는 상황에서 논리적 단계(CoT)를 거쳐 행동 결정
제어 Direct Act Generation 별도의 제어기 없이 모델이 직접 6-DoF 등 물리적 액션 생성 

3. VLA 모델과 전통적 로봇 제어(Classical Pipeline) 비교

구분 VLA 모델 (End-to-End) 전통적 로봇 제어 (Modular)
아키텍처 단일 신경망 (Unified Model) 인식-계획-제어 분리 (Sensing-Planning-Act)
데이터 처리 멀티모달(비전+언어) 합동 학습 모듈별 개별 데이터 처리 및 인터페이스 필요
일반화 성능 높음 (Zero-shot/Few-shot 가능) 낮음 (정해진 환경/물체에만 최적화)
추론 능력 의미론적 추론 및 유연한 대처 가능 명시적으로 코딩된 규칙 범위 내에서만 동작
주요 사례 RT-2, OpenVLA, PaLM-E ROS 기반 Pick-and-Place 알고리즘 seohyun00.tistory+1

4. 활용 및 기술 동향

 (활용) 범용 로봇(General Purpose Robot), 스마트 팩토리 비정형 물류 처리, 가사 도우미 로봇 등 비정형 환경 작업
 (동향) RT-2(Google)가 대표적이며, 최근 추론(System 2)과 빠른 제어(System 1)를 결합한 Dual Process VLA 및 오픈소스(OpenVLA) 모델로 발전 중

<끝>