<문 > 시각언어행동(VLA(Vision-Language-Action)) 모델

인공지능(AI) 및 생성형 인공지능/AI 주요 기술

<문 > 시각언어행동(VLA(Vision-Language-Action)) 모델

최술사 2026. 1. 13. 11:32

1. 개요

ㅇ 비전-언어 모델(VLM)을 기반으로 시각(Vision)과 언어(Language)를 이해하고, 물리적 행동(Action)까지 직접 생성하는 통합 인공지능 모델

ㅇ 로봇 제어 신호를 언어 토큰처럼 취급하여 인터넷 규모의 데이터로 학습된 추론 능력을 로봇 제어에 전이, 기존 파이프라인 방식의 한계를 극복하고 범용성을 확보함

2. VLA 모델의 개념 및 구성

가. 개념

ㅇ Action as Tokens, 로봇의 행동을 텍스트와 동일한 토큰으로 변환하여 End-to-End 학습 시각/언어 데이터와 로봇 궤적 데이터를 Co-Fine-tuning 하여, 보이지 않는 물체나 명령에 대해서도 Semantic Reasoning(의미론적 추론)을 수행함

나. 구성도

다. 구성요소

구분	기능	설명
인식	Semantic Grounding	이미지 내 객체와 언어적 개념을 매핑하여 특정 물체 식별
추론	Emergent Reasoning	학습에 없는 상황에서 논리적 단계(CoT)를 거쳐 행동 결정
제어	Direct Act Generation	별도의 제어기 없이 모델이 직접 6-DoF 등 물리적 액션 생성

3. VLA 모델과 전통적 로봇 제어(Classical Pipeline) 비교

구분	VLA 모델 (End-to-End)	전통적 로봇 제어 (Modular)
아키텍처	단일 신경망 (Unified Model)	인식-계획-제어 분리 (Sensing-Planning-Act)
데이터 처리	멀티모달(비전+언어) 합동 학습	모듈별 개별 데이터 처리 및 인터페이스 필요
일반화 성능	높음 (Zero-shot/Few-shot 가능)	낮음 (정해진 환경/물체에만 최적화)
추론 능력	의미론적 추론 및 유연한 대처 가능	명시적으로 코딩된 규칙 범위 내에서만 동작
주요 사례	RT-2, OpenVLA, PaLM-E	ROS 기반 Pick-and-Place 알고리즘 seohyun00.tistory+1

4. 활용 및 기술 동향

ㅇ (활용) 범용 로봇(General Purpose Robot), 스마트 팩토리 비정형 물류 처리, 가사 도우미 로봇 등 비정형 환경 작업
ㅇ (동향) RT-2(Google)가 대표적이며, 최근 추론(System 2)과 빠른 제어(System 1)를 결합한 Dual Process VLA 및 오픈소스(OpenVLA) 모델로 발전 중

<끝>

저작자표시 비영리 변경금지 (새창열림)

'인공지능(AI) 및 생성형 인공지능 > AI 주요 기술' 카테고리의 다른 글

LLM (Large Language Model) 대규모 언어 모델 (0)	2026.01.14
<문> 트랜스포머(Transformer), 디퓨전(Diffusion) 모델 아키텍처 (0)	2026.01.14
<문> 프롬프트 체이닝 (0)	2026.01.13
<문> 멀티모달 및 옴니모달 AI (0)	2026.01.13
<문> 멀티 모델 체이닝(Multi‑Model Chaining) (0)	2026.01.13

현재글<문 > 시각언어행동(VLA(Vision-Language-Action)) 모델

최술사의 모두의 ICT 기술 통섭

정보통신기술(ICT) 및 정보통신기술사 과목별 주요 토픽 그리고 인공지능(AI) 기술과 서비스 및 기술 트렌드 #정보통신기술사, #정보통신기술, #통신이론, #무선통신, #이동통신, #위성통신, #광통신, #방송통신, #정보통신, #정보보호, #엔니지어링, #최신기술 동향, #인공지능, #AI, #AI 주요 기술

AI 주요 논문, PQC, 2026 CES, TCP/IP 계층별 고가용성 확보 방안, Artificial General Intelligence, LLM, 기출문제 종합, Superhuman Adaptable Intelligence, 망 중립성, Non-Terrestrial Network, slm, 양자역학 원리, 정보통신기술사, self-attention, sai, 인공지능, 대규모 언어모델, 기술사, AI, agi,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

최술사의 모두의 ICT 기술 통섭