1. 개요 ㅇ 비전-언어 모델(VLM)을 기반으로 시각(Vision)과 언어(Language)를 이해하고, 물리적 행동(Action)까지 직접 생성하는 통합 인공지능 모델ㅇ 로봇 제어 신호를 언어 토큰처럼 취급하여 인터넷 규모의 데이터로 학습된 추론 능력을 로봇 제어에 전이, 기존 파이프라인 방식의 한계를 극복하고 범용성을 확보함2. VLA 모델의 개념 및 구성 가. 개념 ㅇ Action as Tokens, 로봇의 행동을 텍스트와 동일한 토큰으로 변환하여 End-to-End 학습 시각/언어 데이터와 로봇 궤적 데이터를 Co-Fine-tuning 하여, 보이지 않는 물체나 명령에 대해서도 Semantic Reasoning(의미론적 추론)을 수행함나. 구성도다. 구성요소구분기능설명인식Semantic Gro..