VLA 학습 로드맵 — 이야기로 따라가는 발전사

들어가며

이 글은 VLA(Vision-Language-Action) 를 처음 공부하는 분들을 위한 안내서입니다. 이 글은 개요입니다 — 큰 흐름을 한 번에 잡는 데 목표를 두고, 각 모델의 자세한 이야기는 후속 글에서 따로 풀어 갑니다. 글 끝 다음 글 안내에서 어떤 글이 어떤 내용을 다루는지 확인하실 수 있습니다.

VLA는 5년이 채 안 되는 짧은 역사를 가지고 있지만, 그 짧은 시간 안에 비전·언어·강화학습·로봇공학이 한꺼번에 합류한, 굉장히 밀도 높은 분야입니다. 어디서부터 봐야 할지 막막한 분들에게 — 시간순으로 따라가면 길을 잃지 않습니다.

VLA가 뭔가요? 한 문장 정의

카메라로 본 장면(Vision)과 사람이 한 말(Language)을 입력으로 받아, 로봇 행동(Action)을 출력하는 단일 신경망 모델입니다.

당연해 보이지만, 이 셋이 한 모델로 합쳐진 건 2023년 들어서입니다. 그 전까지 비전 모델은 비전 모델대로, 언어 모델은 언어 모델대로, 로봇 정책은 또 따로 발전했습니다.

신경망(neural network)

입력을 받아 여러 층(layer)을 거쳐 출력을 만드는 거대한 함수입니다. 행렬 곱셈과 비선형 함수의 묶음이라고 보시면 됩니다.

정책(policy)

강화학습·로봇학에서 "현재 상태에서 어떤 행동을 할지"를 결정하는 함수입니다. VLA 모델 자체가 일종의 정책입니다.

큰 그림 한눈에 보기

다섯 단계로 나눠 살펴봅니다. 각 단계는 앞 단계의 한계를 풀기 위해 등장했고, 그래서 시간순으로 따라가다 보면 자연스럽게 다음 단계의 문제의식이 보입니다.

0. VLA가 등장하기 전 (2017–2020)

VLA가 태어나기 전에는 세 갈래의 흐름이 따로 굴러가고 있었습니다. 비전(CNN의 정체기), 언어(GPT-3의 충격), 로봇(시뮬레이션 강화학습) — 이 셋을 한 무대에 올리는 결정적 한 편의 논문이 2017년에 나옵니다.

CNN(Convolutional Neural Network)

이미지 처리에 특화된 신경망. 작은 윈도우를 이미지 위에서 슬라이딩하며 특징을 뽑는 합성곱 연산이 핵심입니다.

in-context learning · emergent capability

GPT-3가 보여준 두 현상입니다. in-context learning은 파라미터를 학습시키지 않고도 프롬프트의 예시 몇 개만 보고 새 task를 처리하는 것, emergent capability는 모델이 일정 규모 이상으로 커지면 작은 모델에서는 보이지 않던 능력이 갑자기 나타나는 현상입니다.

📄 Attention Is All You Need (2017) ⭐

논문 링크 — Vaswani 외, Google Brain

이 글의 모든 모델이 결국 이 한 편 위에 올라가 있습니다. RNN/LSTM이 표준이던 시퀀스 처리 분야에 self-attention(시퀀스의 각 위치가 다른 모든 위치를 한 번에 참고하는 메커니즘)을 도입해, NLP를 시작으로 비전·로봇·멀티모달까지 모든 분야의 백본을 트랜스포머로 바꿨습니다.

트랜스포머(Transformer)

2017년에 등장한 신경망 구조입니다. self-attention을 핵심으로 하며, 시퀀스 처리에 압도적입니다. GPT·ChatGPT·ViT·VLA 모델이 전부 이 구조 기반입니다.

🔗 자세한 구조와 Q·K·V 동작 원리는 VLA 이전의 시간에서.

1단계 — 비전과 언어가 같은 형식을 갖게 됩니다 (2020–2021)

핵심 질문은 단순했습니다.

"이미지·텍스트·행동을 같은 형식(토큰 시퀀스)으로 다루면 어떨까?"

토큰(token)

모델이 한 번에 처리하는 최소 단위입니다. 문장에서는 단어 또는 단어 조각, 이미지에서는 작은 패치 한 장이 토큰이 됩니다.

세 편의 논문이 1년 사이에 답을 채웁니다.

📄 ViT (2020) ⭐

An Image is Worth 16x16 Words — Dosovitskiy 외, Google

이미지를 16×16 패치로 잘라 단어처럼 다루면 트랜스포머가 CNN을 압도합니다. 이후 거의 모든 비전 모델이 ViT 계열로 통일됐고, CLIP·RT-2·OpenVLA의 비전 인코더가 모두 이 후손입니다.

📄 CLIP (2021) ⭐

Learning Transferable Visual Models From Natural Language Supervision — Radford 외, OpenAI

인터넷 4억 쌍의 (이미지, 캡션)을 contrastive learning으로 학습해 이미지 인코더와 텍스트 인코더가 같은 의미 공간을 공유하게 만들었습니다. VLA의 "언어로 시각을 제어한다"는 능력의 출발점입니다.

contrastive learning

"같은 것은 가깝게, 다른 것은 멀게" 학습하는 방식입니다.

zero-shot

학습 데이터에 없는 task를 예시 없이 바로 처리하는 능력입니다.

📄 Decision Transformer (2021)

논문 링크 — Chen 외, UC Berkeley·Facebook

강화학습 문제를 시퀀스 예측 문제로 뒤집은 논문입니다. 학습 데이터를 (보상, 상태, 행동, ...) 시퀀스로 적어두고 GPT처럼 다음 토큰을 예측하게 합니다. RT-2가 행동을 텍스트 토큰처럼 출력하는 발상의 직계 조상입니다.

🔗 행동 토큰화의 의미와 RT-1·RT-2가 이를 어떻게 활용했는지는 VLA가 정식으로 등장하다에서.

2단계 — 로봇 정책이 신경망으로 옮겨갑니다 (2021–2024)

VLA 이야기의 핵심이 이 시기에 있습니다. 모방학습이 한 번에 정착한 게 아니라, 여러 시행착오를 거치며 점점 단단해졌습니다.

모방학습(Imitation Learning)

"보상을 최대화해서 스스로 배워라"가 아니라 "전문가의 시연을 따라 해라"가 학습 목표인 분야입니다. 로봇 분야에서는 거의 표준입니다.

BC (Behavioral Cloning)

(상태, 행동) 쌍을 지도학습으로 학습하는 가장 단순한 모방학습 방식입니다.

covariate shift

학습 데이터의 분포와 실제 작동 시 마주치는 분포가 어긋나는 현상. BC의 가장 큰 한계로, 작은 오차가 누적돼 모델이 폭주하는 원인입니다.

이 단계 발전의 거의 전부가 covariate shift를 푸는 이야기입니다.

임베딩(embedding)

의미를 벡터(숫자 배열)로 표현한 것입니다. 비슷한 의미의 단어는 비슷한 위치의 벡터로 모이게 됩니다. BC-Z의 task description 임베딩이 바로 그 사례입니다.

시연 데이터·trajectory

사람이 로봇을 직접 조종한 기록입니다. 한 번의 task 수행이 하나의 trajectory(궤적)이고, 시간 순서대로 (상태, 행동) 쌍이 나열되어 있습니다.

시기별 주요 모델

BC-Z (2021) — task description의 임베딩을 입력으로 추가해, 한 모델이 여러 task를 처리하도록 만든 논문. VLA의 가장 직접적인 조상입니다.
Gato (2022, DeepMind) — 텍스트·이미지·게임·로봇 제어 604개 task를 한 트랜스포머로. "범용 에이전트가 가능하다"는 첫 본격 시도.
RT-1 (2022, Google) — 13만 건 시연을 트랜스포머로 학습. 행동을 256단계로 양자화한 토큰으로 출력. VLA의 원형.
ACT (2023, Stanford) ⭐ — k-step action chunk를 한 번에 예측해 covariate shift를 정면 돌파. ALOHA 하드웨어와 함께 모방학습을 실용 기술로 끌어올렸습니다.
Diffusion Policy (2023) ⭐ — 이미지 생성에 쓰던 diffusion을 행동 생성에 가져와, 사람 시연의 multimodal 분포를 자연스럽게 표현.
Mobile ALOHA (2024) — ALOHA에 바퀴를 달아 가사 작업까지. SNS에서 화제가 되며 "진짜 되네?"의 공감대를 만든 시점.

🔗 BC·RT-1까지의 계보는 모방학습의 시작에서, ACT·Diffusion Policy의 수식·구현은 정밀 모방학습의 두 길에서 다룹니다.

3단계 — VLA가 정식으로 등장합니다 (2023)

질문은 이렇습니다.

"GPT-4 같은 거대 VLM이 가진 인터넷 지식을 로봇 정책에 흘려넣을 수 없을까?"

VLM(Vision-Language Model)

이미지와 언어를 동시에 다루는 모델입니다. GPT-4V, PaLI, PaliGemma 등이 여기 속합니다. VLA는 VLM에 행동 출력을 더한 형태로 만드는 게 흔합니다.

사전학습(pretraining)과 파인튜닝(finetuning)

거대 데이터로 일반적 능력을 익히고(사전학습), 작은 데이터로 특정 task만 추가 학습(파인튜닝)하는 두 단계 학습 방식입니다. RT-2가 사전학습된 거대 VLM을 그대로 가져와 로봇 데이터로 파인튜닝한 사례입니다.

로봇 시연 데이터(수십만 trajectory)와 인터넷 텍스트(수조 토큰)의 격차를 메우려는 시도입니다.

시기별 주요 모델

PaLM-E (2023, Google) — 562B LLM에 카메라 이미지를 토큰으로 주입. LLM이 자연어 plan을 출력. 다만 실제 행동은 별도 정책이 처리.
RT-2 (2023, Google DeepMind) ⭐ — 학습된 거대 VLM을 그대로 가져와 행동을 텍스트 토큰처럼 출력하도록 finetune. "VLA"라는 용어가 처음 자리잡은 논문. 학습 데이터에 없는 "공룡"이라는 단어도 인터넷 지식으로 처리하는 emergent capability를 보였습니다.
RoboCat (2023, DeepMind) — 다양한 로봇 임베디먼트(팔의 모양, 자유도, 그리퍼 종류)에서 동작하는 generalist. self-improvement 루프로 데이터 의존도를 낮추려는 시도.

자유도(DoF, Degrees of Freedom)

로봇이 독립적으로 움직일 수 있는 축의 수입니다. 7-DoF 팔이라고 하면 관절 7개를 따로 제어할 수 있다는 뜻입니다.

🔗 RT-2의 구조와 emergent capability를 자세히 분석한 글: VLA가 정식으로 등장하다.

4단계 — 오픈소스가 따라잡습니다 (2024)

RT-2는 코드도 weight도 비공개였습니다. 학계와 오픈소스 커뮤니티가 직접 검증·확장 못 하면 분야가 폐쇄됩니다. 데이터·모델·코드 세 축에서 동시에 오픈 움직임이 일어납니다.

시기별 주요 모델

Open X-Embodiment (2023) — 22개 기관이 데이터를 합쳤습니다. 100만 trajectory, 22종 로봇. 오픈소스 VLA의 연료입니다.
Octo (2024, UC Berkeley) — Open-X로 학습한 첫 generalist 오픈소스. 93M의 작은 크기에 diffusion action head.
OpenVLA (2024, Stanford·UC Berkeley) ⭐ — RT-2를 사실상 복원. 7B Llama-2 + DINOv2/SigLIP. 코드·weight 전부 공개, LoRA로 24GB GPU에서 finetune 가능.
RDT-1B (2024, 칭화대) — 1B 파라미터 diffusion VLA. 양팔 작업에 강점.

🔗 OpenVLA·Octo·RDT-1B를 자세히 풀어본 글: 오픈소스가 따라잡다.

5단계 — π(파이) 시리즈와 산업화 (2024–2025) ⭐⭐

학교에서 데모를 만들던 사람들이 회사를 차려 진짜 제품을 만들기 시작합니다. 가장 주목할 그룹은 Physical Intelligence — UC Berkeley의 Sergey Levine, Stanford의 Chelsea Finn 같은 모방학습 거물들이 2024년 초 차린 회사입니다.

시기별 주요 모델

π₀ (2024, Physical Intelligence) ⭐ — VLM(PaliGemma) 위에 action expert를 따로 달고, flow matching으로 연속 행동을 50Hz로 생성. 셔츠 개기, 식기세척기 비우기 같은 정밀 작업.
π₀-FAST (2025) — DCT 주파수 공간에서 행동 토큰화. 학습 속도 5배 향상.
π₀.₅ (2025) ⭐ — 로봇 시연 + 웹 VLM 데이터 + 사람 음성 교정 co-training. 처음 가본 진짜 가정집에서 청소·정리. open-world generalization의 첫 작동 사례.
Helix (2025, Figure AI) — 휴머노이드 200Hz 제어. System 1 / System 2 dual-system 구조로 "느린 사고 + 빠른 반응"을 구현.
Gemini Robotics (2025, Google DeepMind) — Gemini 2.0 위에 robotics tuning. spatial reasoning과 long-context가 강점.
GR00T N1 (2025, NVIDIA) — 휴머노이드 전용 오픈소스 generalist. Isaac 시뮬레이터 통합으로 sim-to-real 한 묶음 제공.
SmolVLA (2025, Hugging Face) — 450M 파라미터, 맥북에서도 작동. LeRobot + SO-101 같은 저가 암으로 누구나 실습 가능.

🔗 π₀·π₀-FAST·π₀.₅를 자세히: π 시리즈와 산업화의 시작. Helix·Gemini Robotics·GR00T·SmolVLA: 휴머노이드와 최전선.

핵심 모델 한눈에 비교

시기	모델	행동 표현	특징
2022	RT-1	discrete token	첫 대규모 로봇 Transformer
2023	ACT	continuous chunk	양팔 정밀, 저가 하드웨어
2023	Diffusion Policy	denoising	multimodal 분포 표현
2023	RT-2	text-like token	VLM 지식 + 행동
2024	OpenVLA	discrete token	RT-2의 오픈소스
2024	π₀	flow matching	정밀 연속 제어 50Hz
2025	π₀.₅	flow matching + co-training	open-world 일반화
2025	Helix	dual-system	휴머노이드 200Hz

실습 가이드와 도구

본문 글마다 짝꿍 실습 글이 있습니다. 실물 로봇 없이 노트북·시뮬레이션만으로 따라할 수 있도록 구성됐습니다.

[실습 1] Self-Attention·ViT·CLIP 굴려보기 — PyTorch, HuggingFace transformers
[실습 3] ACT·Diffusion Policy — LeRobot + PushT/ALOHA sim
[실습 5] OpenVLA 추론과 LoRA finetune — LeRobot + Open-X(또는 DROID) + SimplerEnv
[실습 6] π₀ 행동 생성 — LeRobot
[실습 7] SmolVLA로 시작하기 — LeRobot

실습에서 쓰는 도구·데이터셋

LeRobot — 위 실습 4편의 공통 라이브러리. 사전학습 모델, 시뮬레이션 환경, 학습 스크립트가 모두 한 묶음으로 들어 있습니다. GitHub
Open X-Embodiment — 5편 실습의 학습 데이터. 100만+ trajectory, 22종 로봇. 링크
DROID — 5편 실습에서 Open-X 대신 쓸 수 있는 깔끔한 단일 데이터셋. 76K trajectory, 564개 환경. 링크
RoboCasa — 7편 실습에서 가정환경 시뮬레이션이 필요할 때. 링크
SimplerEnv — 5편 실습의 OpenVLA·Octo 평가용 시뮬레이터. GitHub

다음 글 안내

이 로드맵은 전체 지도일 뿐입니다. 각 모델의 자세한 이야기는 다음 글에서 풀어 갑니다.

1. VLA 이전의 시간 — Transformer·ViT·CLIP·Decision Transformer
2. 모방학습의 시작 — BC-Z, Gato, RT-1
3. 정밀 모방학습의 두 길 — ACT, Diffusion Policy, Mobile ALOHA
4. VLA가 정식으로 등장하다 — PaLM-E, RT-2, RoboCat
5. 오픈소스가 따라잡다 — Open X-Embodiment, Octo, OpenVLA, RDT-1B
6. π 시리즈와 산업화의 시작 — π₀, π₀-FAST, π₀.₅
7. 휴머노이드와 최전선 — Helix, Gemini Robotics, GR00T N1, SmolVLA