들어가며
이 글은 VLA(Vision-Language-Action) 를 처음 공부하는 분들을 위한 안내서입니다. 이 글은 개요입니다 — 큰 흐름을 한 번에 잡는 데 목표를 두고, 각 모델의 자세한 이야기는 후속 글에서 따로 풀어 갑니다. 글 끝 다음 글 안내에서 어떤 글이 어떤 내용을 다루는지 확인하실 수 있습니다.
VLA는 5년이 채 안 되는 짧은 역사를 가지고 있지만, 그 짧은 시간 안에 비전·언어·강화학습·로봇공학이 한꺼번에 합류한, 굉장히 밀도 높은 분야입니다. 어디서부터 봐야 할지 막막한 분들에게 — 시간순으로 따라가면 길을 잃지 않습니다.
VLA가 뭔가요? 한 문장 정의
카메라로 본 장면(Vision)과 사람이 한 말(Language)을 입력으로 받아, 로봇 행동(Action)을 출력하는 단일 신경망 모델입니다.
당연해 보이지만, 이 셋이 한 모델로 합쳐진 건 2023년 들어서입니다. 그 전까지 비전 모델은 비전 모델대로, 언어 모델은 언어 모델대로, 로봇 정책은 또 따로 발전했습니다.
큰 그림 한눈에 보기
다섯 단계로 나눠 살펴봅니다. 각 단계는 앞 단계의 한계를 풀기 위해 등장했고, 그래서 시간순으로 따라가다 보면 자연스럽게 다음 단계의 문제의식이 보입니다.
0. VLA가 등장하기 전 (2017–2020)
VLA가 태어나기 전에는 세 갈래의 흐름이 따로 굴러가고 있었습니다. 비전(CNN의 정체기), 언어(GPT-3의 충격), 로봇(시뮬레이션 강화학습) — 이 셋을 한 무대에 올리는 결정적 한 편의 논문이 2017년에 나옵니다.
📄 Attention Is All You Need (2017) ⭐
논문 링크 — Vaswani 외, Google Brain
이 글의 모든 모델이 결국 이 한 편 위에 올라가 있습니다. RNN/LSTM이 표준이던 시퀀스 처리 분야에 self-attention(시퀀스의 각 위치가 다른 모든 위치를 한 번에 참고하는 메커니즘)을 도입해, NLP를 시작으로 비전·로봇·멀티모달까지 모든 분야의 백본을 트랜스포머로 바꿨습니다.
🔗 자세한 구조와 Q·K·V 동작 원리는 VLA 이전의 시간에서.
1단계 — 비전과 언어가 같은 형식을 갖게 됩니다 (2020–2021)
핵심 질문은 단순했습니다.
"이미지·텍스트·행동을 같은 형식(토큰 시퀀스)으로 다루면 어떨까?"
세 편의 논문이 1년 사이에 답을 채웁니다.
📄 ViT (2020) ⭐
An Image is Worth 16x16 Words — Dosovitskiy 외, Google
이미지를 16×16 패치로 잘라 단어처럼 다루면 트랜스포머가 CNN을 압도합니다. 이후 거의 모든 비전 모델이 ViT 계열로 통일됐고, CLIP·RT-2·OpenVLA의 비전 인코더가 모두 이 후손입니다.
📄 CLIP (2021) ⭐
Learning Transferable Visual Models From Natural Language Supervision — Radford 외, OpenAI
인터넷 4억 쌍의 (이미지, 캡션)을 contrastive learning으로 학습해 이미지 인코더와 텍스트 인코더가 같은 의미 공간을 공유하게 만들었습니다. VLA의 "언어로 시각을 제어한다"는 능력의 출발점입니다.
📄 Decision Transformer (2021)
논문 링크 — Chen 외, UC Berkeley·Facebook
강화학습 문제를 시퀀스 예측 문제로 뒤집은 논문입니다. 학습 데이터를 (보상, 상태, 행동, ...) 시퀀스로 적어두고 GPT처럼 다음 토큰을 예측하게 합니다. RT-2가 행동을 텍스트 토큰처럼 출력하는 발상의 직계 조상입니다.
🔗 행동 토큰화의 의미와 RT-1·RT-2가 이를 어떻게 활용했는지는 VLA가 정식으로 등장하다에서.
2단계 — 로봇 정책이 신경망으로 옮겨갑니다 (2021–2024)
VLA 이야기의 핵심이 이 시기에 있습니다. 모방학습이 한 번에 정착한 게 아니라, 여러 시행착오를 거치며 점점 단단해졌습니다.
이 단계 발전의 거의 전부가 covariate shift를 푸는 이야기입니다.
시기별 주요 모델
- BC-Z (2021) — task description의 임베딩을 입력으로 추가해, 한 모델이 여러 task를 처리하도록 만든 논문. VLA의 가장 직접적인 조상입니다.
- Gato (2022, DeepMind) — 텍스트·이미지·게임·로봇 제어 604개 task를 한 트랜스포머로. "범용 에이전트가 가능하다"는 첫 본격 시도.
- RT-1 (2022, Google) — 13만 건 시연을 트랜스포머로 학습. 행동을 256단계로 양자화한 토큰으로 출력. VLA의 원형.
- ACT (2023, Stanford) ⭐ — k-step action chunk를 한 번에 예측해 covariate shift를 정면 돌파. ALOHA 하드웨어와 함께 모방학습을 실용 기술로 끌어올렸습니다.
- Diffusion Policy (2023) ⭐ — 이미지 생성에 쓰던 diffusion을 행동 생성에 가져와, 사람 시연의 multimodal 분포를 자연스럽게 표현.
- Mobile ALOHA (2024) — ALOHA에 바퀴를 달아 가사 작업까지. SNS에서 화제가 되며 "진짜 되네?"의 공감대를 만든 시점.
🔗 BC·RT-1까지의 계보는 모방학습의 시작에서, ACT·Diffusion Policy의 수식·구현은 정밀 모방학습의 두 길에서 다룹니다.
3단계 — VLA가 정식으로 등장합니다 (2023)
질문은 이렇습니다.
"GPT-4 같은 거대 VLM이 가진 인터넷 지식을 로봇 정책에 흘려넣을 수 없을까?"
로봇 시연 데이터(수십만 trajectory)와 인터넷 텍스트(수조 토큰)의 격차를 메우려는 시도입니다.
시기별 주요 모델
- PaLM-E (2023, Google) — 562B LLM에 카메라 이미지를 토큰으로 주입. LLM이 자연어 plan을 출력. 다만 실제 행동은 별도 정책이 처리.
- RT-2 (2023, Google DeepMind) ⭐ — 학습된 거대 VLM을 그대로 가져와 행동을 텍스트 토큰처럼 출력하도록 finetune. "VLA"라는 용어가 처음 자리잡은 논문. 학습 데이터에 없는 "공룡"이라는 단어도 인터넷 지식으로 처리하는 emergent capability를 보였습니다.
- RoboCat (2023, DeepMind) — 다양한 로봇 임베디먼트(팔의 모양, 자유도, 그리퍼 종류)에서 동작하는 generalist. self-improvement 루프로 데이터 의존도를 낮추려는 시도.
🔗 RT-2의 구조와 emergent capability를 자세히 분석한 글: VLA가 정식으로 등장하다.
4단계 — 오픈소스가 따라잡습니다 (2024)
RT-2는 코드도 weight도 비공개였습니다. 학계와 오픈소스 커뮤니티가 직접 검증·확장 못 하면 분야가 폐쇄됩니다. 데이터·모델·코드 세 축에서 동시에 오픈 움직임이 일어납니다.
시기별 주요 모델
- Open X-Embodiment (2023) — 22개 기관이 데이터를 합쳤습니다. 100만 trajectory, 22종 로봇. 오픈소스 VLA의 연료입니다.
- Octo (2024, UC Berkeley) — Open-X로 학습한 첫 generalist 오픈소스. 93M의 작은 크기에 diffusion action head.
- OpenVLA (2024, Stanford·UC Berkeley) ⭐ — RT-2를 사실상 복원. 7B Llama-2 + DINOv2/SigLIP. 코드·weight 전부 공개, LoRA로 24GB GPU에서 finetune 가능.
- RDT-1B (2024, 칭화대) — 1B 파라미터 diffusion VLA. 양팔 작업에 강점.
🔗 OpenVLA·Octo·RDT-1B를 자세히 풀어본 글: 오픈소스가 따라잡다.
5단계 — π(파이) 시리즈와 산업화 (2024–2025) ⭐⭐
학교에서 데모를 만들던 사람들이 회사를 차려 진짜 제품을 만들기 시작합니다. 가장 주목할 그룹은 Physical Intelligence — UC Berkeley의 Sergey Levine, Stanford의 Chelsea Finn 같은 모방학습 거물들이 2024년 초 차린 회사입니다.
시기별 주요 모델
- π₀ (2024, Physical Intelligence) ⭐ — VLM(PaliGemma) 위에 action expert를 따로 달고, flow matching으로 연속 행동을 50Hz로 생성. 셔츠 개기, 식기세척기 비우기 같은 정밀 작업.
- π₀-FAST (2025) — DCT 주파수 공간에서 행동 토큰화. 학습 속도 5배 향상.
- π₀.₅ (2025) ⭐ — 로봇 시연 + 웹 VLM 데이터 + 사람 음성 교정 co-training. 처음 가본 진짜 가정집에서 청소·정리. open-world generalization의 첫 작동 사례.
- Helix (2025, Figure AI) — 휴머노이드 200Hz 제어. System 1 / System 2 dual-system 구조로 "느린 사고 + 빠른 반응"을 구현.
- Gemini Robotics (2025, Google DeepMind) — Gemini 2.0 위에 robotics tuning. spatial reasoning과 long-context가 강점.
- GR00T N1 (2025, NVIDIA) — 휴머노이드 전용 오픈소스 generalist. Isaac 시뮬레이터 통합으로 sim-to-real 한 묶음 제공.
- SmolVLA (2025, Hugging Face) — 450M 파라미터, 맥북에서도 작동. LeRobot + SO-101 같은 저가 암으로 누구나 실습 가능.
🔗 π₀·π₀-FAST·π₀.₅를 자세히: π 시리즈와 산업화의 시작. Helix·Gemini Robotics·GR00T·SmolVLA: 휴머노이드와 최전선.
핵심 모델 한눈에 비교
| 시기 | 모델 | 행동 표현 | 특징 |
|---|---|---|---|
| 2022 | RT-1 | discrete token | 첫 대규모 로봇 Transformer |
| 2023 | ACT | continuous chunk | 양팔 정밀, 저가 하드웨어 |
| 2023 | Diffusion Policy | denoising | multimodal 분포 표현 |
| 2023 | RT-2 | text-like token | VLM 지식 + 행동 |
| 2024 | OpenVLA | discrete token | RT-2의 오픈소스 |
| 2024 | π₀ | flow matching | 정밀 연속 제어 50Hz |
| 2025 | π₀.₅ | flow matching + co-training | open-world 일반화 |
| 2025 | Helix | dual-system | 휴머노이드 200Hz |
실습 가이드와 도구
본문 글마다 짝꿍 실습 글이 있습니다. 실물 로봇 없이 노트북·시뮬레이션만으로 따라할 수 있도록 구성됐습니다.
- [실습 1] Self-Attention·ViT·CLIP 굴려보기 — PyTorch, HuggingFace transformers
- [실습 3] ACT·Diffusion Policy — LeRobot + PushT/ALOHA sim
- [실습 5] OpenVLA 추론과 LoRA finetune — LeRobot + Open-X(또는 DROID) + SimplerEnv
- [실습 6] π₀ 행동 생성 — LeRobot
- [실습 7] SmolVLA로 시작하기 — LeRobot
실습에서 쓰는 도구·데이터셋
- LeRobot — 위 실습 4편의 공통 라이브러리. 사전학습 모델, 시뮬레이션 환경, 학습 스크립트가 모두 한 묶음으로 들어 있습니다. GitHub
- Open X-Embodiment — 5편 실습의 학습 데이터. 100만+ trajectory, 22종 로봇. 링크
- DROID — 5편 실습에서 Open-X 대신 쓸 수 있는 깔끔한 단일 데이터셋. 76K trajectory, 564개 환경. 링크
- RoboCasa — 7편 실습에서 가정환경 시뮬레이션이 필요할 때. 링크
- SimplerEnv — 5편 실습의 OpenVLA·Octo 평가용 시뮬레이터. GitHub
다음 글 안내
이 로드맵은 전체 지도일 뿐입니다. 각 모델의 자세한 이야기는 다음 글에서 풀어 갑니다.
- 1. VLA 이전의 시간 — Transformer·ViT·CLIP·Decision Transformer
- 2. 모방학습의 시작 — BC-Z, Gato, RT-1
- 3. 정밀 모방학습의 두 길 — ACT, Diffusion Policy, Mobile ALOHA
- 4. VLA가 정식으로 등장하다 — PaLM-E, RT-2, RoboCat
- 5. 오픈소스가 따라잡다 — Open X-Embodiment, Octo, OpenVLA, RDT-1B
- 6. π 시리즈와 산업화의 시작 — π₀, π₀-FAST, π₀.₅
- 7. 휴머노이드와 최전선 — Helix, Gemini Robotics, GR00T N1, SmolVLA