들어가며
지난 글에서는 OpenVLA·Octo·RDT-1B가 VLA를 모두의 도구로 만든 과정을 봤습니다. 그런데 오픈소스가 자리잡는 동안, 또 다른 흐름이 조용히 무대를 만들고 있었습니다 — VLA의 산업화.
학교에서 데모를 찍던 사람들이 회사를 차려 진짜 제품을 만들기 시작합니다. 그 흐름의 중심에 Physical Intelligence라는 신생 스타트업이 있습니다. 2024년 초에 설립됐고, 창업진은 UC Berkeley의 Sergey Levine, Stanford의 Chelsea Finn, Karol Hausman 등 — 모방학습·로봇학습 분야에서 거의 모든 핵심 논문에 이름이 들어가는 인물들입니다.
Physical Intelligence가 1년 동안 발표한 세 개의 모델이 이번 글의 주인공입니다.
- π₀ (2024) — VLM 위에 action expert를 따로 단 50Hz 정밀 제어 VLA. 셔츠 개기·식기세척기 비우기까지.
- π₀-FAST (2025) — DCT 기반 새 토큰화로 학습 속도를 5배 가속.
- π₀.₅ (2025) — 처음 가본 진짜 가정집에서 청소·정리. open-world generalization의 첫 작동 사례.
이 세 모델이 보여주는 건 단지 "성능이 좋다"가 아닙니다. "VLA가 진짜 제품으로 자리잡을 수 있는 단계에 도달했다" 는 신호입니다.
이 글은 VLA 학습 로드맵 시리즈의 여섯 번째 글입니다.
0. 알아두면 좋은 사전 용어
Flow Matching
Diffusion model의 사촌입니다. 데이터 분포를 학습하는 또 하나의 생성 모델 방식으로, diffusion보다 학습이 단순하고 추론도 빠른 경향이 있습니다. Stable Diffusion 3, Meta의 Movie Gen 등이 채택했고, π 시리즈가 행동 생성에 가져왔습니다.
Action Expert
VLM의 본체와 분리해, 행동 생성만 전담하는 별도의 신경망 모듈입니다. VLM은 이해를 담당하고, action expert는 출력을 담당합니다. 두 모듈을 분리하면 VLM의 사전학습된 지식을 보호하면서 행동 부분만 따로 finetune할 수 있습니다.
Open-World Generalization
학습 데이터의 분포 밖, 즉 처음 보는 환경·물체·task에 작동하는 능력입니다. 같은 가정집에서만 작동하는 게 아니라 처음 가본 가정집에서 작동하는 것이 진짜 open-world입니다.
Co-training
서로 다른 종류의 데이터를 한 번의 학습 batch에 함께 사용하는 방식입니다. RT-2가 인터넷 데이터와 로봇 데이터를 섞은 게 대표적이고, π₀.₅가 한 단계 더 나아갑니다.
1. π₀ — VLM 위의 Action Expert로 50Hz 정밀 제어
📄 π₀: A Vision-Language-Action Flow Model for General Robot Control — Black 외, Physical Intelligence (2024)
어떤 문제를 풀려고 했나
OpenVLA가 RT-2급 VLA를 오픈으로 풀었지만, 정밀한 양손 작업에는 한 가지 결정적 한계가 있었습니다 — 추론 속도.
OpenVLA는 7B 거대 모델이라 추론 한 번에 100ms 이상 걸립니다. 한 step 행동 출력에 1/10초가 들면 정밀한 손목 조작은 불가능합니다. 셔츠를 개거나 컵을 잡을 때 사람 손은 50Hz(20ms 간격)로 부드럽게 움직입니다.
또 하나 — discrete token 양자화는 정밀한 연속 제어에는 불리합니다. 256단계로 양자화하면 0.5도 차이의 미세 회전은 표현이 안 됩니다.
Physical Intelligence의 질문은 이랬습니다.
"거대 VLM의 지식은 살리면서, 행동만큼은 정밀하고 빠르게 출력하는 구조를 만들 수 없을까?"
핵심 발상 1 — VLM Backbone + Action Expert
π₀의 구조는 두 부분으로 나뉩니다.
- VLM Backbone — PaliGemma 3B — Google이 공개한 vision-language 모델. 이미지와 언어를 받아 멀티모달 표현을 만듭니다. PaliGemma의 사전학습된 인터넷 지식이 그대로 들어옵니다.
- Action Expert — VLM과 별도로 동작하는 작은 트랜스포머. VLM의 표현과 로봇 자기상태(관절 각도)를 받아 flow matching으로 행동을 생성합니다.
이 구조의 장점은 모듈 분리입니다. VLM은 자주 finetune하지 않아도 되니 사전학습 지식이 잘 보존되고, action expert만 task별로 finetune하면 됩니다.
핵심 발상 2 — Flow Matching으로 행동 생성
지난 글에서 본 Diffusion Policy처럼, π₀도 행동을 생성 모델로 출력합니다. 다만 diffusion 대신 flow matching을 씁니다.
Flow Matching이 뭔지
Diffusion model이 "노이즈 → 데이터"의 reverse 과정을 단계적으로 denoise하는 거였다면, flow matching은 "노이즈에서 데이터까지 직선 경로"를 학습하는 방식입니다. 더 정확하게는, 노이즈 분포에서 데이터 분포로 흐르는 velocity field(어느 방향으로 얼마나 흘러가야 하는지)를 학습합니다.
샘플링은 ODE를 적분하는 형태입니다. 노이즈에서 출발해 학습된 velocity field를 따라가면 데이터에 도달합니다. 보통 510 step만으로 충분해서, 50100 step이 필요한 diffusion보다 추론이 훨씬 빠릅니다.
Flow matching이 정밀 제어에 어울리는 이유
세 가지입니다.
- 연속적인 행동을 그대로 표현합니다. 양자화 오차가 없습니다.
- 추론이 빠릅니다. 5~10 step이면 충분.
- multimodal 분포를 자연스럽게 표현합니다. Diffusion Policy에서 본 장점을 그대로 가져옵니다.
이 셋이 모이면 50Hz 정밀 제어가 가능해집니다.
학습 데이터 — 다양한 출처를 모음
π₀는 학습 데이터를 다음과 같이 모았습니다.
- 자체 수집한 양팔 시연 — 약 10,000시간 분량 (로봇 분야 기준 매우 큰 양)
- Open X-Embodiment — 다양한 embodiment 데이터
- PaliGemma의 사전학습된 지식 — VLM 백본을 통해 자동 흡수
결과 — 무엇을 해냈나
π₀가 시연 영상에서 보여준 task는 인상적입니다.
- 셔츠 개기 — 양손으로 옷을 들어 단계적으로 접기
- 식기세척기 비우기 — 컵·접시·식기를 종류별로 분류
- 상자 조립 — 두 손으로 종이 상자 펴고 접기
이 task는 모두 정밀한 양손 협응과 긴 horizon(수십 초의 연속 동작)이 필요합니다. 50Hz 정밀 제어 + multimodal 행동 분포가 함께 작동해서 가능했습니다.
VLA가 여기서 받은 것
π₀는 VLA에 두 가지 새로운 표준을 제시했습니다.
- VLM + Action Expert 구조 — 두 모듈을 분리하는 설계가 이후 표준이 되어 갑니다. 행동 출력의 부담을 VLM 본체에 지우지 않으니 효율적입니다.
- Flow Matching 행동 생성 — discrete token 진영(RT-2·OpenVLA)과 diffusion 진영(Diffusion Policy·Octo)에 더해 flow 라는 세 번째 길이 자리잡습니다. 추론 속도와 정밀도 모두에서 강점이 명확해 빠르게 표준이 됐습니다.
요점
π₀는 "VLM의 지식 + Action Expert의 정밀 제어"라는 모듈 분리 설계를 제시한 산업화 시대의 첫 모델입니다.
2. π₀-FAST — DCT 토큰화로 학습 속도 5배
📄 FAST: Efficient Action Tokenization for Vision-Language-Action Models — Pertsch 외, Physical Intelligence (2025)
어떤 문제를 풀려고 했나
π₀의 flow matching은 추론은 빠르지만, 학습이 느립니다. 학습 시 매 step마다 flow matching loss를 계산해야 하고, 이게 거대 모델에서 비용이 큽니다.
또 한편으로 RT-2·OpenVLA의 discrete token 방식은 학습이 빠르지만 양자화 오차로 정밀도가 떨어집니다.
저자들의 질문은 이랬습니다.
"discrete token의 학습 효율과 flow matching의 정밀도를 동시에 가질 수는 없을까?"
핵심 발상 — DCT 주파수 공간에서 토큰화
답은 신호 처리의 고전 도구 DCT(Discrete Cosine Transform) 에 있었습니다.
DCT가 뭔지
JPEG 이미지 압축을 들어보셨다면, 그 핵심에 DCT가 있습니다.
DCT (Discrete Cosine Transform)
시간 영역의 신호를 주파수 영역의 cosine 함수들의 합으로 분해하는 변환입니다. 푸리에 변환과 사촌 격이고, 신호를 "저주파(부드러운 부분) + 고주파(빠르게 변하는 부분)"로 펼쳐줍니다.
행동 시퀀스에 DCT를 적용하면, 부드러운 큰 움직임은 저주파 계수에, 빠른 미세 조정은 고주파 계수에 분리됩니다. 흥미롭게도 사람의 시연 행동은 대부분 저주파에 집중되어 있어, 저주파 계수 몇 개만으로도 행동의 대부분을 표현할 수 있습니다.
FAST의 토큰화 흐름
- 행동 chunk (예: N개의 14-DoF 행동)에 DCT 적용 → 주파수 계수
- 작은 계수(고주파)는 버리고 큰 계수(저주파)만 남김
- 남은 계수를 양자화해 정수 토큰으로 변환
- BPE(Byte-Pair Encoding) 같은 NLP 토큰화 트릭으로 토큰 시퀀스 압축
이렇게 만들어진 토큰은 discrete token이지만 양자화 오차가 작습니다. 행동의 본질적 특성(저주파)에 집중해 양자화하니, 같은 비트 수로도 훨씬 정밀하게 표현됩니다.
결과
π₀에 FAST 토큰화를 적용한 π₀-FAST는 학습 속도가 5배 빨라지면서 정밀도도 유지됐습니다. 한편 RT-2 계열 discrete token 진영의 정밀도 한계도 크게 완화됐습니다.
알아둘 용어 — Universal Action Tokenizer
π₀-FAST의 토큰화는 특정 로봇에 묶이지 않습니다. 행동의 차원과 길이만 맞추면 어떤 로봇이든 같은 토큰 어휘를 공유할 수 있습니다. 이건 cross-embodiment 학습에서 매우 유리한 특성입니다.
VLA가 여기서 받은 것
π₀-FAST는 "discrete vs continuous"의 대립 구도를 어느 정도 해소했습니다. discrete token도 잘 설계하면 정밀도를 잃지 않는다는 것을 보여줬고, 이후 OpenVLA-OFT 같은 후속 연구가 이 방향을 따라갑니다.
요점
π₀-FAST는 신호 처리의 고전(DCT)을 행동 토큰화에 가져와, discrete token의 학습 효율과 continuous 행동의 정밀도를 동시에 잡은 논문입니다.
3. π₀.₅ — 처음 가본 가정집에서 청소하는 로봇
📄 π0.5: a Vision-Language-Action Model with Open-World Generalization — Black 외, Physical Intelligence (2025)
어떤 문제를 풀려고 했나
π₀까지의 모든 VLA에는 한 가지 공통된 한계가 있었습니다 — 학습 환경에서만 잘 작동합니다.
데모는 인상적이지만, 그 데모는 거의 항상 학습 데이터를 수집한 같은 공간에서 찍힙니다. 같은 부엌, 같은 테이블, 같은 조명. 진짜 가정집에 가져가면 작동을 멈춥니다. 가구 배치도 다르고, 빛도 다르고, 주방 도구의 종류도 다르기 때문입니다.
Physical Intelligence가 던진 질문은 이랬습니다.
"처음 가본 진짜 가정집에서, 학습 시 본 적 없는 부엌에서, 청소·정리 같은 task를 할 수 있을까?"
이게 진짜 open-world generalization입니다. 그리고 π₀.₅가 이걸 처음으로 작동시켰습니다.
핵심 발상 — 세 종류 데이터의 Co-Training
π₀.₅는 한 모델 안에서 세 가지 출처의 데이터를 함께 학습합니다.
- 로봇 시연 데이터 — 다양한 환경에서 모은 양팔 시연 (수천 시간)
- 인터넷 vision-language 데이터 — VLM 사전학습 데이터. 시각·언어 일반 지식 보존
- 사람 음성 교정 데이터 — 작업 도중 사람이 음성으로 "no, the other one"처럼 교정한 데이터
세 번째가 흥미롭습니다. 로봇이 작업하다 잘못된 방향으로 가면, 사람이 음성으로 교정합니다. 이 음성 + 잘못된 행동 + 올바른 행동의 trio를 학습 데이터로 만들어 모델이 "교정에 반응하는 능력"을 배웁니다.
이 co-training이 핵심입니다. 로봇 데이터만으로는 새 환경 일반화가 어렵지만, 인터넷 데이터의 풍부한 시각 다양성과 결합하면 처음 보는 부엌도 "부엌"으로 인식할 수 있게 됩니다.
핵심 발상 — High-level 추론과 Low-level 제어의 결합
π₀.₅는 행동 출력 전에 자연어 sub-goal을 먼저 생성합니다.
[명령] "주방을 정리해 주세요"
[π₀.₅ 내부 plan]
1. "Put the dishes in the sink"
2. "Wipe the counter"
3. "Throw away the wrappers"
[각 sub-goal에 대해 행동 chunk 생성]
이건 RT-2의 chain-of-thought를 한 단계 더 발전시킨 형태입니다. VLM의 plan 능력과 action expert의 정밀 제어를 명시적으로 연결합니다.
결과 — 처음 가본 진짜 가정집
논문 시연 영상에서 π₀.₅는 다음을 해냅니다.
- 학습 시 본 적 없는 가정집(촬영 직전 처음 들어감)에서 청소
- 학습 시 본 적 없는 부엌에서 식기 정리
- 사람의 음성 교정에 실시간으로 반응하며 행동 수정
- 학습 시 본 적 없는 물체(처음 보는 조미료 병)도 적절히 처리
이건 정말 큰 진전입니다. "실험실 데모"에서 "현실 작동"으로 처음 의미 있게 넘어간 사례입니다.
알아둘 용어 — Hierarchical Policy
π₀.₅처럼 high-level plan과 low-level 행동 생성을 명시적으로 나눠 운영하는 정책을 hierarchical policy라 부릅니다. 사람의 인지가 "큰 계획을 세우고 → 세부 동작을 실행"하는 두 단계인 것과 비슷합니다. 다음 글에서 다룰 Helix의 System 1 / System 2 구조도 hierarchical 발상의 변종입니다.
VLA가 여기서 받은 것
π₀.₅는 VLA 분야에 두 가지 신호를 보냈습니다.
- Open-world generalization이 진짜로 가능하다. 학습 환경 밖에서도 작동하는 VLA가 실제로 있다는 첫 증명이었습니다. 이게 안 됐으면 VLA는 영원히 데모에 머물 가능성이 컸습니다.
- 여러 출처의 데이터를 함께 보는 co-training이 핵심이다. 로봇 데이터만으로는 부족하고, 인터넷 데이터·사람 교정 데이터까지 섞어야 진짜 일반화가 일어납니다. 이 방향이 이후 모든 산업화 VLA의 표준 전략이 됐습니다.
요점
π₀.₅는 VLA가 데모 단계를 넘어 "현실에서 진짜 작동하는 단계"에 진입했음을 알린 분기점입니다.
정리 — 산업화의 도착점
π 시리즈 세 모델이 지난 1년 만에 만든 변화를 정리하면 이렇습니다.
| 모델 | 핵심 기여 | 가능해진 것 |
|---|---|---|
| π₀ | VLM + Action Expert + Flow Matching | 50Hz 정밀 양손 작업 (셔츠 개기 등) |
| π₀-FAST | DCT 기반 새 토큰화 | discrete token도 정밀도 유지, 학습 5배 가속 |
| π₀.₅ | 세 종류 데이터의 co-training | 처음 가본 가정집에서 청소·정리 |
한 줄 요약
π 시리즈는 VLA를 "실험실 데모"에서 "현실에서 작동하는 산업 제품"의 단계로 끌어올렸습니다. 그 핵심은 VLM + Action Expert의 모듈 분리, flow matching, 그리고 다양한 데이터의 co-training입니다.
이제 마지막 글에서는 휴머노이드 로봇 회사들과 NVIDIA·Hugging Face가 만든 또 다른 흐름 — Helix, Gemini Robotics, GR00T N1, SmolVLA를 살펴봅니다. 이 세계는 더 빠르게, 더 작게, 더 실용적으로 진화하고 있습니다.
다음 글 안내
- 짝꿍 실습 → [실습] π₀ 행동 생성을 LeRobot으로
- 다음 글 → 휴머노이드와 최전선 — Helix, Gemini Robotics, GR00T N1, SmolVLA
- 이전 글 → 오픈소스가 따라잡다 — Open X-Embodiment, Octo, OpenVLA, RDT-1B
- 시리즈 전체 지도 → VLA 학습 로드맵