휴머노이드와 최전선 — Helix, Gemini Robotics, GR00T N1, SmolVLA

들어가며

지난 글에서는 π 시리즈가 VLA를 산업화 단계로 끌어올린 과정을 봤습니다. 하지만 2025년의 VLA 풍경은 π 시리즈만 있는 게 아닙니다. 같은 시기에 전혀 다른 방향으로 가는 작업들이 동시에 등장했습니다.

이번 글에서 다룰 네 작업이 그 풍경을 보여줍니다.

  • Helix (2025, Figure AI) — 휴머노이드 전신 제어. System 1 / System 2 dual-system 으로 "느린 사고 + 빠른 반응".
  • Gemini Robotics (2025, Google DeepMind) — Gemini 2.0 위에 robotics tuning. spatial reasoning이 한 단계 위.
  • GR00T N1 (2025, NVIDIA) — 휴머노이드 전용 오픈소스 generalist. Isaac 시뮬레이터 통합.
  • SmolVLA (2025, Hugging Face) — 450M 파라미터, 맥북에서도 작동. 모두를 위한 VLA.

이 네 작업이 각자 다른 방향으로 VLA의 경계를 밀어내고 있습니다. "한 모델로 통일"이 아니라 "다양한 niche로 분화" 가 지금의 풍경입니다.

이 글은 VLA 학습 로드맵 시리즈의 마지막 글입니다.


0. 알아두면 좋은 사전 용어

휴머노이드 (Humanoid Robot)

사람의 형태(두 다리, 두 팔, 머리)를 모방한 로봇입니다. 양팔 매니퓰레이터에 비해 자유도가 훨씬 많고(보통 30+ DoF), 균형·보행 같은 추가 챌린지가 있습니다. Figure 02, Tesla Optimus, NVIDIA가 협력하는 Unitree H1 등이 있습니다.

System 1 / System 2

노벨상 수상 심리학자 Daniel Kahneman의 이중 처리 이론에서 빌려온 용어입니다. System 1은 빠르고 직관적인 처리(예: 운전 중 핸들 조작), System 2는 느리고 숙고적인 처리(예: 어려운 수학 문제 풀기)입니다. AI에서는 빠른 반응 모듈과 느린 추론 모듈을 분리하는 설계 패턴으로 자주 쓰입니다.

Sim-to-Real

시뮬레이션에서 학습한 정책을 실제 로봇으로 옮기는 과정입니다. 시뮬레이터의 물리·시각이 현실과 완전히 같지 않아서, 그 격차(reality gap)를 메우는 게 큰 챌린지입니다. NVIDIA의 Isaac Sim이 이 분야의 대표 도구입니다.

Edge Inference

클라우드 GPU가 아닌, 로봇이나 PC 같은 종단 디바이스에서 모델을 추론하는 것입니다. 통신 지연이 없고 프라이버시도 좋지만, 디바이스 메모리·연산 한계 때문에 모델이 작아야 합니다.


1. Helix — 휴머노이드를 위한 dual-system 설계

📄 Helix: A Vision-Language-Action Model for Humanoid Control — Figure AI (2025)

어떤 문제를 풀려고 했나

Figure AI는 2024~2025년 폭발적으로 자라난 휴머노이드 회사 중 하나입니다. Figure 02라는 자체 휴머노이드를 만들고, 이 로봇을 가정과 공장에서 작동시키는 게 목표입니다.

그런데 휴머노이드 제어는 양팔 매니퓰레이터와 다른 챌린지가 있습니다.

  1. 자유도가 압도적으로 많습니다. 양팔 14-DoF + 손가락 + 허리 + 다리 + 머리 — 35-DoF 이상입니다.
  2. 빠른 반응이 필요합니다. 균형을 잡거나, 들고 가던 물건이 미끄러질 때 ms 단위로 반응해야 합니다. 50Hz로는 부족합니다.
  3. 동시에 추론도 필요합니다. "주방 정리"같은 long-horizon task는 plan을 짜야 합니다.

빠른 반응과 느린 추론은 양립하기 어렵습니다. 거대 모델은 추론은 잘하지만 느리고, 작은 모델은 빠르지만 추론이 약합니다.

Figure AI의 답은 이랬습니다.

"두 모델을 조합하자. 느린 추론 모델(System 2)과 빠른 반응 모델(System 1)이 협력하게."

핵심 발상 — System 1 / System 2 Dual-System

Helix의 구조를 한눈에 보면 이렇습니다.

  • System 2 — 7B VLM, ~9Hz — 느리고 똑똑합니다. 이미지와 언어를 깊이 이해해 task의 high-level latent를 만듭니다. 9Hz면 약 110ms 한 번씩 갱신됩니다.
  • System 1 — 80M 트랜스포머, 200Hz — 빠르고 단순합니다. System 2의 latent와 현재 로봇 상태를 받아 200Hz로 전신 행동을 출력합니다.

이 분리의 핵심은 각 모듈이 자기 사이즈에 맞는 일에 집중한다는 점입니다. System 2는 빠를 필요가 없으니 천천히 깊이 생각하고, System 1은 똑똑할 필요가 없으니 단순히 정해진 latent에 따라 빠르게 반응합니다.

이 분리가 결정적인 이유

휴머노이드의 균형 잡기, 손에서 미끄러진 물체를 잡기 같은 반사적 동작은 단일 거대 모델로는 불가능합니다. 200Hz가 안 나오면 로봇이 균형을 잃습니다. Helix는 이 한계를 dual-system 구조로 우회합니다.

Helix가 보여준 시연

Figure AI 시연 영상에서 두 대의 Figure 02가 함께 식료품을 정리합니다. 한 대가 봉지에서 물건을 꺼내고, 다른 대가 그것을 받아 선반에 올립니다. 두 로봇 모두 같은 Helix 모델로 작동합니다. 협력·전신 제어·자연어 이해가 한 모델 안에 들어 있습니다.

알아둘 용어 — Latent Conditioning

System 2가 만드는 latent는 자연어가 아니라 고차원 벡터입니다. System 1은 이 벡터에 조건화된(conditioned) 행동을 출력합니다. 자연어로 두 모듈을 연결하지 않고 벡터로 연결하는 게 핵심 디자인 결정입니다. 자연어는 정보 손실이 있고 토큰 단위 처리가 느립니다. 벡터는 풍부한 정보를 빠르게 전달할 수 있습니다.

VLA가 여기서 받은 것

Helix의 dual-system 설계는 휴머노이드 VLA의 표준 패턴이 되어 가고 있습니다. 단일 모델로 모든 걸 하는 게 아니라, 속도-깊이 trade-off를 두 모듈로 나눠 푼다는 발상이 강력합니다. 이후 다른 휴머노이드 회사들의 VLA 설계도 비슷한 방향으로 갑니다.

요점

Helix는 휴머노이드의 빠른 반응 + 느린 추론 요구를 dual-system으로 분리해 푼 설계입니다. 산업용 휴머노이드 VLA의 한 표준이 됩니다.


2. Gemini Robotics — 빅테크의 차세대 멀티모달이 로봇과 만나다

📄 Gemini Robotics: Bringing AI into the Physical World — Google DeepMind (2025)

어떤 문제를 풀려고 했나

PaLM-E와 RT-2 이후로 Google이 한동안 조용했습니다. 그동안 Gemini라는 차세대 거대 멀티모달 모델을 만들었고, 2025년 이를 로봇으로 확장한 게 Gemini Robotics입니다.

핵심 질문은 이렇습니다.

"PaLM 시대에 만들었던 PaLM-E·RT-2를, 한 단계 위의 Gemini 2.0 위에 다시 만들면 어떨까?"

핵심 발상 — Gemini의 spatial reasoning + long-context

Gemini 2.0은 두 가지 면에서 PaLM·PaLI보다 한 단계 위입니다.

  1. Spatial reasoning — 이미지의 공간 관계를 정확히 이해합니다. "왼쪽에서 세 번째 컵", "사과 뒤에 있는 책" 같은 공간 표현을 정확히 처리합니다.
  2. Long context — 백만 토큰 수준의 긴 컨텍스트를 다룹니다. 긴 영상, 다중 카메라, 복잡한 명령을 한 번에 처리할 수 있습니다.

Gemini Robotics는 이 두 강점을 그대로 로봇에 가져옵니다. 학습 데이터에 새 종류의 spatial reasoning task와 long-horizon task를 풍부하게 섞어, 모델이 이 능력을 행동으로도 표현할 수 있게 합니다.

두 변종

Gemini Robotics 보고서에는 두 모델이 있습니다.

  • Gemini Robotics-ER — Embodied Reasoning. 행동은 출력하지 않고 spatial reasoning과 plan만 생성. PaLM-E와 같은 위치.
  • Gemini Robotics — 본격 VLA. 행동까지 직접 출력. RT-2와 같은 위치.

이렇게 plan 모델과 행동 모델을 별도로 두는 패턴은 모듈 분리의 또 다른 형태로 볼 수 있습니다.

결과 — Dexterous Manipulation에 강점

Gemini Robotics가 시연에서 보여준 능력에는 다음이 있습니다.

  • 종이접기 (정밀한 양손 협응)
  • 카드 뽑기 (미세한 손가락 제어)
  • 색깔 분류 + 공간 명령 ("빨간 블록을 가장 큰 컵 안에")
  • 새 환경에 zero-shot 적응

Spatial reasoning이 강하다는 게 시연에서 명확히 드러납니다. "X 옆에 있는 Y" 같은 표현 처리가 다른 VLA보다 안정적입니다.

VLA가 여기서 받은 것

Gemini Robotics는 두 가지 신호입니다.

  1. 빅테크가 다시 본격적으로 들어왔습니다. Google이 RT 시리즈 이후 한동안 조용했다가, Gemini라는 더 강한 백본으로 돌아왔습니다.
  2. Spatial reasoning이 차세대 차별화 포인트임을 명확히 했습니다. 다음 세대 VLA들이 이 방향에 더 신경 쓰게 만들었습니다.

다만 Gemini Robotics도 여전히 비공개입니다. RT-2가 비공개였던 것과 같은 패턴이 반복됩니다 — 빅테크의 SOTA가 학계와 분리되어 있는 구조.

요점

Gemini Robotics는 Gemini 2.0의 spatial reasoning과 long-context 강점을 로봇에 그대로 가져온 차세대 빅테크 VLA입니다.


3. GR00T N1 — 휴머노이드 전용 오픈소스 generalist

📄 GR00T N1: An Open Foundation Model for Generalist Humanoid Robots — NVIDIA (2025)

어떤 문제를 풀려고 했나

NVIDIA는 GPU 회사이지만, 동시에 로봇 시뮬레이션과 학습 도구의 핵심 공급자(Isaac Sim, Isaac Lab, Cosmos)이기도 합니다. 휴머노이드 시대가 열리면서 NVIDIA는 더 깊이 들어옵니다 — 휴머노이드 전용 오픈소스 foundation model을 직접 만들어 공개합니다.

그게 GR00T N1입니다. (GR00T는 "Generalist Robot 00 Technology"의 약자, 영화 가디언즈 오브 갤럭시의 그루트에서 따온 이름)

핵심 발상 — Helix를 닮은 dual-system + 오픈

GR00T N1의 구조는 사실 Helix와 매우 비슷합니다. System 2(VLM)와 System 1(빠른 행동) 의 dual-system입니다.

차이는 두 가지입니다.

  1. 오픈소스 — 코드, weight, 학습 스크립트, 평가 코드 모두 공개. 누구나 자기 휴머노이드에 적용 가능.
  2. NVIDIA 생태계 통합 — Isaac Sim 시뮬레이터와 묶어 sim-to-real 파이프라인을 한 번에 제공.

핵심 발상 — 시뮬레이션 + 실제 데이터 혼합 학습

휴머노이드는 데이터가 너무 부족합니다. 양팔 매니퓰레이터처럼 puppeteering 시연도 어렵고(전신을 한 사람이 동시에 시연하기 힘듦), 비싼 휴머노이드를 굴려야 데이터가 나옵니다.

GR00T N1은 이 문제를 시뮬레이션 데이터 대량 합성으로 풉니다.

  • Isaac Sim에서 다양한 휴머노이드 task를 수만~수십만 시간 분량 합성
  • 이걸 실제 휴머노이드 시연 데이터와 함께 학습 (co-training)
  • domain randomization과 visual augmentation으로 sim-to-real 격차를 줄임

이 접근은 NVIDIA의 강점과 정확히 맞물립니다. GPU와 시뮬레이터가 충분하면, 데이터 부족이 더 이상 핵심 병목이 아닙니다.

알아둘 용어 — Domain Randomization

시뮬레이션 환경의 다양한 속성(조명, 텍스처, 마찰 계수, 카메라 각도 등)을 무작위로 바꿔가며 학습 데이터를 만드는 기법입니다. 이렇게 다양한 시뮬레이션을 본 모델은 실제 환경의 변화에도 더 잘 적응합니다. sim-to-real의 핵심 트릭입니다.

알아둘 용어 — Cosmos World Foundation Model

NVIDIA가 발표한 또 다른 모델로, 비디오를 생성하는 거대 모델입니다. GR00T N1과 결합해 "어떤 행동을 했을 때 어떤 영상이 나올지"를 미리 시뮬레이션하는 데 쓰입니다. 즉 세계 모델(world model) 의 역할입니다.

VLA가 여기서 받은 것

GR00T N1의 영향은 두 가지입니다.

  1. 휴머노이드 VLA의 오픈 표준 — Helix·Tesla 등이 비공개로 가는 동안, GR00T N1이 학계·스타트업의 휴머노이드 연구 기반이 됩니다.
  2. 시뮬레이션 데이터 활용의 표준화 — sim-to-real 파이프라인이 한 묶음으로 제공되면서, 휴머노이드 진입장벽이 한 번에 낮아집니다.

요점

GR00T N1은 NVIDIA가 자기 강점(GPU·시뮬레이터·생태계)으로 휴머노이드 VLA의 오픈 기반을 만든 작업입니다.


4. SmolVLA — 450M 파라미터, 맥북에서도

📄 SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics — Shukor 외, Hugging Face (2025)

어떤 문제를 풀려고 했나

VLA의 발전이 점점 거대 모델 방향으로 가는 동안, Hugging Face가 던진 질문은 정반대였습니다.

"VLA를 RTX 4090이나 A100 없이도 굴릴 수 있을까? 맥북에서, 라즈베리파이에서, 누구나 가진 디바이스에서?"

이건 단순히 작게 만드는 문제가 아닙니다. 누가 VLA를 쓸 수 있는가의 문제입니다. 거대 모델만 있으면 결국 큰 GPU를 가진 회사·연구실만 VLA를 쓸 수 있습니다. SmolVLA의 목표는 이 진입장벽을 한 번 더 낮추는 것입니다.

핵심 발상 — 작지만 잘 작동하는 VLA

SmolVLA의 사양은 다음과 같습니다.

  • 450M 파라미터 — OpenVLA의 1/15 크기.
  • SmolLM2 백본 — Hugging Face의 작은 LLM
  • CPU 추론 가능 — Apple M-series 맥북에서 실시간 작동
  • Open-X로 학습 + 자체 LeRobot 데이터셋

핵심 발상 — Asynchronous Inference

작은 모델이라도 휴머노이드처럼 200Hz를 요구하지는 않지만, 그래도 빠른 반응이 필요합니다. SmolVLA는 async inference라는 트릭을 사용합니다.

행동 chunk를 출력하는 동안, 다음 chunk를 미리 예측해 둡니다. 다음 chunk가 필요할 때 이미 준비되어 있어 대기 시간이 없습니다. 작은 모델이지만 추론 latency가 사용자에게는 0인 것처럼 보이게 됩니다.

LeRobot 생태계와의 결합

SmolVLA는 단독 모델이 아니라 LeRobot 라이브러리 의 핵심 모델로 등장했습니다. LeRobot은 Hugging Face가 만든 오픈 로봇 학습 라이브러리로, SO-101 같은 100~200달러대 저가 양팔 시스템을 함께 제공합니다.

  • SO-101 양팔 (~$300) + 맥북 + SmolVLA → 누구나 자기 책상에서 모방학습 실험 가능
  • LeRobot 데이터셋으로 시연 수집 → SmolVLA finetune → 자기 task 작동

이 조합이 만든 진입장벽은 거의 없는 수준입니다. 1년 전만 해도 VLA 실습은 H100이 필요한 작업이었습니다. 지금은 맥북과 SO-101만 있으면 됩니다.

VLA가 여기서 받은 것

SmolVLA는 분야의 풍경을 바꿨습니다.

  1. VLA 실습이 학부생도 할 수 있는 일이 됐습니다. 교육·취미·소규모 스타트업의 진입을 한 번 더 낮췄습니다.
  2. "작지만 잘 작동하는 VLA가 가능하다" 는 증명. 항상 거대 모델만이 답이 아니라는 메시지입니다.
  3. Hugging Face가 로봇 분야의 핵심 플레이어로 자리잡았습니다. LeRobot은 이제 VLA 실험의 사실상 표준 라이브러리입니다.

요점

SmolVLA는 "작은 모델 + 저가 하드웨어 + 오픈 라이브러리"로 VLA의 진입장벽을 한 번 더 낮춘 작업입니다.


정리 — 2025년의 풍경

이번 글의 네 작업이 보여주는 풍경은 한 줄로 요약하기 어렵습니다. 한 방향이 아니라 여러 방향으로 동시에 분화하고 있기 때문입니다.

작업누구방향
HelixFigure AI휴머노이드 산업 제품화 (비공개)
Gemini RoboticsGoogle DeepMind빅테크 차세대 SOTA (비공개)
GR00T N1NVIDIA휴머노이드 오픈 + 시뮬레이션 통합
SmolVLAHugging Face누구나 쓸 수 있는 작은 VLA

VLA 분야의 큰 흐름 정리

이 시리즈가 다룬 5단계의 흐름을 마지막으로 한 번 더 짚어봅니다.

단계시기키워드대표 작업
0. 배경2017~2021같은 형식의 토큰화Transformer, ViT, CLIP, DT
2-1. 모방학습 시작2021~2022task conditioning + 트랜스포머BC-Z, Gato, RT-1
2-2. 정밀 모방학습2023action chunking, diffusionACT, Diffusion Policy, Mobile ALOHA
3. VLA 등장2023거대 VLM의 인터넷 지식PaLM-E, RT-2, RoboCat
4. 오픈소스2024데이터·모델·코드 공개Open-X, Octo, OpenVLA, RDT-1B
5-1. 산업화2024~2025모듈 분리, flow matching, co-trainingπ₀, π₀-FAST, π₀.₅
5-2. 분화2025휴머노이드 / 빅테크 / 접근성Helix, Gemini Robotics, GR00T N1, SmolVLA

한 줄 요약

VLA는 2017년 Transformer 한 편에서 출발해 8년 만에 휴머노이드 전신 제어부터 맥북에서 도는 작은 모델까지 분화한, 매우 빠르게 자라고 있는 분야입니다.

이 시리즈를 처음부터 끝까지 따라오신 분이라면, 이제 어떤 VLA 논문을 만나도 그것이 어느 단계의 어떤 흐름에 속하는지 감을 잡으실 수 있을 겁니다. 새 논문이 나올 때마다 "이건 RT-2 계열인가, π 계열인가, dual-system인가"를 가늠하실 수 있다면, 이 시리즈의 목표는 충분히 달성된 것입니다.

직접 손으로 만져보고 싶으시다면, 이 글의 짝꿍 [실습] SmolVLA로 시작하기를 따라가 보시기 바랍니다. 읽기와 실습은 다른 종류의 이해를 줍니다.

읽어주셔서 감사합니다.


시리즈 전체