오픈소스가 따라잡다 — Open X-Embodiment, Octo, OpenVLA, RDT-1B

들어가며

지난 글에서는 PaLM-E, RT-2, RoboCat이 2023년에 VLA의 형태를 굳히는 과정을 봤습니다. 그런데 세 모델 모두 결정적 한계가 있었습니다 — 비공개.

코드도, weight도, 학습 데이터도 모두 Google과 DeepMind 안에서만 굴러갔습니다. 학계와 오픈소스 커뮤니티가 직접 검증하거나 확장하지 못하면 분야는 폐쇄됩니다. 그리고 거대 모델은 보통 거대 회사만 만들 수 있다는 인식이 굳어집니다.

2024년, 이 흐름을 뒤집는 움직임이 데이터·모델·코드 세 축에서 동시에 일어납니다.

Open X-Embodiment (2023) — 22개 기관이 데이터를 합쳐 만든 100만 trajectory 데이터셋
Octo (2024) — Open-X로 학습한 첫 generalist 오픈소스 정책
OpenVLA (2024) — RT-2를 사실상 복원한 7B 오픈 VLA. 코드·weight 전부 공개
RDT-1B (2024) — 1B 파라미터의 diffusion 기반 양팔 VLA

이 네 작업이 모이면서 VLA는 더 이상 거대 회사의 전유물이 아니게 됩니다. 누구나 다운받아 finetuning하고, 24GB GPU 한 장으로도 자기 task에 적용할 수 있게 됐습니다.

이 글은 VLA 학습 로드맵 시리즈의 다섯 번째 글입니다.

0. 알아두면 좋은 사전 용어

Foundation Model

거대 데이터로 사전학습되어, 다양한 다운스트림 task에 finetuning 또는 zero-shot으로 활용되는 일반 목적 모델입니다. NLP의 GPT, 비전의 CLIP, 그리고 이번 글의 OpenVLA가 로봇판 foundation model을 지향합니다.

LoRA (Low-Rank Adaptation)

거대 모델 전체를 finetune하지 않고, 각 가중치 행렬에 작은 저차원(rank) 보정 행렬만 추가로 학습하는 기법입니다. 학습 파라미터가 100~1000배 줄어 GPU 메모리도 그만큼 줄어듭니다. 7B 모델을 24GB GPU 한 장으로 finetune할 수 있게 해주는 결정적 트릭입니다.

Embodiment

로봇의 물리적 형태(팔의 길이, 관절 수, 그리퍼 종류, 카메라 배치 등). embodiment가 다르면 행동 공간 차원도, 관측 형식도 다릅니다.

Cross-embodiment Transfer

한 종류 로봇으로 학습한 능력이 다른 종류 로봇에서도 작동하는 현상입니다. 데이터 효율의 핵심으로, 이번 글의 모든 작업이 노리는 효과입니다.

1. Open X-Embodiment — 모두가 데이터를 합치다

📄 Open X-Embodiment: Robotic Learning Datasets and RT-X Models — Collaboration of 22 institutions, led by Google DeepMind & Stanford (2023)

어떤 문제를 풀려고 했나

2023년까지 로봇 데이터셋의 풍경은 이랬습니다 — 각 연구실이 자기 로봇으로 자기 데이터를 모아 자기 정책을 학습합니다. 데이터 형식도, 로봇도, task도 다 다르니 합치기가 어려웠습니다.

문제는 데이터 양입니다. 한 연구실이 모을 수 있는 시연은 잘해야 수만 trajectory. NLP가 인터넷 텍스트로 수조 토큰을 모은 것과 비교하면 처참한 양입니다.

저자들의 질문은 이랬습니다.

"전 세계 로봇 연구실의 데이터를 한 형식으로 합치면 어떨까? 그러면 어떤 일이 일어날까?"

핵심 발상 — 표준 데이터 형식 RLDS

22개 기관(Google, Stanford, UC Berkeley, MIT, Columbia 등)이 협력해 자기 데이터를 RLDS(Reinforcement Learning Datasets) 라는 통일된 형식으로 변환·공개했습니다. 결과는 다음과 같습니다.

100만 trajectory 이상
22종 로봇 (single arm, dual arm, quadruped, mobile manipulator 등)
527개 task
160,266개 task instruction

이 데이터셋이 공개되면서 누구나 한 줄 다운로드로 거대 로봇 데이터를 얻을 수 있게 됐습니다. 이건 NLP의 Common Crawl이 했던 역할과 비슷합니다.

Cross-Embodiment의 첫 증명 — RT-1-X, RT-2-X

저자들은 이 합쳐진 데이터로 RT-1과 RT-2를 다시 학습했습니다. 결과:

RT-1-X — Open-X로 학습한 RT-1이 각 데이터 출처의 specialist 정책보다 평균 50% 더 잘합니다. 다른 embodiment의 데이터가 자기 embodiment의 성능을 끌어올린 것입니다.
RT-2-X — RT-2도 비슷한 향상을 보이며, emergent skills(학습 데이터에 없던 행동 조합)이 더 풍부하게 나타납니다.

이건 NLP에서 본 패턴과 정확히 같습니다. 더 다양한 데이터 → 더 강한 일반화 → emergent capability. 로봇에서도 같은 법칙이 작동한다는 강력한 증거였습니다.

VLA가 여기서 받은 것

Open X-Embodiment 데이터셋은 이후 모든 오픈소스 VLA의 연료가 됩니다. Octo, OpenVLA, RDT-1B 모두 Open-X를 핵심 학습 데이터로 사용합니다. 이 데이터셋이 없었다면 학계 규모로는 generalist 정책을 학습할 자원 자체가 없었을 겁니다.

요점

Open X-Embodiment는 "흩어진 로봇 데이터를 한 형식으로 합친다"는 단순한 발상으로 분야의 데이터 병목을 풀었습니다.

2. Octo — Open-X로 학습한 첫 generalist 오픈소스

📄 Octo: An Open-Source Generalist Robot Policy — Octo Model Team, UC Berkeley·Stanford·CMU·DeepMind (2024)

어떤 문제를 풀려고 했나

Open-X 데이터셋이 풀렸으니, 이걸로 학습한 generalist 오픈소스 정책이 필요합니다. RT-X는 비공개였으므로, 학계가 자유롭게 연구할 첫 generalist가 필요한 시점이었습니다.

핵심 발상 — 작고 모듈화된 구조

Octo는 일부러 작게 만들어졌습니다 — 27M ~ 93M 파라미터. 7B의 OpenVLA에 비하면 100배 이하입니다. 왜 작게 만들었을까요?

연구 도구로 쓰일 수 있도록. 작은 모델은 학습·추론이 빨라 실험 cycle이 짧습니다.
다양한 환경에 적응성. Octo는 비전 인코더, 행동 head 등을 모듈로 갈아끼우기 쉽게 설계됐습니다.

핵심 발상 — Diffusion Action Head

Octo의 흥미로운 선택은 행동 출력을 diffusion으로 한 것입니다. 트랜스포머 backbone이 만든 표현 위에 작은 diffusion head를 붙여 연속 행동 시퀀스를 생성합니다.

이 선택의 동기는 지난 글에서 본 Diffusion Policy의 multimodal 강점을 generalist에서도 살리기 위함입니다. RT-2 계열의 discrete token 방식과 대비되는 결정입니다.

알아둘 용어 — Goal-conditioned vs Language-conditioned

Octo는 두 가지 task 지정 방식을 모두 지원합니다.

Language-conditioned — 자연어 instruction ("pick up the apple")으로 task 지정
Goal-conditioned — 목표 상태 이미지(예: 사과가 컵 안에 들어간 사진)로 task 지정

후자는 자연어로 표현하기 어려운 미세한 목표 상태를 명시할 때 유용합니다. 학습 시 두 방식을 함께 보면 모델이 더 robust해집니다.

VLA가 여기서 받은 것

Octo는 두 가지로 의미가 큽니다.

첫 본격 오픈소스 generalist 정책. 이후 모든 오픈 VLA 연구가 Octo를 baseline으로 비교합니다.
모듈화된 구조의 본보기. Octo의 코드는 매우 깔끔하게 모듈화되어 있어, 새 비전 인코더나 새 행동 head를 실험하는 기반이 됐습니다.

다만 Octo는 27~93M의 작은 모델이라 RT-2급의 emergent capability는 보이지 않았습니다. 거대 모델의 인터넷 지식을 갖춘 오픈 VLA는 다음 차례 OpenVLA를 기다려야 했습니다.

요점

Octo는 작고 깔끔한 첫 오픈소스 generalist입니다. emergent보다는 "연구의 기반"의 역할입니다.

3. OpenVLA — RT-2를 오픈소스로 복원하다

📄 OpenVLA: An Open-Source Vision-Language-Action Model — Kim 외, Stanford·UC Berkeley·Toyota Research·Google DeepMind·MIT (2024)

어떤 문제를 풀려고 했나

Octo가 생겼지만 작아서 emergent capability가 부족합니다. RT-2급의 거대 VLM 기반 VLA를 오픈으로 만들 수는 없을까?

OpenVLA 저자들의 답은 이랬습니다.

"RT-2의 청사진을 오픈 컴포넌트로 다시 만들자. Llama-2 + DINOv2/SigLIP + Open-X로."

핵심 발상 — 오픈 백본의 조립

OpenVLA의 구성 요소는 모두 공개된 모델입니다.

언어 백본 — Llama-2 7B (Meta가 공개한 LLM)
비전 인코더 — DINOv2 + SigLIP의 dual encoder
학습 데이터 — Open X-Embodiment의 970K trajectory
행동 출력 — RT-2와 같은 discrete token 양자화

알아둘 용어 — Dual Vision Encoder

OpenVLA가 쓴 비전 인코더는 두 개입니다.

DINOv2 — self-supervised로 학습된 ViT. 이미지의 기하·공간 정보에 강합니다.
SigLIP — CLIP의 후예. 이미지-언어 정렬에 강합니다.

두 인코더의 출력을 이어 붙여 LLM에 넣으면, 두 종류의 시각 표현이 상호 보완하며 더 풍부한 입력을 만듭니다. RT-2의 비공개 PaLI-X에 비견되는 성능을 오픈 컴포넌트로 끌어내는 핵심 트릭입니다.

핵심 발상 — LoRA로 24GB GPU에서 finetuning

7B 모델을 통째로 finetune하려면 보통 80GB H100 여러 장이 필요합니다. OpenVLA는 LoRA를 도입해 학습 가능한 파라미터를 0.1~1% 수준으로 줄여, RTX 4090 한 장(24GB) 만 있으면 자기 task에 finetune할 수 있게 했습니다.

이게 결정적이었습니다. 대학원생, 스타트업, 취미 개발자도 자기 로봇에 OpenVLA를 적용할 수 있게 된 거죠. 분야의 진입장벽이 한 번에 무너졌습니다.

알아둘 용어 — LoRA를 좀 더 자세히

LoRA의 발상은 단순합니다. 기존 가중치 행렬 W (예: 4096×4096)에 보정 ΔW를 더할 때, ΔW를 직접 학습하는 대신 두 개의 작은 행렬 A (4096×r)와 B (r×4096)의 곱으로 분해합니다 (보통 r = 8 또는 16).

학습되는 파라미터는 A와 B만이고, 원래 W는 그대로 둡니다. 4096×4096 = 16M 파라미터 대신 4096×16 + 16×4096 = 130K로 줄어듭니다. 100배 이상 절약입니다.

추론 시에는 ΔW = AB를 미리 계산해 W에 더해두면 추가 비용 없이 사용할 수 있습니다.

결과와 의의

OpenVLA는 RT-2-X와 비교 가능한 성능을 보이면서도 17배 작고 완전히 오픈입니다. 코드·weight·데이터·학습 스크립트·평가 환경 모두 공개. 분야 전체에 던진 영향이 컸습니다.

VLA가 여기서 받은 것

OpenVLA는 VLA를 진짜로 누구나의 도구로 만든 분기점입니다. 이 모델 이후로 학계와 오픈소스 프로젝트가 폭발적으로 늘었습니다. LeRobot 같은 라이브러리, SO-101 같은 저가 하드웨어, SmolVLA 같은 더 작은 모델 — 모두 OpenVLA가 만든 흐름 위에 올라가 있습니다.

요점

OpenVLA는 "오픈 컴포넌트로 RT-2급 VLA를 다시 만들 수 있다"는 것을 증명한 결정타입니다. LoRA로 진입장벽까지 낮춰 분야의 형태를 바꿨습니다.

4. RDT-1B — Diffusion 진영의 양팔 foundation model

📄 RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation — Liu 외, Tsinghua University (2024)

어떤 문제를 풀려고 했나

OpenVLA는 RT-2 계열의 discrete token 방식입니다. 한편 Diffusion Policy 계열도 generalist로 키울 수 있을까? 양팔 정밀 작업까지 가능할까?

칭화대 연구진의 답은 이랬습니다.

"1B 파라미터의 diffusion 기반 양팔 foundation model을 만들고, 다양한 양팔 데이터를 모아 학습하자."

핵심 발상 — Diffusion + Bimanual + Foundation

RDT-1B의 구성을 한눈에 보면 이렇습니다.

1.2B 파라미터 — OpenVLA의 ⅙ 정도. 그래도 diffusion 진영에서는 가장 큼.
Diffusion transformer 구조 — diffusion process 자체를 트랜스포머로 구현. (Stable Diffusion 3와 같은 계열)
양팔(bimanual) 특화 — 14차원 행동(양팔 7-DoF 각각)에 최적화된 행동 표현
다양한 양팔 데이터로 사전학습 — Open-X 양팔 부분 + 자체 수집한 6,000+ trajectory

알아둘 용어 — DiT (Diffusion Transformer)

Diffusion model의 noise 예측 네트워크로 U-Net 대신 트랜스포머를 쓰는 구조입니다. 이미지 생성에서 Stable Diffusion 3가 채택하면서 유명해졌고, 더 큰 규모로 잘 scale 한다는 특성이 있습니다. RDT-1B는 이 DiT를 행동 생성에 가져왔습니다.

알아둘 용어 — Unified Action Space

서로 다른 양팔 로봇의 행동을 한 통일 공간에 매핑하는 trick입니다. 각 로봇의 14차원 행동을 정해진 표준 14차원 공간(end-effector pose 기반)으로 변환해 학습합니다. 이렇게 하면 다른 양팔 로봇 데이터끼리 cross-embodiment transfer가 자연스럽게 일어납니다.

VLA가 여기서 받은 것

RDT-1B는 두 가지로 의미가 있습니다.

Diffusion 계열 foundation VLA의 첫 본격 사례. OpenVLA가 RT-2 계열의 깃발이라면, RDT-1B는 Diffusion 계열의 깃발입니다. 이 두 길이 이후 π₀로 결합·계승됩니다.
양팔 generalist의 가능성 제시. 정밀 양팔 작업까지 generalist가 가능하다는 증명을 미리 했습니다.

요점

RDT-1B는 "diffusion + 트랜스포머 + 양팔 + foundation"의 조합을 처음 본격적으로 보여준 논문입니다. 다음 단계 π 시리즈의 사촌 격입니다.

정리 — 오픈소스 운동의 도착점

이 한 해 동안 VLA가 모두의 것이 됐습니다.

작업	기여	누구의 손에 들어갔나
Open X-Embodiment	100만 trajectory 통합 데이터	모든 연구자가 한 줄로 다운로드
Octo	작고 모듈화된 generalist	baseline·교육용
OpenVLA	7B RT-2급 오픈 VLA + LoRA	24GB GPU만 있으면 누구나 finetune
RDT-1B	Diffusion 진영의 양팔 foundation	양팔 정밀 작업의 오픈 기준점

한 줄 요약

2024년의 오픈소스 운동이 VLA를 거대 회사의 전유물에서 모두의 도구로 바꿨습니다. LoRA 덕에 RTX 4090 한 장만 있어도 자기 로봇에 적용할 수 있게 됐습니다.

이제 마지막 무대로 갑니다 — 산업화. 학교에서 데모를 만들던 사람들이 회사를 차려 진짜 제품을 만들기 시작하는 시기입니다. 그 중심에 Physical Intelligence의 π 시리즈가 있습니다.

다음 글 안내

짝꿍 실습 → [실습] OpenVLA로 VLA 직접 만져보기
다음 글 → π 시리즈와 산업화의 시작 — π₀, π₀-FAST, π₀.₅
이전 글 → VLA가 정식으로 등장하다 — PaLM-E, RT-2, RoboCat
시리즈 전체 지도 → VLA 학습 로드맵