오픈소스가 따라잡다 — Open X-Embodiment, Octo, OpenVLA, RDT-1B

들어가며

지난 글에서는 PaLM-E, RT-2, RoboCat이 2023년에 VLA의 형태를 굳히는 과정을 봤습니다. 그런데 세 모델 모두 결정적 한계가 있었습니다 — 비공개.

코드도, weight도, 학습 데이터도 모두 Google과 DeepMind 안에서만 굴러갔습니다. 학계와 오픈소스 커뮤니티가 직접 검증하거나 확장하지 못하면 분야는 폐쇄됩니다. 그리고 거대 모델은 보통 거대 회사만 만들 수 있다는 인식이 굳어집니다.

2024년, 이 흐름을 뒤집는 움직임이 데이터·모델·코드 세 축에서 동시에 일어납니다.

  • Open X-Embodiment (2023) — 22개 기관이 데이터를 합쳐 만든 100만 trajectory 데이터셋
  • Octo (2024) — Open-X로 학습한 첫 generalist 오픈소스 정책
  • OpenVLA (2024) — RT-2를 사실상 복원한 7B 오픈 VLA. 코드·weight 전부 공개
  • RDT-1B (2024) — 1B 파라미터의 diffusion 기반 양팔 VLA

이 네 작업이 모이면서 VLA는 더 이상 거대 회사의 전유물이 아니게 됩니다. 누구나 다운받아 finetuning하고, 24GB GPU 한 장으로도 자기 task에 적용할 수 있게 됐습니다.

이 글은 VLA 학습 로드맵 시리즈의 다섯 번째 글입니다.


0. 알아두면 좋은 사전 용어

Foundation Model

거대 데이터로 사전학습되어, 다양한 다운스트림 task에 finetuning 또는 zero-shot으로 활용되는 일반 목적 모델입니다. NLP의 GPT, 비전의 CLIP, 그리고 이번 글의 OpenVLA가 로봇판 foundation model을 지향합니다.

LoRA (Low-Rank Adaptation)

거대 모델 전체를 finetune하지 않고, 각 가중치 행렬에 작은 저차원(rank) 보정 행렬만 추가로 학습하는 기법입니다. 학습 파라미터가 100~1000배 줄어 GPU 메모리도 그만큼 줄어듭니다. 7B 모델을 24GB GPU 한 장으로 finetune할 수 있게 해주는 결정적 트릭입니다.

Embodiment

로봇의 물리적 형태(팔의 길이, 관절 수, 그리퍼 종류, 카메라 배치 등). embodiment가 다르면 행동 공간 차원도, 관측 형식도 다릅니다.

Cross-embodiment Transfer

한 종류 로봇으로 학습한 능력이 다른 종류 로봇에서도 작동하는 현상입니다. 데이터 효율의 핵심으로, 이번 글의 모든 작업이 노리는 효과입니다.


1. Open X-Embodiment — 모두가 데이터를 합치다

📄 Open X-Embodiment: Robotic Learning Datasets and RT-X Models — Collaboration of 22 institutions, led by Google DeepMind & Stanford (2023)

어떤 문제를 풀려고 했나

2023년까지 로봇 데이터셋의 풍경은 이랬습니다 — 각 연구실이 자기 로봇으로 자기 데이터를 모아 자기 정책을 학습합니다. 데이터 형식도, 로봇도, task도 다 다르니 합치기가 어려웠습니다.

문제는 데이터 양입니다. 한 연구실이 모을 수 있는 시연은 잘해야 수만 trajectory. NLP가 인터넷 텍스트로 수조 토큰을 모은 것과 비교하면 처참한 양입니다.

저자들의 질문은 이랬습니다.

"전 세계 로봇 연구실의 데이터를 한 형식으로 합치면 어떨까? 그러면 어떤 일이 일어날까?"

핵심 발상 — 표준 데이터 형식 RLDS

22개 기관(Google, Stanford, UC Berkeley, MIT, Columbia 등)이 협력해 자기 데이터를 RLDS(Reinforcement Learning Datasets) 라는 통일된 형식으로 변환·공개했습니다. 결과는 다음과 같습니다.

  • 100만 trajectory 이상
  • 22종 로봇 (single arm, dual arm, quadruped, mobile manipulator 등)
  • 527개 task
  • 160,266개 task instruction

이 데이터셋이 공개되면서 누구나 한 줄 다운로드로 거대 로봇 데이터를 얻을 수 있게 됐습니다. 이건 NLP의 Common Crawl이 했던 역할과 비슷합니다.

Cross-Embodiment의 첫 증명 — RT-1-X, RT-2-X

저자들은 이 합쳐진 데이터로 RT-1과 RT-2를 다시 학습했습니다. 결과:

  • RT-1-X — Open-X로 학습한 RT-1이 각 데이터 출처의 specialist 정책보다 평균 50% 더 잘합니다. 다른 embodiment의 데이터가 자기 embodiment의 성능을 끌어올린 것입니다.
  • RT-2-X — RT-2도 비슷한 향상을 보이며, emergent skills(학습 데이터에 없던 행동 조합)이 더 풍부하게 나타납니다.

이건 NLP에서 본 패턴과 정확히 같습니다. 더 다양한 데이터 → 더 강한 일반화 → emergent capability. 로봇에서도 같은 법칙이 작동한다는 강력한 증거였습니다.

VLA가 여기서 받은 것

Open X-Embodiment 데이터셋은 이후 모든 오픈소스 VLA의 연료가 됩니다. Octo, OpenVLA, RDT-1B 모두 Open-X를 핵심 학습 데이터로 사용합니다. 이 데이터셋이 없었다면 학계 규모로는 generalist 정책을 학습할 자원 자체가 없었을 겁니다.

요점

Open X-Embodiment는 "흩어진 로봇 데이터를 한 형식으로 합친다"는 단순한 발상으로 분야의 데이터 병목을 풀었습니다.


2. Octo — Open-X로 학습한 첫 generalist 오픈소스

📄 Octo: An Open-Source Generalist Robot Policy — Octo Model Team, UC Berkeley·Stanford·CMU·DeepMind (2024)

어떤 문제를 풀려고 했나

Open-X 데이터셋이 풀렸으니, 이걸로 학습한 generalist 오픈소스 정책이 필요합니다. RT-X는 비공개였으므로, 학계가 자유롭게 연구할 첫 generalist가 필요한 시점이었습니다.

핵심 발상 — 작고 모듈화된 구조

Octo는 일부러 작게 만들어졌습니다 — 27M ~ 93M 파라미터. 7B의 OpenVLA에 비하면 100배 이하입니다. 왜 작게 만들었을까요?

  1. 연구 도구로 쓰일 수 있도록. 작은 모델은 학습·추론이 빨라 실험 cycle이 짧습니다.
  2. 다양한 환경에 적응성. Octo는 비전 인코더, 행동 head 등을 모듈로 갈아끼우기 쉽게 설계됐습니다.

핵심 발상 — Diffusion Action Head

Octo의 흥미로운 선택은 행동 출력을 diffusion으로 한 것입니다. 트랜스포머 backbone이 만든 표현 위에 작은 diffusion head를 붙여 연속 행동 시퀀스를 생성합니다.

이 선택의 동기는 지난 글에서 본 Diffusion Policy의 multimodal 강점을 generalist에서도 살리기 위함입니다. RT-2 계열의 discrete token 방식과 대비되는 결정입니다.

알아둘 용어 — Goal-conditioned vs Language-conditioned

Octo는 두 가지 task 지정 방식을 모두 지원합니다.

  • Language-conditioned — 자연어 instruction ("pick up the apple")으로 task 지정
  • Goal-conditioned — 목표 상태 이미지(예: 사과가 컵 안에 들어간 사진)로 task 지정

후자는 자연어로 표현하기 어려운 미세한 목표 상태를 명시할 때 유용합니다. 학습 시 두 방식을 함께 보면 모델이 더 robust해집니다.

VLA가 여기서 받은 것

Octo는 두 가지로 의미가 큽니다.

  1. 첫 본격 오픈소스 generalist 정책. 이후 모든 오픈 VLA 연구가 Octo를 baseline으로 비교합니다.
  2. 모듈화된 구조의 본보기. Octo의 코드는 매우 깔끔하게 모듈화되어 있어, 새 비전 인코더나 새 행동 head를 실험하는 기반이 됐습니다.

다만 Octo는 27~93M의 작은 모델이라 RT-2급의 emergent capability는 보이지 않았습니다. 거대 모델의 인터넷 지식을 갖춘 오픈 VLA는 다음 차례 OpenVLA를 기다려야 했습니다.

요점

Octo는 작고 깔끔한 첫 오픈소스 generalist입니다. emergent보다는 "연구의 기반"의 역할입니다.


3. OpenVLA — RT-2를 오픈소스로 복원하다

📄 OpenVLA: An Open-Source Vision-Language-Action Model — Kim 외, Stanford·UC Berkeley·Toyota Research·Google DeepMind·MIT (2024)

어떤 문제를 풀려고 했나

Octo가 생겼지만 작아서 emergent capability가 부족합니다. RT-2급의 거대 VLM 기반 VLA를 오픈으로 만들 수는 없을까?

OpenVLA 저자들의 답은 이랬습니다.

"RT-2의 청사진을 오픈 컴포넌트로 다시 만들자. Llama-2 + DINOv2/SigLIP + Open-X로."

핵심 발상 — 오픈 백본의 조립

OpenVLA의 구성 요소는 모두 공개된 모델입니다.

  • 언어 백본 — Llama-2 7B (Meta가 공개한 LLM)
  • 비전 인코더 — DINOv2 + SigLIP의 dual encoder
  • 학습 데이터 — Open X-Embodiment의 970K trajectory
  • 행동 출력 — RT-2와 같은 discrete token 양자화

알아둘 용어 — Dual Vision Encoder

OpenVLA가 쓴 비전 인코더는 두 개입니다.

  • DINOv2 — self-supervised로 학습된 ViT. 이미지의 기하·공간 정보에 강합니다.
  • SigLIP — CLIP의 후예. 이미지-언어 정렬에 강합니다.

두 인코더의 출력을 이어 붙여 LLM에 넣으면, 두 종류의 시각 표현이 상호 보완하며 더 풍부한 입력을 만듭니다. RT-2의 비공개 PaLI-X에 비견되는 성능을 오픈 컴포넌트로 끌어내는 핵심 트릭입니다.

핵심 발상 — LoRA로 24GB GPU에서 finetuning

7B 모델을 통째로 finetune하려면 보통 80GB H100 여러 장이 필요합니다. OpenVLA는 LoRA를 도입해 학습 가능한 파라미터를 0.1~1% 수준으로 줄여, RTX 4090 한 장(24GB) 만 있으면 자기 task에 finetune할 수 있게 했습니다.

이게 결정적이었습니다. 대학원생, 스타트업, 취미 개발자도 자기 로봇에 OpenVLA를 적용할 수 있게 된 거죠. 분야의 진입장벽이 한 번에 무너졌습니다.

알아둘 용어 — LoRA를 좀 더 자세히

LoRA의 발상은 단순합니다. 기존 가중치 행렬 W (예: 4096×4096)에 보정 ΔW를 더할 때, ΔW를 직접 학습하는 대신 두 개의 작은 행렬 A (4096×r)와 B (r×4096)의 곱으로 분해합니다 (보통 r = 8 또는 16).

학습되는 파라미터는 A와 B만이고, 원래 W는 그대로 둡니다. 4096×4096 = 16M 파라미터 대신 4096×16 + 16×4096 = 130K로 줄어듭니다. 100배 이상 절약입니다.

추론 시에는 ΔW = AB를 미리 계산해 W에 더해두면 추가 비용 없이 사용할 수 있습니다.

결과와 의의

OpenVLA는 RT-2-X와 비교 가능한 성능을 보이면서도 17배 작고 완전히 오픈입니다. 코드·weight·데이터·학습 스크립트·평가 환경 모두 공개. 분야 전체에 던진 영향이 컸습니다.

VLA가 여기서 받은 것

OpenVLA는 VLA를 진짜로 누구나의 도구로 만든 분기점입니다. 이 모델 이후로 학계와 오픈소스 프로젝트가 폭발적으로 늘었습니다. LeRobot 같은 라이브러리, SO-101 같은 저가 하드웨어, SmolVLA 같은 더 작은 모델 — 모두 OpenVLA가 만든 흐름 위에 올라가 있습니다.

요점

OpenVLA는 "오픈 컴포넌트로 RT-2급 VLA를 다시 만들 수 있다"는 것을 증명한 결정타입니다. LoRA로 진입장벽까지 낮춰 분야의 형태를 바꿨습니다.


4. RDT-1B — Diffusion 진영의 양팔 foundation model

📄 RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation — Liu 외, Tsinghua University (2024)

어떤 문제를 풀려고 했나

OpenVLA는 RT-2 계열의 discrete token 방식입니다. 한편 Diffusion Policy 계열도 generalist로 키울 수 있을까? 양팔 정밀 작업까지 가능할까?

칭화대 연구진의 답은 이랬습니다.

"1B 파라미터의 diffusion 기반 양팔 foundation model을 만들고, 다양한 양팔 데이터를 모아 학습하자."

핵심 발상 — Diffusion + Bimanual + Foundation

RDT-1B의 구성을 한눈에 보면 이렇습니다.

  • 1.2B 파라미터 — OpenVLA의 ⅙ 정도. 그래도 diffusion 진영에서는 가장 큼.
  • Diffusion transformer 구조 — diffusion process 자체를 트랜스포머로 구현. (Stable Diffusion 3와 같은 계열)
  • 양팔(bimanual) 특화 — 14차원 행동(양팔 7-DoF 각각)에 최적화된 행동 표현
  • 다양한 양팔 데이터로 사전학습 — Open-X 양팔 부분 + 자체 수집한 6,000+ trajectory

알아둘 용어 — DiT (Diffusion Transformer)

Diffusion model의 noise 예측 네트워크로 U-Net 대신 트랜스포머를 쓰는 구조입니다. 이미지 생성에서 Stable Diffusion 3가 채택하면서 유명해졌고, 더 큰 규모로 잘 scale 한다는 특성이 있습니다. RDT-1B는 이 DiT를 행동 생성에 가져왔습니다.

알아둘 용어 — Unified Action Space

서로 다른 양팔 로봇의 행동을 한 통일 공간에 매핑하는 trick입니다. 각 로봇의 14차원 행동을 정해진 표준 14차원 공간(end-effector pose 기반)으로 변환해 학습합니다. 이렇게 하면 다른 양팔 로봇 데이터끼리 cross-embodiment transfer가 자연스럽게 일어납니다.

VLA가 여기서 받은 것

RDT-1B는 두 가지로 의미가 있습니다.

  1. Diffusion 계열 foundation VLA의 첫 본격 사례. OpenVLA가 RT-2 계열의 깃발이라면, RDT-1B는 Diffusion 계열의 깃발입니다. 이 두 길이 이후 π₀로 결합·계승됩니다.
  2. 양팔 generalist의 가능성 제시. 정밀 양팔 작업까지 generalist가 가능하다는 증명을 미리 했습니다.

요점

RDT-1B는 "diffusion + 트랜스포머 + 양팔 + foundation"의 조합을 처음 본격적으로 보여준 논문입니다. 다음 단계 π 시리즈의 사촌 격입니다.


정리 — 오픈소스 운동의 도착점

이 한 해 동안 VLA가 모두의 것이 됐습니다.

작업기여누구의 손에 들어갔나
Open X-Embodiment100만 trajectory 통합 데이터모든 연구자가 한 줄로 다운로드
Octo작고 모듈화된 generalistbaseline·교육용
OpenVLA7B RT-2급 오픈 VLA + LoRA24GB GPU만 있으면 누구나 finetune
RDT-1BDiffusion 진영의 양팔 foundation양팔 정밀 작업의 오픈 기준점

한 줄 요약

2024년의 오픈소스 운동이 VLA를 거대 회사의 전유물에서 모두의 도구로 바꿨습니다. LoRA 덕에 RTX 4090 한 장만 있어도 자기 로봇에 적용할 수 있게 됐습니다.

이제 마지막 무대로 갑니다 — 산업화. 학교에서 데모를 만들던 사람들이 회사를 차려 진짜 제품을 만들기 시작하는 시기입니다. 그 중심에 Physical Intelligence의 π 시리즈가 있습니다.


다음 글 안내