정밀 모방학습의 두 길 — ACT, Diffusion Policy, Mobile ALOHA

들어가며

지난 글에서는 BC-Z, Gato, RT-1을 통해 모방학습이 어떻게 트랜스포머와 손을 잡고 대규모로 자라났는지 봤습니다.

그런데 RT-1까지의 모방학습에는 두 가지 큰 숙제가 남아 있었습니다.

  1. 정밀한 양손 작업이 어렵습니다. RT-1의 11-DoF 행동을 256단계로 양자화하는 방식은 굵직한 동작에는 잘 통하지만, 셔츠 단추를 잠그거나 신발끈을 묶는 정밀 작업에는 양자화 오차가 너무 큽니다.
  2. 사람의 시연이 다양합니다. 같은 task("컵을 집어")라도 사람마다, 또는 같은 사람이라도 매번 다른 경로로 손이 움직입니다. 표준적인 BC는 이 다양한 시연을 평균낸 어색한 행동(두 경로의 가운데 어디쯤)을 출력해버립니다. 이걸 multimodal action distribution 문제라고 부릅니다.

이번 글에서 다룰 세 편의 논문이 바로 이 숙제를 정면으로 푸는 시도입니다.

  • ACT (2023) — Action Chunking과 CVAE로 정밀한 양손 작업을 가능하게 한 논문
  • Diffusion Policy (2023) — 이미지 생성에 쓰던 diffusion을 행동 생성에 가져온 논문
  • Mobile ALOHA (2024) — ALOHA 하드웨어에 바퀴를 달아 가사 작업까지 확장한 후속 연구

이 세 편은 모방학습을 "되긴 한다"의 단계에서 "꽤 쓸 만하다"의 단계로 끌어올린 핵심 작업입니다.

이 글은 VLA 학습 로드맵 시리즈의 세 번째 글입니다.


0. 알아두면 좋은 사전 용어

자유도 (DoF, Degrees of Freedom)

로봇이 독립적으로 움직일 수 있는 축의 수입니다. 7-DoF 팔이라고 하면 관절 7개를 따로 제어할 수 있다는 뜻입니다. 양팔 14-DoF에 그리퍼 2-DoF를 더하면 16차원 행동 공간이 됩니다.

Multimodal Distribution

한 분포 안에 여러 봉우리가 있는 분포입니다. 사람 시연 데이터는 거의 항상 multimodal입니다. 평균을 내면 봉우리 사이의 골짜기로 가버려 어색해집니다.

Receding Horizon Control

매 step마다 앞으로의 k step을 예측하지만, 그 중 처음 1~2 step만 실행하고 다음 step에서 다시 새로 예측하는 제어 방식입니다. 모델 예측 제어(MPC)에서 가져온 발상입니다.


1. ACT — Action Chunking으로 정밀 양손 작업을

📄 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware — Zhao 외, Stanford (2023)

어떤 문제를 풀려고 했나

Stanford의 Tony Zhao가 던진 질문은 이랬습니다.

"고가의 산업용 로봇 없이도, 저가 양팔 하드웨어와 사람 시연만으로 신발끈 묶기 같은 정밀 작업을 학습시킬 수 있을까?"

이 질문 안에 두 개의 챌린지가 들어 있습니다.

  1. 하드웨어 챌린지 — 한 대에 수천만 원 하는 산업용 로봇 대신, 1만 달러 미만의 저가 양팔 시스템(ALOHA)을 직접 만듭니다.
  2. 알고리즘 챌린지 — 작은 오차가 누적돼 폭주하는 covariate shift 문제, 그리고 정밀 작업의 양자화 오차 문제를 해결합니다.

ALOHA는 사람이 leader 팔 두 개를 직접 손으로 움직이면 follower 팔 두 개가 그대로 따라 움직이는 puppeteering 시스템입니다. 시연 수집이 빠르고 자연스러워, 50회 시연만으로도 task를 학습시킬 수 있는 데이터 효율을 만들어냈습니다.

핵심 발상 1 — Action Chunking

기존 BC는 "현재 관측 → 다음 1 step 행동"을 학습합니다. ACT는 이걸 바꿉니다.

"현재 관측 → 다음 k step 행동을 한꺼번에"

k는 보통 100 (50Hz 기준 약 2초). 즉 모델이 매번 100개의 행동을 한 번에 출력합니다. 이걸 action chunking이라 부릅니다.

이게 어떻게 covariate shift를 줄여주냐면, BC는 매 step 작은 오차를 누적시키며 분포 밖으로 흘러가는 게 문제였습니다. 여러 step을 한꺼번에 예측하면 "한 번 결정한 짧은 계획대로 일단 끝까지 실행"하는 효과가 생기죠. 모델이 매 step마다 결정을 내리지 않으니 오차가 쌓이는 패턴 자체가 달라집니다.

핵심 발상 2 — Temporal Ensembling

매 step마다 새로 100개를 예측하면, 시간 t에 대해 여러 번의 예측이 겹칩니다. (t-50 시점에서 예측한 t의 행동, t-49 시점의 예측, …, t 시점의 예측) ACT는 이 겹친 예측을 지수가중평균으로 합쳐 부드러운 행동을 만듭니다. 이게 temporal ensembling입니다.

이 트릭이 두 가지를 동시에 해결합니다 — 행동의 지터(jitter)를 줄이고, 잘못된 예측 한 번에 휘둘리지 않게 합니다.

핵심 발상 3 — CVAE로 시연의 다양성 흡수

같은 task에 대한 사람의 시연도 매번 조금씩 다릅니다. ACT는 이 다양성을 학습 시점에 CVAE(Conditional Variational AutoEncoder) 의 latent variable로 흡수합니다.

CVAE를 입문자 눈높이로 풀어보면 이렇습니다.

VAE(Variational AutoEncoder)

데이터를 잠재 변수(latent variable, z)라는 작은 벡터로 압축했다가 다시 복원하는 생성 모델입니다. z의 분포를 표준 정규분포에 맞추도록 학습해, 학습 후에는 z를 무작위로 뽑아 새로운 샘플을 생성할 수 있습니다.

CVAE

VAE에 조건(condition) c를 추가한 버전입니다. p(x | c, z) 형태로, "조건 c가 주어졌을 때 z에 따라 다양한 x를 생성"합니다.

ACT에서는 학습 시 시연의 행동 시퀀스를 z로 인코딩한 뒤, "관측 + z → 행동 시퀀스" 형태로 디코더를 학습합니다. 추론 시에는 z = 0으로 두고 가장 가능성 높은 행동만 뽑습니다. z를 학습 단계에서만 쓰는 일종의 "다양성 흡수 장치"인 셈입니다. 덕분에 평균 행동의 어색함을 피하면서, 추론은 단순하게 유지됩니다.

결과와 의의

ALOHA + ACT는 50회 시연만으로 신발 신기기, AAA 배터리 끼우기, 컵 쌓기 같은 정밀 양손 작업을 80~90% 성공률로 해냈습니다. 이전까지 "고가 시뮬레이션과 거대 데이터가 필요하다"고 여겨지던 정밀 모방학습이 갑자기 손에 잡히는 영역으로 들어왔습니다.

VLA가 여기서 받은 것

ACT의 두 핵심 — action chunkingk-step 예측 — 은 이후 거의 모든 VLA의 표준 옵션이 됩니다. π₀, OpenVLA-OFT 등이 다 chunk 기반 출력을 사용합니다. ACT가 없었다면 정밀 양손 VLA는 한참 더 늦었을 겁니다.

또 ALOHA 하드웨어 자체가 오픈소스가 되면서, 이후 모든 양팔 VLA 연구의 사실상 표준 플랫폼이 됐습니다.

요점

ACT는 "k step을 한꺼번에 예측해 covariate shift를 줄이고, CVAE로 시연 다양성을 흡수한다"는 두 트릭으로 정밀 모방학습의 문을 열었습니다.


2. Diffusion Policy — 행동 생성으로 다시 정의하다

📄 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion — Chi 외, Columbia·MIT·Toyota Research (2023)

어떤 문제를 풀려고 했나

ACT가 CVAE로 다양성을 흡수했다면, Diffusion Policy는 더 정면으로 질문을 던집니다.

"이미지 생성에서 잘 통한 diffusion model을 행동 생성에 그대로 가져오면 어떨까?"

핵심은 같은 multimodal 문제입니다. 사람 시연이 여러 모드를 가질 때, 그 분포 자체를 학습해서 샘플링 시 적절한 모드를 골라 출력하자는 것입니다.

핵심 발상 — Diffusion이 뭔가요

Diffusion model을 입문자 눈높이로 풀어보면 이렇습니다.

Diffusion Process

깨끗한 데이터 x_0에 단계적으로 노이즈를 더해 결국 완전한 가우시안 노이즈 x_T로 만드는 forward 과정과, 그 반대로 노이즈에서 데이터를 단계적으로 복원하는 reverse 과정의 쌍입니다.

학습

모델은 "현재 노이즈 낀 데이터 x_t와 단계 정보 t가 주어졌을 때, 어떤 노이즈가 섞여 있는지" 또는 "노이즈를 한 단계 제거한 결과"를 예측하도록 학습합니다.

샘플링

무작위 노이즈 x_T에서 시작해, 학습된 모델로 t = T → 0까지 점진적으로 노이즈를 제거해 나가면 데이터 x_0이 만들어집니다. Stable Diffusion 같은 이미지 생성 모델이 정확히 이 방식으로 작동합니다.

Diffusion Policy는 이 방식을 행동 시퀀스에 적용합니다.

각 denoise step은 신경망 한 번의 forward pass입니다. 보통 50~100 step 정도로 추론합니다. 모델은 1D U-Net 또는 트랜스포머 구조를 씁니다.

어떻게 multimodal이 자연스럽게 풀리는가

Diffusion model의 손실 함수는 "노이즈를 잘 예측해라"입니다. 평균을 강제하지 않습니다. 학습된 후 다른 noise 시드로 샘플링하면 다른 모드의 행동이 자연스럽게 튀어나옵니다. 사람이 시연한 여러 경로를 평균내지 않고, 각 경로를 따로 살리며 그 중 하나를 뽑는 것이라고 보시면 됩니다.

알아둘 용어 — Receding Horizon Control과의 결합

Diffusion Policy도 ACT처럼 한 번에 k step의 행동을 출력합니다. 그리고 그 중 처음 몇 step만 실행하고 다시 새 관측으로 새로 샘플링합니다. action chunking + receding horizon control 조합이 여기서도 쓰입니다.

알아둘 용어 — DDPM vs DDIM

Diffusion Policy 코드를 읽다 보면 DDPM(Denoising Diffusion Probabilistic Models)과 DDIM(Denoising Diffusion Implicit Models)이라는 이름이 자주 등장합니다.

  • DDPM — 원조 diffusion 알고리즘. 학습 시 사용됩니다.
  • DDIM — 추론 속도를 높이는 변종. 학습 시 100 step으로 했던 denoising을 추론 시 10~20 step으로 압축할 수 있게 해줍니다. 실시간 로봇 제어에서 거의 항상 DDIM을 씁니다.

결과와 의의

Diffusion Policy는 11개 task에서 state-of-the-art를 큰 폭으로 갱신했습니다. 특히 사람의 미세한 손목 회전이나 두 손이 협동하는 정교한 task에서 BC·BeT·LSTM-GMM 같은 기존 방법을 압도했습니다.

VLA가 여기서 받은 것

Diffusion Policy의 영향은 정말 깊고 넓습니다.

  • Octo (2024) — Diffusion Policy의 action head를 generalist 정책에 그대로 채택
  • RDT-1B (2024) — diffusion 기반의 1B 양팔 VLA
  • π₀ (2024) — diffusion의 사촌인 flow matching을 action expert에 사용

VLA 분야에서 "행동을 어떻게 출력할 것인가"의 답은 크게 두 흐름으로 갈리는데, 하나가 RT-1·RT-2·OpenVLA의 discrete token 방식이고 다른 하나가 Diffusion Policy의 직계인 denoising / flow 방식입니다. 후자의 출발점이 바로 이 논문입니다.

요점

Diffusion Policy는 "행동 분포 자체를 생성 모델로 학습한다"는 발상을 모방학습에 처음 본격적으로 도입한 논문입니다.


3. Mobile ALOHA — 가사 작업까지 데려가다

📄 Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation — Fu 외, Stanford (2024)

어떤 문제를 풀려고 했나

ALOHA는 책상 위 작업에 한정됐습니다. 그런데 사람의 일상은 책상 위에서만 일어나지 않습니다 — 부엌에서 새우를 볶고, 거실 의자를 옮기고, 엘리베이터 버튼을 누릅니다. 이런 mobile manipulation(이동하면서 조작)으로 모방학습을 확장하려면 새로운 하드웨어와 새로운 데이터 수집 방법이 필요합니다.

핵심 발상 — Whole-Body Teleoperation

Mobile ALOHA는 ALOHA 양팔 시스템에 바퀴 베이스를 달고, 사람이 양팔을 puppeteering 하는 동안 발로 베이스 이동까지 제어할 수 있게 만들었습니다. 상반신과 하반신을 한 사람이 동시에 시연하는 시스템이죠.

이 한 가지 변경이 데이터 수집의 차원을 바꿔놓습니다. 이제 부엌을 돌아다니며 새우를 볶는 것 같은 long-horizon mobile task도 자연스럽게 시연할 수 있게 됐습니다.

핵심 발상 — Co-training

Mobile ALOHA는 정책 학습에서 또 한 가지 중요한 트릭을 보여줍니다. 기존 ALOHA의 정적 task 데이터와 새로 수집한 mobile task 데이터를 함께 학습(co-training) 하는 것입니다.

새 task의 데이터는 보통 적은데(~50회), 기존 데이터를 함께 보면 정적 양팔 조작에 대한 사전 지식이 새 task에도 전이됩니다. Mobile ALOHA는 50회 시연만으로 새우 볶기, 의자 옮기기 같은 작업을 90% 성공률로 해냈습니다.

VLA가 여기서 받은 것

Mobile ALOHA의 영향은 두 가지입니다.

  1. 데이터 수집의 패러다임을 확장했습니다. 모방학습이 더 이상 책상 위 작업에 갇힌 분야가 아니라는 것을 보여줬습니다.
  2. co-training이라는 트릭이 이후 π₀.₅의 핵심 학습 전략 중 하나가 됩니다. 한 모델 안에 다양한 출처의 데이터를 함께 부어 일반화를 끌어내는 방식이 표준이 되어 갑니다.

또 SNS에서 Mobile ALOHA가 새우를 볶는 영상이 화제가 되면서, "모방학습이 진짜 가능하구나"의 공감대를 일반 대중까지 넓힌 시점이기도 합니다.

요점

Mobile ALOHA는 ALOHA를 mobile로 확장하면서, co-training이라는 다음 단계로 가는 학습 전략까지 함께 제시한 논문입니다.


정리 — 모방학습의 두 길

이 시기 모방학습에서 "행동을 어떻게 출력할 것인가"에 대한 답이 둘로 갈라집니다.

접근대표 모델핵심 발상장단점
Action Chunking + 회귀ACTk step 행동을 한 번에, CVAE로 다양성 흡수추론이 빠름, multimodal은 약함
Diffusion / GenerationDiffusion Policy행동 분포 자체를 생성 모델로 학습multimodal에 강함, 추론이 느림

이후 VLA들은 두 길을 다양하게 변주합니다. RT-2·OpenVLA는 ACT 계열을 변형한 discrete token 방식, π₀·RDT-1B는 Diffusion Policy 계열을 변형한 generation 방식입니다.

한 줄 요약

이 시기에 모방학습은 "정밀하게 만든다"와 "행동 분포를 잘 표현한다"는 두 숙제를 동시에 풀었고, 그 답이 오늘날 VLA의 두 갈래 길이 됐습니다.

이제 무대가 한 번 더 바뀝니다. 다음 글에서는 이 모방학습의 토대 위에 거대 VLM의 인터넷 지식이 합류하면서 본격적으로 "VLA"라는 이름이 자리잡는 순간을 살펴봅니다.


다음 글 안내