정밀 모방학습의 두 길 — ACT, Diffusion Policy, Mobile ALOHA

들어가며

지난 글에서는 BC-Z, Gato, RT-1을 통해 모방학습이 어떻게 트랜스포머와 손을 잡고 대규모로 자라났는지 봤습니다.

그런데 RT-1까지의 모방학습에는 두 가지 큰 숙제가 남아 있었습니다.

  1. 정밀한 양손 작업이 어렵습니다. RT-1의 11-DoF 행동을 256단계로 양자화하는 방식은 굵직한 동작에는 잘 통하지만, 셔츠 단추를 잠그거나 신발끈을 묶는 정밀 작업에는 양자화 오차가 너무 큽니다.
  2. 사람의 시연이 다양합니다. 같은 task("컵을 집어")라도 사람마다, 또는 같은 사람이라도 매번 다른 경로로 손이 움직입니다. 표준적인 BC는 이 다양한 시연을 평균낸 어색한 행동(두 경로의 가운데 어디쯤)을 출력해버립니다. 이걸 multimodal action distribution 문제라고 부릅니다.

이번 글에서 다룰 세 편의 논문이 바로 이 숙제를 정면으로 푸는 시도입니다.

  • ACT (2023) — Action Chunking과 CVAE로 정밀한 양손 작업을 가능하게 한 논문
  • Diffusion Policy (2023) — 이미지 생성에 쓰던 diffusion을 행동 생성에 가져온 논문
  • Mobile ALOHA (2024) — ALOHA 하드웨어에 바퀴를 달아 가사 작업까지 확장한 후속 연구

이 세 편은 모방학습을 "되긴 한다"의 단계에서 "꽤 쓸 만하다"의 단계로 끌어올린 핵심 작업입니다.

이 글은 VLA 학습 로드맵 시리즈의 세 번째 글입니다.


0. 알아두면 좋은 사전 용어


1. ACT — Action Chunking으로 정밀 양손 작업을

📄 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware — Zhao 외, Stanford (2023)

어떤 문제를 풀려고 했나

Stanford의 Tony Zhao가 던진 질문은 이랬습니다.

"고가의 산업용 로봇 없이도, 저가 양팔 하드웨어와 사람 시연만으로 신발끈 묶기 같은 정밀 작업을 학습시킬 수 있을까?"

이 질문 안에 두 개의 챌린지가 들어 있습니다.

  1. 하드웨어 챌린지 — 한 대에 수천만 원 하는 산업용 로봇 대신, 1만 달러 미만의 저가 양팔 시스템(ALOHA)을 직접 만듭니다.
  2. 알고리즘 챌린지 — 작은 오차가 누적돼 폭주하는 covariate shift 문제, 그리고 정밀 작업의 양자화 오차 문제를 해결합니다.

ALOHA는 사람이 leader 팔 두 개를 직접 손으로 움직이면 follower 팔 두 개가 그대로 따라 움직이는 puppeteering 시스템입니다. 시연 수집이 빠르고 자연스러워, 50회 시연만으로도 task를 학습시킬 수 있는 데이터 효율을 만들어냈습니다.

핵심 발상 1 — Action Chunking

기존 BC는 "현재 관측 → 다음 1 step 행동"을 학습합니다. ACT는 이걸 바꿉니다.

"현재 관측 → 다음 k step 행동을 한꺼번에"

k는 보통 100 (50Hz 기준 약 2초). 즉 모델이 매번 100개의 행동을 한 번에 출력합니다. 이걸 action chunking이라 부릅니다.

이게 어떻게 covariate shift를 줄여주냐면, BC는 매 step 작은 오차를 누적시키며 분포 밖으로 흘러가는 게 문제였습니다. 여러 step을 한꺼번에 예측하면 "한 번 결정한 짧은 계획대로 일단 끝까지 실행"하는 효과가 생기죠. 모델이 매 step마다 결정을 내리지 않으니 오차가 쌓이는 패턴 자체가 달라집니다.

핵심 발상 2 — Temporal Ensembling

매 step마다 새로 100개를 예측하면, 시간 t에 대해 여러 번의 예측이 겹칩니다. (t-50 시점에서 예측한 t의 행동, t-49 시점의 예측, …, t 시점의 예측) ACT는 이 겹친 예측을 지수가중평균으로 합쳐 부드러운 행동을 만듭니다. 이게 temporal ensembling입니다.

이 트릭이 두 가지를 동시에 해결합니다 — 행동의 지터(jitter)를 줄이고, 잘못된 예측 한 번에 휘둘리지 않게 합니다.

핵심 발상 3 — CVAE로 시연의 다양성 흡수

같은 task에 대한 사람의 시연도 매번 조금씩 다릅니다. ACT는 이 다양성을 학습 시점에 CVAE(Conditional Variational AutoEncoder) 의 latent variable로 흡수합니다.

CVAE를 입문자 눈높이로 풀어보면 이렇습니다.

ACT에서는 학습 시 시연의 행동 시퀀스를 z로 인코딩한 뒤, "관측 + z → 행동 시퀀스" 형태로 디코더를 학습합니다. 추론 시에는 z = 0으로 두고 가장 가능성 높은 행동만 뽑습니다. z를 학습 단계에서만 쓰는 일종의 "다양성 흡수 장치"인 셈입니다. 덕분에 평균 행동의 어색함을 피하면서, 추론은 단순하게 유지됩니다.

결과와 의의

ALOHA + ACT는 50회 시연만으로 신발 신기기, AAA 배터리 끼우기, 컵 쌓기 같은 정밀 양손 작업을 80~90% 성공률로 해냈습니다. 이전까지 "고가 시뮬레이션과 거대 데이터가 필요하다"고 여겨지던 정밀 모방학습이 갑자기 손에 잡히는 영역으로 들어왔습니다.

VLA가 여기서 받은 것

ACT의 두 핵심 — action chunkingk-step 예측 — 은 이후 거의 모든 VLA의 표준 옵션이 됩니다. π₀, OpenVLA-OFT 등이 다 chunk 기반 출력을 사용합니다. ACT가 없었다면 정밀 양손 VLA는 한참 더 늦었을 겁니다.

또 ALOHA 하드웨어 자체가 오픈소스가 되면서, 이후 모든 양팔 VLA 연구의 사실상 표준 플랫폼이 됐습니다.

요점

ACT는 "k step을 한꺼번에 예측해 covariate shift를 줄이고, CVAE로 시연 다양성을 흡수한다"는 두 트릭으로 정밀 모방학습의 문을 열었습니다.


2. Diffusion Policy — 행동 생성으로 다시 정의하다

📄 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion — Chi 외, Columbia·MIT·Toyota Research (2023)

어떤 문제를 풀려고 했나

ACT가 CVAE로 다양성을 흡수했다면, Diffusion Policy는 더 정면으로 질문을 던집니다.

"이미지 생성에서 잘 통한 diffusion model을 행동 생성에 그대로 가져오면 어떨까?"

핵심은 같은 multimodal 문제입니다. 사람 시연이 여러 모드를 가질 때, 그 분포 자체를 학습해서 샘플링 시 적절한 모드를 골라 출력하자는 것입니다.

핵심 발상 — Diffusion이 뭔가요

Diffusion model을 입문자 눈높이로 풀어보면 이렇습니다.

Diffusion Policy는 이 방식을 행동 시퀀스에 적용합니다.

각 denoise step은 신경망 한 번의 forward pass입니다. 보통 50~100 step 정도로 추론합니다. 모델은 1D U-Net 또는 트랜스포머 구조를 씁니다.

알아둘 용어 — U-Net과 1D U-Net

U-Net은 의료 영상 분할용으로 2015년 등장한 신경망 구조로, 이름 그대로 U자 모양입니다. 입력을 점점 작은 해상도로 압축(downsample)했다가 다시 원래 크기로 펼치며(upsample), 같은 해상도의 압축·복원 단계 사이에 직접 연결(skip connection)을 두는 게 핵심입니다. Stable Diffusion 같은 이미지 diffusion 모델의 표준 구조이기도 합니다.

1D U-Net은 이걸 1차원 시퀀스에 맞춰 변형한 버전입니다. 행동 시퀀스(예: T 시점 × N 차원의 시간축 데이터)를 시간 방향으로 압축·복원합니다. 시간적으로 가까운 행동들이 서로 영향을 주고받는 구조라, 부드러운 행동 시퀀스 생성에 잘 맞습니다.

어떻게 multimodal이 자연스럽게 풀리는가

Diffusion model의 손실 함수는 "노이즈를 잘 예측해라"입니다. 평균을 강제하지 않습니다. 학습된 후 다른 noise 시드로 샘플링하면 다른 모드의 행동이 자연스럽게 튀어나옵니다. 사람이 시연한 여러 경로를 평균내지 않고, 각 경로를 따로 살리며 그 중 하나를 뽑는 것이라고 보시면 됩니다.

알아둘 용어 — Receding Horizon Control과의 결합

Diffusion Policy도 ACT처럼 한 번에 k step의 행동을 출력합니다. 그리고 그 중 처음 몇 step만 실행하고 다시 새 관측으로 새로 샘플링합니다. action chunking + receding horizon control 조합이 여기서도 쓰입니다.

알아둘 용어 — DDPM vs DDIM

Diffusion Policy 코드를 읽다 보면 DDPM(Denoising Diffusion Probabilistic Models)과 DDIM(Denoising Diffusion Implicit Models)이라는 이름이 자주 등장합니다.

  • DDPM — 원조 diffusion 알고리즘. 학습 시 사용됩니다.
  • DDIM — 추론 속도를 높이는 변종. 학습 시 100 step으로 했던 denoising을 추론 시 10~20 step으로 압축할 수 있게 해줍니다. 실시간 로봇 제어에서 거의 항상 DDIM을 씁니다.

알아둘 용어 — BeT와 LSTM-GMM

논문이 비교한 두 baseline을 짚어 둡니다.

  • BeT (Behavior Transformer) — 2022년 NYU·Meta가 발표한 모델. 행동을 k개 클러스터로 묶어 "어느 클러스터의 행동인지(분류) + 클러스터 내 미세 보정(회귀)"의 두 단계로 출력합니다. 평균 행동의 어색함을 클러스터 단위로 푸는 한 시도입니다.
  • LSTM-GMM — LSTM(시계열 신경망)이 행동을 출력하되, 단일 평균 대신 여러 가우시안의 혼합(Gaussian Mixture Model)을 출력해 multimodal을 표현하는 방식입니다.

두 방법 모두 multimodal에 신경 썼지만, 실제 정밀 작업에서는 분포를 직접 학습하는 diffusion에 미치지 못했습니다.

결과와 의의

Diffusion Policy는 11개 task에서 state-of-the-art를 큰 폭으로 갱신했습니다. 특히 사람의 미세한 손목 회전이나 두 손이 협동하는 정교한 task에서 BC·BeT·LSTM-GMM 같은 기존 방법을 압도했습니다.

VLA가 여기서 받은 것

Diffusion Policy의 영향은 정말 깊고 넓습니다.

  • Octo (2024) — Diffusion Policy의 action head를 generalist 정책에 그대로 채택
  • RDT-1B (2024) — diffusion 기반의 1B 양팔 VLA
  • π₀ (2024) — diffusion의 사촌인 flow matching을 action expert에 사용

VLA 분야에서 "행동을 어떻게 출력할 것인가"의 답은 크게 두 흐름으로 갈리는데, 하나가 RT-1·RT-2·OpenVLA의 discrete token 방식이고 다른 하나가 Diffusion Policy의 직계인 denoising / flow 방식입니다. 후자의 출발점이 바로 이 논문입니다.

요점

Diffusion Policy는 "행동 분포 자체를 생성 모델로 학습한다"는 발상을 모방학습에 처음 본격적으로 도입한 논문입니다.


3. Mobile ALOHA — 가사 작업까지 데려가다

📄 Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation — Fu 외, Stanford (2024)

어떤 문제를 풀려고 했나

ALOHA는 책상 위 작업에 한정됐습니다. 그런데 사람의 일상은 책상 위에서만 일어나지 않습니다 — 부엌에서 새우를 볶고, 거실 의자를 옮기고, 엘리베이터 버튼을 누릅니다. 이런 mobile manipulation(이동하면서 조작)으로 모방학습을 확장하려면 새로운 하드웨어와 새로운 데이터 수집 방법이 필요합니다.

핵심 발상 — Whole-Body Teleoperation

Mobile ALOHA는 ALOHA 양팔 시스템에 바퀴 베이스를 달고, 사람이 양팔을 puppeteering 하는 동안 발로 베이스 이동까지 제어할 수 있게 만들었습니다. 상반신과 하반신을 한 사람이 동시에 시연하는 시스템이죠.

이 한 가지 변경이 데이터 수집의 차원을 바꿔놓습니다. 이제 부엌을 돌아다니며 새우를 볶는 것 같은 long-horizon mobile task도 자연스럽게 시연할 수 있게 됐습니다.

핵심 발상 — Co-training

Mobile ALOHA는 정책 학습에서 또 한 가지 중요한 트릭을 보여줍니다. 기존 ALOHA의 정적 task 데이터와 새로 수집한 mobile task 데이터를 함께 학습(co-training) 하는 것입니다.

새 task의 데이터는 보통 적은데(~50회), 기존 데이터를 함께 보면 정적 양팔 조작에 대한 사전 지식이 새 task에도 전이됩니다. Mobile ALOHA는 50회 시연만으로 새우 볶기, 의자 옮기기 같은 작업을 90% 성공률로 해냈습니다.

VLA가 여기서 받은 것

Mobile ALOHA의 영향은 두 가지입니다.

  1. 데이터 수집의 패러다임을 확장했습니다. 모방학습이 더 이상 책상 위 작업에 갇힌 분야가 아니라는 것을 보여줬습니다.
  2. co-training이라는 트릭이 이후 π₀.₅의 핵심 학습 전략 중 하나가 됩니다. 한 모델 안에 다양한 출처의 데이터를 함께 부어 일반화를 끌어내는 방식이 표준이 되어 갑니다.

또 SNS에서 Mobile ALOHA가 새우를 볶는 영상이 화제가 되면서, "모방학습이 진짜 가능하구나"의 공감대를 일반 대중까지 넓힌 시점이기도 합니다.

요점

Mobile ALOHA는 ALOHA를 mobile로 확장하면서, co-training이라는 다음 단계로 가는 학습 전략까지 함께 제시한 논문입니다.


정리 — 모방학습의 두 길

이 시기 모방학습에서 "행동을 어떻게 출력할 것인가"에 대한 답이 둘로 갈라집니다.

접근대표 모델핵심 발상장단점
Action Chunking + 회귀ACTk step 행동을 한 번에, CVAE로 다양성 흡수추론이 빠름, multimodal은 약함
Diffusion / GenerationDiffusion Policy행동 분포 자체를 생성 모델로 학습multimodal에 강함, 추론이 느림

이후 VLA들은 두 길을 다양하게 변주합니다. RT-2·OpenVLA는 ACT 계열을 변형한 discrete token 방식, π₀·RDT-1B는 Diffusion Policy 계열을 변형한 generation 방식입니다.

한 줄 요약

이 시기에 모방학습은 "정밀하게 만든다"와 "행동 분포를 잘 표현한다"는 두 숙제를 동시에 풀었고, 그 답이 오늘날 VLA의 두 갈래 길이 됐습니다.

이제 무대가 한 번 더 바뀝니다. 다음 글에서는 이 모방학습의 토대 위에 거대 VLM의 인터넷 지식이 합류하면서 본격적으로 "VLA"라는 이름이 자리잡는 순간을 살펴봅니다.


다음 글 안내