[논문리뷰] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

CVPR 2026
Dongwon Kim, Gawon Seo, Jinsung Lee, Minsu Cho, Suha Kwak
5 Mar 2026
[paper] [project] [code]

Related Works

Image tokenization

이미지 토크나이저는 고차원 분포를 직접 모델링하는 어려움을 줄여주는데 핵심적인 역할을 한다. 이때 기존의 ViT와 같이 고정된 grid 형식의 2D 토크나이저는 이미지 해상도에 따라 토큰 수가 고정되므로 압축에 한계가 있고, 최근에는 FlexTok와 같은 1D 토크나이저가 나와 길이를 유연하게 조절 가능하지만 이러한 토크나이저는 이미지의 고주파 성분에 집중하여 planning에는 관련이 없는 부분까지 인코딩한다는 문제가 있다. 또한 다른연구에서 잘 학습된 vision foundation 모델의 인코더를 사용하는 경우가 많지만, 이는 생성 퀄리티를 올리기 위함이지 극단적인 압축을 위함이 아니다.

최근 월드 모델의 연구에서도 토큰수를 줄이려는 연구가 진행되고 있지만, 해당 연구에서는 전 프레임의 정보를 바탕으로 현재 프레임의 토큰을 줄이지만 이는 Long-horizon planning에서는 취약하다. 그렇기에 CompACT에서는 과거프레임에 의존하지 않는 플래닝에 중요한 정보만 유지하도록 압축을 진행한다.

Masked generative model

Masked image generative model은 생성과정에서 마스킹된 토큰을 복원하기 위해 bidirectional attention를 사용하며 한번에 여러 토큰을 샘플링 할 수 있어 autoregressive model 대비 이미지 생성하는데 필요한 step을 줄일 수 있다. 해당 논문에서는 MaskGIT를 사용했다고 한다.

즉 다시말해 Autoregressive 모델은 토큰을 하나씩 순차적으로 만들지만, Masked generative model은 처음부터 모든 토큰에 mask를 하고 bidirectional attention로 확실한 부분을 채워가는 방식으로 작동한다.

Planning via World Models

월드 모델은 현실 역학을 인코딩하여 에이전트가 행동을 하기전에 미래의 상태를 시뮬레이팅 할 수 있도록 한다. 현재 상태로부터 미래를 관측할 수 있게 하기 때문에 로보틱스, 자율주행, 네비게이션, 게이밍 등에 활용된다. 기존의 planning 매커니즘은 두가지로 나눌 수 있는다.

  • Decision-time planning with world models : 어떤 액션을 했을때의 미래의 상태를 예측하는 방식으로, 특정목표를 위해 반복적으로 진행한다. ex. TDMP, DINO-WM, NWM

  • Hierarchical planning : 최종목표가 멀때 subgoal을 만드는 방식으로, 중간의 시각적 상태를 생성한 이후, Inverse Dynamics Models로 실행 가능한 행동을 얻게 된다. ex. UniPi, AVDC

이러한 방식은 diffusion 기반 비디오 생성 모델과 같이 큰 모델의 실시간 환경에서 큰 계산적 문제가 발생한다. 그렇기에 CompACT에서는 극도로 압축된 latent space에서 효율적인 planning이 가능하게 하는 것을 목표로 하며 위 두 패러다임에서 평가를 진행한다. 각각 goal-conditioned visual navigation, action-conditioned video prediction 문제를 해결한다고 한다.

Methodology

Latent generative model as world model

월드 모델의 목적 : 현재 상태와 액션이 주어졌을때 다음 observation을 예측

Notation

  • $O=[o_{0},o_{1},…,o_{T}]\in\mathbb{R}^{T\times H\times W \times 3}$ : 비디오 프레임과 같은 관측
  • $A=[a_{0},a_{1},…,a_{T}]\in\mathbb{R}^{T\times3}$ : 행동

월드 모델 $f_{\theta}:\mathbb{R}^{H\times W\times3}\times\mathbb{R}^{3}\rightarrow\mathcal{P}(\mathbb{R}^{H\times W\times3})$는 아래와 같이 정의한다.

\[f_{\theta}:(o_{t},a_{t})\mapsto p_{\theta}(o_{t+1}|o_{t},a_{t})\]

$\mathbb{R}^{H\times W\times3}$는 현재 프레임의 픽셀,$\times\mathbb{R}^{3}$는 에이전트가 취할 행동이 존재하는 공간을 의미하며 출력 값의 $\mathcal{P}(\mathbb{R}^{H\times W\times3})$는 미래의 이미지가 나올 확률 분포가 될 것이다.

그리고 매핑관계를 다시 보면 현재 관측한 이미지 $o_{t}$와 취하고자 하는 행동 $a_{t}$를 모델에 조건으로 넣어주면, 미래의 이미지에 대한 확률 분포를 얻게 되는 것이다.

이때 이러한 확률적인 공식화는 생성 모델을 통해 자연스럽게 구현될 수 있으나, 픽셀공간에서 직접 모델링을 수행하는 것은 계산적으로 부담이 크다. 따라서 월드 모델 $f_{\theta}$는 저차원의 latent tokens $z\in\mathbb{R}^{N\times D}$ 상에서 작동하도록 공식화될 수 있다. 이는 인코더 $\mathcal{E}:\mathbb{R}^{H\times W\times3}\rightarrow\mathbb{R}^{N\times D}$와 디코더 $\mathcal{D}:\mathbb{R}^{N\times D}\rightarrow\mathbb{R}^{H\times W\times3}$로 구성된 이미지 토크나이저로 구할 수 있다.

이때의 reconstruction objective는

\[\mathcal{L}_{recon} = ||o - \mathcal{D}(\mathcal{E}(o))||_{2}^{2}\]

이며 아래의 식으로 표현할 수 있다.

\[f_{\phi}:(z_{t},a_{t})\mapsto p_{\phi}(z_{t+1}|z_{t},a_{t})\]

여기서 $z_{t}=\mathcal{E}(o_{t})$이다.

이때 최근 생성모델이 어텐션 기반이기에 토큰개수 N의 제곱에 비례해서 계산복잡도가 증가한다. 따라서 N의 크기를 줄이는 것은 효율적인 decision-time planning이 가능케 한다. 이렇게 latent world model $f_{\theta}$가 학습되게 되면 초기 관측 $o_{0}$에서 목표 관측 $o_{goal}$로 이끄는 행동 시퀀스 ${a_{t}}$를 찾는데 사용할 수 있다.

\[z_{t+1}\sim f_{\phi}(z_{t},a_{t}),\quad t\in\{0,\dots,H-1\}\]

구체적으로 현재 이미지를 latent token $z_{0}$로 압축하고, 행동시퀀스 $a=[a_{0},a_{1},\dots,a_{H-1}]$를 가정하고, 그 행동을 수행 후의 latent token을 구해가며 H까지 롤아웃을 진행한다.

이 과정에서 얻은 최종 관측과 목표 사이에 비용함수 $C(a)=d(\hat{o}_{H},o_{goal})$ where $\hat{o}_{H}=\mathcal{D}(z_{H})$, $\hat{o}_{goal}=\mathcal{D}(z_{goal})$를 이용해서 평가를 하고 여기서 $d(\cdot,/cdot)$는 LPIPS를 의미한다. 그리고 이것을 샘플링 기법이나 경사 하강법을 이용해 최적화를 진행한다.

CompACT tokenizer

월드 모델 planning에 있어 bottleneck은 latent token의 수이고 이는 autoregressive rollout의 샘플링 속도를 저하시킨다. 여기서 논문의 저자는 16개 혹은 8개의 이산 토큰으로 인코딩하고 이산 잠재 공간을 사용해 반복적으로 노이즈를 제거하는 토크나이저인 CompACT($\mathcal{D}_{compact}\circ\mathcal{E}_{compact}$)를 제안한다.

Tokenizer architecture detail

Semantic encoding via frozen features

여기서 제안하는 토크나이저의 핵심은 고주파 성분을 제거하고 planning에 중요한 semantic 정보를 유지하는 것이다. 이를 위해 DINOv3를 바탕으로 인코더를 구성하며, 인코더 $\mathcal{E}_{compact}:\mathbb{R}^{H\times W\times3}\rightarrow{1,…,K}^{N}$는 입력이미지 $o$를 vocabulary 크기 K에서 선택된 $N(N\le16)$개의 이산 토큰 시퀀스 $z$로 맵핑한다.

이때 인코더는 1. DINOv3 2. 학습가능한 쿼리토큰이 있는 latent resampler 3. finite scalar quantization layer로 구성된다.

구체적으로는, 입력 이미지를 DINOv3로 인코딩하여 semantic 표현을 얻는다. 초기 latent token $z^{0}\in\mathbb{R}^{N\times D}$는 트랜스포머 디코더 base latent resampler의 learnable query로서 사용된다. 그리고 디코더 블록에서 이 latent token을 DINO의 출력과 cross attention하여 플래닝에 있어 필요한 알짜정보를 증류하게 된다. 그 이후 latent resampler의 출력은 FSQ(Finite Scalar Quantization) 레이어에서 유한한 스칼라로 이산화되어 이산 잠재 토큰 $z\in{1,…,K}^{N}$을 생성된다. (이렇게 이산화되면 MaskGIT 방식에서 적은 스텝으로 채울수 있어 롤아웃에 이점이 있음)

  • VQ(Vector Quantization)는 가장 가까운 정수를 찾지만, FSQ는 각 차원마다 바로 근처의 스칼라로 반올림하는 방식

Generative decoding

적은 토큰으로부터 픽셀을 직접 재구성하는 것은 다양한 결과가 나올 수 있기 때문에 중간 표현을 도입하는 generative decoding를 제안한다. 디코더 $\mathcal{D}_{compact}:{1,…,K}^{N}\rightarrow{1,…,K{\psi}}^{N_{\psi}}$는 latent token z를 조건으로 하여 $\mathcal{D}{\psi}\circ\mathcal{E}{\psi}$(여기서 MaskGIT의 VQGAN이라 생각하면 됨, target tokenizer라고도 한다고 함)의 잠재 토큰을 예측한다.

구체적으로는 observation을 target token으로 변환한 다음 masked generative modeling를 이용해 z를 $z^{\psi}$로 맵핑하는데 autoregressive 모델보다 훨씬 빠른 샘플링을 제공한다. 쉽게 말해 z(8~16개 토큰)를 입력으로 하여 $z^{\psi}$(196개 토큰)의 토큰으로 디테일한 target token을 생성해내도록 학습시킨다. 이 과정이 MaskGIT 방식을 사용해 빠르게 디코딩된다는 것이다.

\[\mathcal{L}_{\text{tok}} = - \mathbb{E}_{z^\psi} \left[ \log p \left( \mathbf{z}^\psi \mid \mathbf{z}, \mathcal{M}(\mathbf{z}^\psi) \right) \right]\]

손실함수는 다음과 같이 $\mathbf{z}^\psi$를 negative log likelihood로 학습시키는 것이다. 여기서 $\mathbf{z}^\psi$는 196개의 정답 토큰, $\mathcal{M}(\mathbf{z}^\psi)$는 196개중 일부를 무작위 마스킹한 문제지, $p(\mathbf{z}^\psi \mid \mathbf{z}, \mathcal{M}(\mathbf{z}^\psi))$는 모델이 16개의 힌트($z$)와 주변 힌트를 보고 가려진 토큰을 맞출 liklihood를의미한다.

\[\hat{o} = (\mathcal{D}_\psi \circ \mathcal{D}_{\text{compact}} \circ \mathcal{E}_{\text{compact}})(o)\]

최종적으로 얻는 모델의 흐름을 보면 다음과 같아. compact tokenizer의 인코더가 semantic 정보만을 압축해 8~16개의 이산토큰 z로 만들고, compact decoder는 그 z로부터 픽셀을 복원해 중간다리 역할인 196개의 target token $z^\psi$로 만들어 타겟 디코더(VQGAN 디코더)가 선명한 이미지를 렌더링하게 되는것이다.

World model in CompACT latent space

\[\mathcal{L}_{\text{world}} = - \mathbb{E}_{z_t, a_t, z_{t+1}} \left[ \log p \left( z_{t+1} \mid z_t, a_t, \mathcal{M}(z_{t+1}) \right) \right]\]

아까의 compact 디코더와 거의 일치하는 수식으로 현재 프레임의 디테일이 아닌, 다음 프레임의 뼈대를 채우는 방식으로 동작한다. 이렇게 학습된 CompACT 토크나이저를 이용해 적은 이산 토큰으로부터 월드모델을 학습시킬 수 있게된다. 이때 model-predictive control를 하는 동안 16개 이하의 토큰을 쓰기 때문에 많은 롤아웃이 가능해진다.

월드 모델은 토크나이저와 별개이기에, 이산 시퀀스 분포를 모델링할 수 있는 어떤 모델도 다 사용가능한데 여기서 $p(z_{t+1} \mid z_t, a_t)$를 학습하기 위해 두가지 프레임워크를 사용한다.

  • 네비게이션 태스크 : NWM을 따라 autoregressive한 프레임워크를 사용, 고정된 히스토리 윈도우 ${z_{t-\tau}, \dots, z_t}$ 와 행동 ${a_{t-\tau}, \dots, a_t}$을 받아 $z_{t+1}$를 예측하는 DiT 기반 구조이다. 이때 action conditioning를 개선하기 위해 학습 과정에서 히스토리 윈도우의 latent token을 무작위로 마스킹한다.

  • RoboNet 로봇 조작 태스크 : 여러 미래 프레임을 동시에 모델링하는 block- causal transformer를 적용해 프레임간 인과적 의존성은 유지하면서 ${z_{t+1}, \dots, z_{t+K}}$를 병렬적으로 예측한다.

이러한 학습방식들은 diffusion forcing(로봇이 길게 생각하면 초반 프레임은 잘 맞추지만 뒤로 갈수록 hallucination이 발생하기에, 이를 막기위해 학습때 가혹한 노이즈를 줘 학습시키는 것)의 변형으로 볼 수 있다. 네비게이션 모델은 masked context를 배울 수 있고, 병렬생성(로봇)에서는 마스킹 해제 단계에서 다양한 노이즈를 제공한다.

Experiment

여기서 CompACT를 2가지 측면으로 실험하는데 첫번째는 reconstruction 지표를 통한 토크나이저 평가, 다른 하나는 월드모델을 통한 플래닝 유효성(네비게이션, 행동에 따른 비디오 예측)이다.

평가지표

  • Reconstruction quality : reconstruction FID (rFID), Inception Score (IS)
  • Planning accuracy(네비게이션 태스크) : Absolute Trajectory Error (ATE) and Relative Pose Error (RPE)
  • Action-relevancy : Inverse Dynamics Model (IDM) performance
  • Action-conditioned video prediction : Action Prediction Error(APE)
  • Computational efficiency: Planning latency during model-predictive control

Tokenizer evaluation and ablations

Reconstruction performance

compact 토크나이저는 극단적인 압축에도 불구하고, sota 토크나이저에 필적하는 성능을 보인다. 심지어 IS 지표에서는 MaskGIT-VQGAN를 상회하는 성능이 나온다는 것을 알 수 있다.

Ablation of encoder design choices

CompACT encoder를 설계할 때 3가지 인코더 구조를 비교한 결과이다. 이때 DINO 모델을 파인튜닝할때보다 파라미터를 frozen 시킬때 성능이 더 좋다고 한다.

Ablation of generative decoding 위 표에서 generative decoding를 적용하지 않은 단일 피드포워드 디코더로 대체했을때의 결과도 보여주며, 이때엔 심각한 품질저하로 이어진다는 것을 알 수 있다.

Characterizing CompACT latent tokens

CompACT tokens capture modular scene elements

위 figure는 여러 태스크에서 latent resampler의 어텐션맵 시각화 결과이다. 어텐션맵이 장면에서 semantic한 부분을 잘 타겟팅하는걸 볼 수 있다.

Modular latents benefit planning

이러한 모듈구조가 향상된 planning 성능을 보인다는것을 보이기 위해 정보를 보전하는 대리지표로서 IDM을 사용한다. CompACT latent token으로 학습된 IDM이 16배 적은 토큰을 사용함에도 불구하고 더 좋은 성능을 보이는 것을 알 수 있다.

Planning in CompACT latent space

Planning performance

위 표는 네비게이션 태스크의 플래닝 결과를 보여준다. 이때 784개의 토큰을 사용하는 SD-VAE와 유사한 정확도를 가져가면서, 플래닝 지연시간은 40배 감소하는 것을 알 수 있다. 또 비슷하게 적은 토큰을 사용하는 FlexTok 기반 모델의 성능은 월등하게 뛰어넘는다는 사실을 알 수 있다.

Qualitative examples

위 그림은 CompACT를 활용할 때 세부적인 디테일은 새로 합성되지만 롤아웃시 목표 달성을 위한 핵심정보는 유지한다는 것을 알 수 있다.

In-depth analysis on the effect of history masking, tokenizer, and cost function

위 표는 저자의 방식이 기여하는 3가지 설계를 분석한다.

  1. 왼쪽은 히스토리마스킹이 플래닝 정확도를 향상시키고 Robust tempo ral dependency learning를 촉진시킨다는 것을 알 수 있다.
  2. 가운데는 픽셀공간과 잠재공간에서 cost function이 다를 때 플래닝 정확도를 비교한다.픽셀공간에서 거리를 계산할때 정확도가 조금 더 좋긴하지만, latency까지 고려하면 잠재공간을 고려하는게 나음을 알수 있다.
  3. 오른쪽은 학습과정에서 인코더를 frozen시키는 여부를 보여준다. 이를 통해 비전 인코더를 학습중에 파인튜닝하게 되면 성능이 떨어지며, 이는 compact 토큰이 플래닝에 필요한 의미론적 정보를 잃게 만듬을 알 수 있다.

Action conditioned video prediction

RoboNet에서의 Action conditioned video 생성을 평가한다. 위 표에서는 CompACT가 256토큰인 베이스라인 대비 APE는 3배 낮춤과 동시에 5.2배 빠른 생성을 함을 알 수 있다. APE는 IDM이 생성한 비디오로부터 행동을 얼마나 정확하게 복구할 수 있는지 지표이다. 또한 아래 이미지를 보면 target tokenizer는 dynamic을 잘 보존하지 못한 반면, CompACT의 latent token으로 생성된 비디오는




    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • [논문리뷰] VGGT: Visual Geometry Grounded Transformer
  • [논문리뷰] Flow-GRPO: Training Flow Matching Models via Online RL
  • DDPM(Denoising Diffusion Probabilistic Models) 설명
  • [논문리뷰] Evolution Strategies at the Hyperscale
  • VAE (Variational Auto-Encoder)