拡散モデルで「行動」と「世界の動き」を同時に学ぶ — Stannis Zhou (Google DeepMind) の Diffusion Model Predictive Control

YC Paper Club 2026 / 講演約 12 分

グァンヤオ・「スタニス」・チョウ / Guangyao "Stannis" Zhou · 20:48 「D-MPC でやったのは、拡散モデルを使って『マルチステップの行動提案』と『マルチステップのダイナミクスモデル』の両方を学習することだ」

第 1 回 YC Paper Club (2026-05-20、 Y Combinator、 Mountain View) の 2 本目。講演約 12 分 (動画 18:33〜)。講師は Guangyao "Stannis" Zhou (Google DeepMind スタッフリサーチサイエンティスト)。ロボティクスの world model を共同リードする立場だが、本論文は「ハードコアなロボティクスに移る前」の約 2 年前の仕事。論文は「Diffusion Model Predictive Control」 (arXiv 2410.05364、 TMLR 2025、 Google DeepMind)。

Zhou は現在 Google DeepMind でロボティクス向けの world model を共同リードする。この talk はその源流にあたる初期の仕事で、玩具的な問題の上に後の発想の原型が見える、と本人が位置付ける。主題は、拡散モデルを制御に持ち込み、「次に何をするか」と「やったら世界はどう動くか」を両方とも生成的に学ぶこと。

モデル予測制御 (MPC) とは

モデル予測制御 (MPC) は、ダイナミクスモデル (= world model) と、行動を選ぶ planner の二つで構成される。既知の目的関数を最大化するように、多様な課題を解くエージェントを組み立てる。発想は素直で、行動の系列を提案し、ダイナミクスモデルでその先の状態を展開し、目的関数で評価して、一番よい行動を選んで環境で実行する。

利点が三つ挙げられる。推論時に新しい報酬関数へ適応できる。ダイナミクスモデルは方策そのものより学習しやすく汎化しやすい。そして「行動提案」と「ダイナミクス」を分けて持つ (factorization) ことで、新しい力学への適応が容易になる。最後の点が、後で「壊れた足首」の実験に効いてくる。

二つの課題

MPC を実用にするには二つの問題を解く必要がある。一つは、ダイナミクスモデルが正確でないと compounding error (誤差の積み重なり) が起きる。もう一つは、 planner が良い行動系列を選べるだけの強さを持つ必要がある。 1 ステップ先だけを当てるモデルを何度もつないでいくと、小さな誤差が雪だるま式に膨らんで長期予測が崩れる。

D-MPC — 拡散モデルで提案とダイナミクスの両方を学ぶ

D-MPC (Diffusion Model Predictive Control) がやったのは、拡散モデルでマルチステップの行動提案とマルチステップのダイナミクスモデルの両方を学ぶこと。 1 ステップずつではなく系列をまとめて生成するので compounding error が抑えられ、 planner を単純化できる。実際、単純なサンプリングベースの planner だけで従来の多くの手法を上回ったという。

アルゴリズム自体は素朴。オフラインデータから、現在の観測から行動を予測する方策と、行動を受けて観測を先へ展開するダイナミクスモデルを、どちらも拡散モデルとして学ぶ。推論時には行動提案をサンプリングし、スコア付けして順位を付け、最良を選ぶ。マルチステップの行動提案は行動空間のカバレッジを広げ、マルチステップのダイナミクスは長いホライズンを誤差の蓄積なしに展開できる。

拡散ベースエージェントの地図

Zhou は関連研究を階層的に整理する。すべての手法は状態と行動の同時分布を別々のやり方で組み立てている。 diffusion policy は観測を条件に行動を生成する — 複雑な制御に強いがエキスパートのデモが要る。 Diffuser は状態と行動を同時にモデル化する。 Decision Diffuser は履歴を条件に将来の観測を生成し、逆ダイナミクスモデルで行動を取り出す — 映像だけのデータから学べるのが利点で、データがボトルネックのロボティクスでは大きい。そして D-MPC は行動提案 → ダイナミクスで展開 → planner で選択、という流れで、推論時に新しい報酬と新しい力学の両方へ適応できる。

結果 — 固定報酬で互角、そして test-time 適応

固定報酬・単一課題の設定 (D4RL の MuJoCo 移動課題) では、既存の最先端と互角の競争力を示す。より興味深いのは二つの適応性。一つ目は新しい報酬への適応 — 走行などの移動課題だけで学習したモデルが、推論時に報酬関数を変えるだけでジャンプのような新しい挙動を見せる。二つ目は新しい力学への適応 — 例えば walker の左足首が壊れて、行動の結果が変わってしまう状況。行動提案とダイナミクスを分けて持つ D-MPC なら、新環境で集めた少量の play data でダイナミクスモデルだけを適応させれば、性能の多くを取り戻せる。アブレーションでは、マルチステップの行動提案・マルチステップのダイナミクス、それぞれが性能に寄与することが示された。

編集所見

D-MPC の肝は「分けて持つ」という設計判断にある。「次に何をするか (行動提案)」と「やったら世界はどう動くか (ダイナミクス)」を別々の拡散モデルとして学ぶ。体が壊れたとき (壊れた足首) に作り直すのはダイナミクスだけでよく、行動の方針はそのまま使える — 運転の癖は変えずに、ブレーキの利きが落ちた車に合わせて感覚だけ再調整するドライバーに近い。 LLM の world model が注目を集める 2026 年に、「生成モデルで世界の動きを多段でモデル化し、 planner は単純に保つ」という構図は、 Zhou が現在リードするロボティクス world model の前史として読める。「2 年前の玩具問題」という本人の言葉どおり、発想の原型がここにある。

着眼点

compounding error を「多段生成」で断つ

1 ステップ先の予測を何度もつなぐと、各ステップの小さな誤差が積み重なって長期予測が崩れる — コピーのコピーで像が劣化するのと同じ。 D-MPC は系列をまとめて生成することでこの雪だるま化を抑える。 world model の実用化で繰り返し立ちはだかる課題に対する、拡散モデルらしい答え方になっている。

「DeepMind 最後の公開論文」という司会のジョーク

Zhou の講演後、司会の Chaubard は「これが Google DeepMind が公開する最後の論文だ、幸運を」と冗談を飛ばした。 frontier lab が研究公開に慎重になりつつある空気を一言で示す場面で、一次情報を日本語で残す MEMEX の観点からは、公開された研究にいま触れられること自体の価値を裏側から照らす小さな証言になっている。

動画の構成 (本セグメント)

(17:31) 司会による次論文の紹介、 division policy から world model への関心
(18:33) Stannis Zhou 登壇、自己紹介 (Google DeepMind、ロボティクス world model 共同リード)
(19:06) モデル予測制御 (MPC) とは — ダイナミクスモデル + planner
(20:19) D-MPC の動機 — 正確なダイナミクスと強い planner という二課題
(20:48) 拡散モデルで行動提案とダイナミクスの両方を学ぶ
(21:36) 拡散ベースエージェントの地図 (diffusion policy / Diffuser / Decision Diffuser / D-MPC)
(24:59) アルゴリズム — オフライン学習、推論時のサンプリングと選択
(27:31) 結果 — 固定報酬で互角、新しい報酬への test-time 適応 (ジャンプ)
(28:36) 新しい力学への適応 — 壊れた足首と factorization の利点
(29:04) アブレーション — 各コンポーネントの寄与

関連リンク

グァンヤオ・「スタニス」・チョウ

Guangyao "Stannis" Zhou

Google DeepMind スタッフリサーチサイエンティスト / ロボティクス world model

用語集

モデル予測制御 (MPC): Model Predictive Control。ダイナミクスモデル (world model) と行動を選ぶ planner を組み合わせ、既知の目的関数を最大化して課題を解くエージェントの枠組み。行動系列を提案 → ダイナミクスで展開 → 評価して最良を選ぶ → 環境で実行、を繰り返す。推論時に報酬を差し替えれば異なる挙動を引き出せる。
D-MPC (Diffusion Model Predictive Control): 拡散モデルで、マルチステップの行動提案とマルチステップのダイナミクスモデルの両方をオフラインデータから学ぶ手法 (arXiv 2410.05364、 TMLR 2025、 Google DeepMind)。系列をまとめて生成して compounding error を抑え、単純なサンプリングベースの planner で従来手法を上回る。推論時に新しい報酬・新しい力学へ適応できる。
compounding error (複合誤差): 1 ステップごとの予測誤差が長い時間ホライズンで積み重なり、長期予測が破綻する現象。コピーのコピーで像が崩れるのに似る。 D-MPC は多段予測 (系列をまとめて生成) でこの雪だるま化を抑える。
factorization (行動提案とダイナミクスの分離): 「次に何をするか (行動提案)」と「やったら世界はどう動くか (ダイナミクス)」を別々のモデルとして持つ設計。体や環境が変わったとき (例: 壊れた足首) には、ダイナミクスモデルだけを少量データで適応させればよく、行動方針はそのまま使える。新しい力学への適応が容易になる。
diffusion policy / Decision Diffuser: 拡散ベースの制御手法の系譜。 diffusion policy は観測を条件に行動を生成する (複雑な制御に強いがエキスパートのデモが要る)。 Decision Diffuser は履歴を条件に将来の観測を生成し、逆ダイナミクスで行動を取り出す (映像だけのデータから学べる)。 D-MPC はこれらと対比される、行動提案 + ダイナミクス + planner の構成。

comment is stripped from the HTML output. */}