10 億ドルの賭けの中身 — Isaac Ward が解く LeJEPA と world model

YC Paper Club 2026 / 講演約 13 分

アイザック・ウォード / Isaac Ward · 30:47 「このプレゼンに隠れているのは 10 億ドルの問いだ。 誇張ではない。 Yann LeCun が 3 月に 10.3 億ドルを調達した、 基本的に world model を学習させるためだけに — この発表はその問いについてだ」

第 1 回 YC Paper Club (2026-05-20、 Y Combinator、 Mountain View) の 3 本目。 講演約 13 分 (動画 30:26〜)。 講師は Isaac Ward (Stanford 航空宇宙工学博士課程、 SISL)。 扱う論文は 「LeJEPA」 (arXiv 2511.08544、 Randall Balestriero・Yann LeCun、 2025-11) と、 その応用にあたる world model 「LeWorldModel」 (arXiv 2603.19312、 2026)。

Isaac Ward は world model を数年前から研究してきた。 当時はまだ注目される前で、 今は陽の当たる時期を迎えている、 と本人は表現する。 talk の賭け金は明快 — 報道によれば Yann LeCun は 2026 年 3 月、 world model 開発を掲げる新会社 AMI Labs のために 10.3 億ドルを調達した。 その賭けの技術的中身を、 LeCun と Randall Balestriero の研究系列をたどって解く。

world model とは

world model 世界モデル。 大きなニューラルネットで 「現在の状態 (または観測) と、 取る行動から、 次にどんな状態になるか」 を予測するモデル。 ロボットなら 『左に旋回したら部屋のどこを向くか』 を頭の中で再生できる。 想像上の帰結の生成、 モデルベース制御、 不確実性 (驚き) の定量化、 といった能力を可能にする。 Sutton 1990 まで遡る古いアイデア は、 現在の状態 (state) と取る行動 (action) から、 次にどんな状況になるかを予測するモデル。 観測 (observation) を S で表すと、 ある行動を打ったとき世界がどう変わるかを予測する。 ロボットなら 「左に旋回したら部屋のどこを向くか」 を頭の中で再生する飛行シミュレータのようなもの。 能力は三つ — 想像上の帰結を生成する、 モデルベース制御を可能にする、 そして 「驚き」 を定量化する。

Ward はこれが新しいアイデアではないと釘を刺す。 1990 年の Sutton は、 状況と実行する行動を入力に取り、 直後の状況の予測を出力する 「ブラックボックス」 として、 現代の world model をほぼそのまま記述している。 新しいのはアイデアではなく、 その包装と広告のほう、 という整理。

model-free か model-based か

エージェントが世界の内部モデルを持つか持たないか — これが研究と startup の双方で争われている。 model-free は観測を大きなニューラルネットに入れて最適な行動を出すだけで、 「この行動を取ると未来がどう見えるか」 の明示的な表現を持たない。 性能は良いが out-of-distribution (分布外) にやや脆い。 model-based は world model を明示的に学習し、 行動候補の帰結を予測に使う。 利点はモデリング誤差を定量化できること — 現実世界に展開するときに重要になる。

表現の崩壊という落とし穴

world model の学習は、 高次元の観測 (画像や LiDAR) をコンパクトに表現する方法と、 行動がその表現をどう変えるかを、 同時に学ぶ。 表現とダイナミクスの co-learning。 ここに罠がある。 最適化の地形には 「何もしない」 解がいくつもある。 典型的な局所最適は 「どの状態も同じ」 と答える — representational collapse 表現の崩壊。 world model の学習で、 すべての状態を同じ潜在表現に潰してしまう自明な局所最適解。 『次はどうなる?』 に毎回 『同じ』 と答える怠け者の生徒のようなもので、 形式上は無矛盾だが何も学べない。 既存手法はこれを避けるために様々な工夫 (潜在空間の健全性を強制するヒューリスティック、 事前学習モデルの流用、 特権データ) を使う (表現の崩壊)。 「次はどうなる?」 に毎回 「同じ」 と答える怠け者の生徒に近く、 形式上は無矛盾だが何も学べていない。

既存の world model (PLDM、 DINO-WM、 Dreamer、 TD-MPC など) は、 この崩壊を避けるために様々な工夫を使う。 潜在空間の健全性を強制するヒューリスティック、 既存のオートエンコーダや拡散モデル・動画モデルの流用、 あるいは学習時だけ使える特権データ。 いずれも 「崩壊回避のためのトリック」 で、 設定が難しい。

JEPA と SIGReg

JEPA Joint Embedding Predictive Architecture。 Yann LeCun が中心に進めるアーキテクチャ。 観測を画像エンコーダで潜在ベクトルに変換し、 行動を条件とする予測器で 『次の潜在表現』 を予測する (次の画像そのものではなく、 次の潜在を予測する点が肝)。 デコーダで画像に戻すこともできるが、 興味深い処理は潜在空間で行われる は LeCun の中心的な仕事で、 観測を画像エンコーダで潜在ベクトルに変え、 行動を条件とする予測器で 「次の潜在表現」 を予測する。 次の画像そのものではなく、 次の潜在を予測するのが肝。 デコーダで画像に戻せるが、 面白い処理はすべて潜在空間で起きる。

LeJEPA が足すのは SIGReg Sketched Isotropic Gaussian Regularization。 LeJEPA (arXiv 2511.08544) が導入する正則化項。 潜在埋め込みを多数のランダムな 1 次元方向へ射影 (sketch) し、 各 1 次元分布が正規分布 (Gaussian) になっているかを統計的に検定する。 すべての方向で正規なら、 潜在空間全体が等方的 (isotropic) な健全な分布になっており崩壊していない、 と安価に判定できる。 既存手法の雑多な崩壊回避トリックを 1 つの損失項で置き換える という新しい正則化項。 名前は Sketched (高次元データへの 1 次元射影)、 Isotropic (どの方向に切っても同じに見える)、 Gaussian-distributed の頭字。 埋め込みを多数のランダムな 1 次元方向へ射影し、 各方向のスライスが正規分布になっているかを検定する。 すべての 1 次元スライスが正規なら、 潜在空間は等方的で健全な 「丸い雲」 になっていて崩壊していない、 と安価に判定できる。 雑多なトリックの寄せ集めを、 1 つのハイパーパラメータと 1 つの損失項に畳む。 LeJEPA は等方的ガウス分布が最適な埋め込み分布であることを証明した上でこれを強制する。 Ward は 「これも結局、 新しい種類のエレガントなトリックを提供しているだけだ」 と冷静に位置付ける。

LeWorldModel — 何が手に入るか

この系列の応用が LeWorldModel LeJEPA の発想を world model に適用した論文 (arXiv 2603.19312、 2026、 Lucas Maes・Quentin Le Lidec・Damien Scieur・LeCun・Balestriero)。 約 1500 万パラメータと小さく、 単一 GPU で学習でき、 基盤モデルベースの world model 比で plan が最大 48 倍速いと報告。 push-T / push-cube での開ループ予測、 潜在空間での MPC、 摂動に対する誤差スパイクによる驚きの定量化、 を示す 。 約 1500 万パラメータと小さく、 単一 GPU で動き、 基盤モデルベースの world model 比で plan が最大 48 倍速いと報告される (この効率の数字は LeJEPA 本体ではなく LeWorldModel のもの)。 開ループ予測では push-T や push-cube で 「現実」 と 「想像」 の系列がよく一致する。 制御は潜在空間での探索 — 初期観測と目標観測をエンコードし、 始点から終点へ至る行動を潜在空間で探す MPC。 小さな 2D 課題では競合を上回り、 3D では大きな基盤バックボーンを持つ DINO-WM が勝つ。

とりわけ印象的なのは驚きの定量化。 world model に意地悪な摂動 (T の色を変える、 T を別の場所へ瞬間移動させる) を加えると、 その瞬間にモデル誤差がスパイクする。 これは検出可能で、 つまりモデルを持つエージェントは自分の予測がどれだけ外れているかを定量化でき、 不確実性の良い推定を持つ。 model-free のアプローチはこれを自然には与えない。

編集所見

Ward の講演の誠実さは 「これは新しいトリックを一つ提供しているだけ」 という醒めた要約にある。 world model は 2026 年に陽の当たる主題になったが、 その本質は 「表現とダイナミクスを同時に学ぶと崩壊する」 という古い問題と、 「崩壊をいかにエレガントに防ぐか」 という工夫の競争にある。 LeJEPA の SIGReg は、 等方的ガウスという 「健全な丸い雲」 を 1 つの損失で強制する解。 そして LeCun の 10.3 億ドルは、 言語ではなく現実から学ぶ world model に賭ける宣言として、 この技術系列の真上に乗っている。 「アイデアは Sutton 1990 まで遡る」 という Ward の指摘と、 「10 億ドルの問い」 という賭け金の対比が、 この talk を一次情報として価値あるものにしている。

着眼点

「崩壊を防ぐトリック」 という観点で world model を並べ直す

Ward の整理の鋭さは、 PLDM・DINO-WM・Dreamer・TD-MPC・LeJEPA を 「representational collapse をどう避けるか」 という一本の軸で並べたこと。 派手な能力の比較ではなく、 全手法が共有する地味な失敗モード (何も学ばない自明解) を中心に据えることで、 SIGReg の新規性が 「設定の難しい寄せ集めを 1 つの損失に畳んだ」 点にあると明確になる。

不確実性を 「自分で測れる」 ことの実務価値

model-based の核心的な利点は、 予測がどれだけ外れているかをエージェント自身が定量化できる点。 摂動を加えるとモデル誤差がスパイクする実験は、 「道が見慣れないと感じて速度を落とすドライバー」 に近い自己認識を機械に与える。 現実世界へ展開する制御では、 この 「自分の confused さを測れる」 性質が、 model-free にはない安全側の余白になる。

動画の構成 (本セグメント)

  • (29:54) 司会による紹介 — 「最も world model に取り憑かれた人物」
  • (30:26) Isaac Ward 登壇、 LeJEPA / world model の紹介
  • (30:47) 10 億ドルの問い — LeCun の world model への賭け
  • (31:14) world model とは — 状態 + 行動 → 次の観測、 Sutton 1990
  • (33:51) model-free か model-based か、 誤差の定量化
  • (36:11) 表現の崩壊と co-learning、 既存手法の崩壊回避トリック
  • (38:26) JEPA と SIGReg — 潜在予測 + 等方的ガウス正則化
  • (40:09) LeWorldModel の能力 — 開ループ予測、 潜在空間 MPC、 速度
  • (42:00) 驚きの定量化 — 摂動とモデル誤差のスパイク
  • (42:38) 議論 — model-based vs model-free、 崩壊をエレガントに防ぐには

関連リンク

用語集

world model (世界モデル)
「現在の状態 (観測) と取る行動から、 次にどんな状態になるか」 を予測するモデル。 行動の帰結を頭の中で再生する飛行シミュレータに近い。 想像上の帰結の生成、 モデルベース制御、 不確実性の定量化を可能にする。 Sutton 1990 まで遡る古いアイデア。
JEPA (Joint Embedding Predictive Architecture)
Yann LeCun が中心に進めるアーキテクチャ。 観測を潜在ベクトルに変換し、 行動を条件に 「次の潜在表現」 を予測する。 次の画像そのものではなく次の潜在を予測する点が肝で、 重要な処理は潜在空間で行われる。
SIGReg (Sketched Isotropic Gaussian Regularization)
LeJEPA (arXiv 2511.08544) が導入する正則化項。 潜在埋め込みを多数のランダムな 1 次元方向へ射影し、 各方向の分布が正規分布かを検定する。 すべての方向で正規なら潜在空間は等方的で健全とみなせる。 既存手法の雑多な崩壊回避トリックを 1 つの損失項に置き換える。 等方的ガウスが最適な埋め込み分布であることを証明した上で強制する。
representational collapse (表現の崩壊)
world model の学習で、 すべての状態を同じ潜在表現に潰してしまう自明な局所最適。 「次はどうなる?」 に毎回 「同じ」 と答える怠け者の生徒のようなもので、 形式上は無矛盾だが何も学べない。 SIGReg はこれをエレガントに防ぐ。
model-free / model-based
model-free は観測から最適行動を直接出し、 未来の明示的表現を持たない (分布外にやや脆い)。 model-based は world model を明示的に学習し行動候補の帰結を予測する。 後者の核心的利点は、 モデリング誤差を自分で定量化でき、 不確実性を測れること。
LeWorldModel
LeJEPA の発想を world model に適用した論文 (arXiv 2603.19312、 2026)。 約 1500 万パラメータ・単一 GPU で動き、 基盤モデルベースの world model 比で plan が最大 48 倍速いと報告。 摂動に対する誤差スパイクで 「驚き」 を定量化できる。 効率の数字は LeJEPA 本体ではなくこちらの論文のもの。
comment is stripped from the HTML output. */}