深層学習は「謎」ではない — Akshay Vegesna が解く Andrew Gordon Wilson の一般化論

YC Paper Club 2026 / 講演約 8 分

アクシャイ・ヴェゲスナ / Akshay Vegesna · 44:12 「モデルをスケールさせると汎化が良くなることは分かっている。 だが、 なぜそうなるのかの機構的な理解を我々は持っていない」

第 1 回 YC Paper Club (2026-05-20、 Y Combinator、 Mountain View) の 4 本目。 講演約 8 分 (動画 43:54〜)。 講師は Akshay Vegesna (Q Labs 共同創業者)。 扱う論文は Andrew Gordon Wilson (NYU) の 「Deep Learning is Not So Mysterious or Different」 (arXiv 2503.02113、 ICML 2025 ポジションペーパー)。 Akshay は講演で 「Q Labs で Andrew と一般化の問題に取り組んでいる」 と述べた。

機械学習の現状を Akshay Vegesna はこう要約する — モデルをスケールさせると汎化が良くなることは分かっているが、 なぜそうなるかの機構的な理解はない。 もし一般化を理解できれば、 それを目掛けて最適化できるかもしれない。 だから理解の見返りは非常に大きい。 talk は Andrew Gordon Wilson の主張をたどり、 「深層学習は言われるほど謎でも特別でもない」 という立場を解説する。

「謎」 とされる三つ

現場の人々はしばしば一般化を謎だと説明し、 その理由として三つを挙げる。 過剰パラメータ化 (overparameterization) データ点の数よりはるかに多いパラメータを持つモデルを使うこと。 古典的な bias-variance のトレードオフでは過適合するはずだが、 実際にはスケーリング則が示すとおり汎化がむしろ良くなる。 Wilson はこれを PAC-Bayes と 『圧縮されやすい解が増える』 『平坦な極小の体積が指数的に増える』 で説明する 、 良性過適合 (benign overfitting)、 二重降下 (double descent)。 これらが、 一般化はそもそも理解できないかもしれない、 という根拠として持ち出される。 Wilson の仕事は、 これまで過剰パラメータ化の説明には使われてこなかった古典的な一般化理論を用いて、 この 「謎」 を解いていく。

PAC-Bayes という古典で測る

最初の古典理論が PAC-Bayes 一般化 (テスト損失) を、 訓練損失と 『圧縮項 (complexity/compression term)』 の和で上から抑える古典的な枠組み。 過去には過剰パラメータ化で圧縮項が支配的になり、 限界が緩くて無意味 (vacuous) になっていた。 Wilson はこれが限界の誤用だったとし、 圧縮項を別の方法で計算すれば、 10 億パラメータ規模でも有用な限界が得られると示す 。 テスト損失 (= 一般化) を、 訓練損失と圧縮項の和で上から抑える。 過去は、 モデルを過剰パラメータ化するとこの圧縮項が支配的になり、 限界が緩く無意味 (vacuous) になって何にも使えなかった。 Wilson はこれが限界の誤用だったと指摘する。 圧縮項を別の方法で計算すれば、 限界は再び意味を持つ。

過剰パラメータ化はなぜ効くか

PAC-Bayes の枠組みは過剰パラメータ化の成功をうまく説明する。 まず経験リスク (= 訓練損失) は、 パラメータを増やすほどデータに当てはまり下がる。 さらに Wilson の仕事は、 パラメータを増やすほど 「より圧縮されやすい解」 が見つかることを示す (Lotfi らの研究 — 訓練集合を符号化するのに必要なビット数とパラメータ数に負の相関がある)。 つまり第 2 項の圧縮項も下がる。 別の見方は平坦性。 パラメータを増やすと、 パラメータ空間における平坦な極小の体積が指数的に増える一方、 鋭い極小の体積はあまり増えない。 平坦な極小は鋭い極小より圧縮されやすいので、 圧縮の観点とも整合する。 結果、 過剰パラメータ化は既存理論の枠内に収まり、 10 億パラメータ規模でも有用な一般化の限界が得られる。

「良性過適合」 と soft inductive bias

次の謎が 良性過適合 (benign overfitting) 深層ニューラルネットが完全にランダムなノイズも当てはめられる (= 過適合できる) のに、 構造のあるデータでは良く汎化する、 という現象。 謎は 『ランダムデータも当てはめられるのに、 なぜ汎化を可能にする帰納バイアスを同時に持てるのか』。 Wilson は正則化付き多項式モデルで直感を与える — ランダムデータには十分なパラメータで当てはまるが、 構造データでは正則化が低次の項を選ばせる 。 深層ネットは完全にランダムなノイズも当てはめられるが、 構造のあるデータでは良く汎化する。 謎は 「ランダムデータも当てはめられるのに、 なぜ汎化を可能にする帰納バイアスを同時に持てるのか」。 正則化付きの多項式モデルが直感を与える — ランダムデータには十分なパラメータで当てはまるが、 構造データでは正則化が低次の項を選ばせる。 こうして柔軟性と帰納バイアスの両方が手に入る。

一般化すると、 ニューラルネットは soft inductive bias (柔らかい帰納バイアス) 表現力の高い (大きな) 仮説空間を持ちつつ、 データと整合するより単純で圧縮されやすい解を 『好む』 という性質。 仮説空間を硬く制限する (= 現実をモデル化しきれない) のでも、 無制約にする (= 過適合する) のでもない中間。 大きな道具箱を持ちつつ、 当てはまる最も単純な道具に手を伸ばす癖に喩えられる を持つ表現力の高いモデルとして見られる。 硬く制限した仮説空間は現実をモデル化しきれず、 無制約な仮説空間は過適合する。 中間 — 表現力の高い仮説空間を持ちつつ、 汎化しそうな (例えば圧縮されやすい) 解を好むこと — が答え。 大きな道具箱を持ちながら、 当てはまる最も単純な道具に手を伸ばす癖、 に近い。

no free lunch と sample efficiency

結論として、 深層学習のいわゆる 「謎」 は、 soft inductive bias や PAC-Bayes といった既存理論と整合し、 部分的に説明される。 Akshay が残す問いは sample efficiency にある。 正しい帰納バイアスを見つけられれば、 それを目掛けて最適化できるかもしれない。 no free lunch theorem ノーフリーランチ定理。 あらゆる問題で万能に最良な学習器は存在せず、 学習効率の改善はすべて 『どんなデータが来るか』 についての仮定 (帰納バイアス) を組み込むことからしか得られない、 という定理。 Akshay は、 AI と人間の間にある巨大な sample efficiency の差を埋める鍵はここにある、 と位置付ける によれば、 学習効率の改善は帰納バイアスを通じてしか得られない。 AI と人間の間にある巨大な sample efficiency の差を思えば、 この問題に取り組むのは良い賭けだ、 と締めくくる。

編集所見

この talk の芯は 「謎を消す」 方向の知的態度にある。 過剰パラメータ化・良性過適合・二重降下は、 深層学習を神秘化する三点セットとして語られがちだが、 Wilson はそれらを PAC-Bayes と soft inductive bias という古典で説明し直す。 鍵語は 「柔らかい帰納バイアス」 — 大きな仮説空間を持ちつつ単純な解を好む、 という構え。 Akshay と Q Labs が一般化を 「AI の中心的な未解決問題」 と位置付け、 Solomonoff 帰納の実用的近似を掲げる文脈と合わせて読むと、 この発表は 「能力はスケールで伸びるが、 なぜ伸びるかを理解できれば sample efficiency を設計できる」 という賭けの宣言として響く。 同じ Paper Club の Konwoo Kim の発表 (データ制約下の pre-training) と並べると、 「人間との sample efficiency の差」 という共通の問題意識が浮かぶ。

着眼点

「謎」 を 「誤用」 に置き換える

Wilson の論法で効いているのは、 PAC-Bayes の限界が過去 「緩くて無意味」 だったのは理論の限界ではなく 「限界の誤用」 だった、 という再定義。 圧縮項を別の方法で計算すれば 10 億パラメータ規模でも有用な限界が出る、 という指摘は、 「深層学習は古典理論の外にある」 という通説を内側から崩す。 神秘ではなく適用の問題だった、 という整理が talk 全体のトーンを決めている。

平坦な極小が 「増える」 という幾何

過剰パラメータ化がなぜ汎化を助けるかの説明として、 「パラメータを増やすと平坦な極小の体積が指数的に増え、 鋭い極小はあまり増えない」 という幾何の視点が示される。 平坦な極小ほど圧縮されやすく汎化しやすい。 次元を足すほど 「広く平らな谷」 がはるかに多くなり、 勾配降下がそこに落ちやすくなる、 という描像は、 スケーリング則の経験則に物理的な手触りを与える。

動画の構成 (本セグメント)

  • (43:20) 司会による紹介 — QLabs の Akshay Vegesna
  • (43:54) 登壇、 Andrew Gordon Wilson の論文を扱う、 Q Labs で Andrew と協働
  • (44:12) 中心の問い — スケールで汎化するが、 なぜかは未理解
  • (44:46) 三つの 「謎」 — 過剰パラメータ化・良性過適合・二重降下
  • (45:04) PAC-Bayes — 訓練損失 + 圧縮項、 過去の誤用
  • (45:42) 過剰パラメータ化の説明 — 経験リスク低下 + 圧縮されやすい解 (Lotfi ら)
  • (46:39) 平坦な極小の体積が指数的に増える
  • (47:50) 良性過適合と正則化付き多項式モデルの直感
  • (48:46) soft inductive bias — 表現力 + 単純な解への偏り
  • (49:43) no free lunch と sample efficiency への賭け

関連リンク

用語集

一般化 (generalization)
訓練データではなく未知のデータに対する性能。 機械学習が最終的に気にする量。 「スケールさせると一般化が良くなるが、 なぜかは機構的に分かっていない」 という現状認識が、 この talk と Wilson の論文の出発点。
PAC-Bayes
テスト損失 (一般化) を、 訓練損失と圧縮項の和で上から抑える古典的枠組み。 過去は過剰パラメータ化で圧縮項が支配的になり限界が無意味化していたが、 Wilson は圧縮項を別の方法で計算すれば 10 億パラメータ規模でも有用な限界が得られると示す。
過剰パラメータ化 (overparameterization)
データ点よりはるかに多いパラメータを持つこと。 古典的には過適合するはずだが実際は汎化が良くなる。 説明は (1) 経験リスクが下がる、 (2) より圧縮されやすい解が見つかる、 (3) 平坦な極小の体積が指数的に増える。
良性過適合 (benign overfitting)
ランダムノイズも当てはめられる (過適合できる) のに、 構造データでは良く汎化する現象。 正則化付き多項式モデルが直感を与える — ランダムには十分なパラメータで当てはまるが、 構造データでは正則化が低次の項を選ばせる。
soft inductive bias (柔らかい帰納バイアス)
表現力の高い大きな仮説空間を持ちつつ、 より単純で圧縮されやすい解を好む性質。 硬く制限する (現実をモデル化しきれない) のでも無制約 (過適合) でもない中間。 大きな道具箱を持ちつつ最も単純な道具に手を伸ばす癖に近い。
no free lunch theorem
あらゆる問題で万能に最良な学習器は存在せず、 学習効率の改善はすべて 「どんなデータが来るか」 についての仮定 (帰納バイアス) からしか得られない、 という定理。 AI と人間の sample efficiency の差を埋める鍵をここに見る。
comment is stripped from the HTML output. */}