深層学習は「謎」ではない — Akshay Vegesna が解く Andrew Gordon Wilson の一般化論

YC Paper Club 2026 / 講演約 8 分

アクシャイ・ヴェゲスナ / Akshay Vegesna · 44:12 「モデルをスケールさせると汎化が良くなることは分かっている。だが、なぜそうなるのかの機構的な理解を我々は持っていない」

第 1 回 YC Paper Club (2026-05-20、 Y Combinator、 Mountain View) の 4 本目。講演約 8 分 (動画 43:54〜)。講師は Akshay Vegesna (Q Labs 共同創業者)。扱う論文は Andrew Gordon Wilson (NYU) の「Deep Learning is Not So Mysterious or Different」 (arXiv 2503.02113、 ICML 2025 ポジションペーパー)。 Akshay は講演で「Q Labs で Andrew と一般化の問題に取り組んでいる」と述べた。

機械学習の現状を Akshay Vegesna はこう要約する — モデルをスケールさせると汎化が良くなることは分かっているが、なぜそうなるかの機構的な理解はない。もし一般化を理解できれば、それを目掛けて最適化できるかもしれない。だから理解の見返りは非常に大きい。 talk は Andrew Gordon Wilson の主張をたどり、「深層学習は言われるほど謎でも特別でもない」という立場を解説する。

「謎」とされる三つ

現場の人々はしばしば一般化を謎だと説明し、その理由として三つを挙げる。過剰パラメータ化 (overparameterization) 、良性過適合 (benign overfitting)、二重降下 (double descent)。これらが、一般化はそもそも理解できないかもしれない、という根拠として持ち出される。 Wilson の仕事は、これまで過剰パラメータ化の説明には使われてこなかった古典的な一般化理論を用いて、この「謎」を解いていく。

PAC-Bayes という古典で測る

最初の古典理論が PAC-Bayes 。テスト損失 (= 一般化) を、訓練損失と圧縮項の和で上から抑える。過去は、モデルを過剰パラメータ化するとこの圧縮項が支配的になり、限界が緩く無意味 (vacuous) になって何にも使えなかった。 Wilson はこれが限界の誤用だったと指摘する。圧縮項を別の方法で計算すれば、限界は再び意味を持つ。

過剰パラメータ化はなぜ効くか

PAC-Bayes の枠組みは過剰パラメータ化の成功をうまく説明する。まず経験リスク (= 訓練損失) は、パラメータを増やすほどデータに当てはまり下がる。さらに Wilson の仕事は、パラメータを増やすほど「より圧縮されやすい解」が見つかることを示す (Lotfi らの研究 — 訓練集合を符号化するのに必要なビット数とパラメータ数に負の相関がある)。つまり第 2 項の圧縮項も下がる。別の見方は平坦性。パラメータを増やすと、パラメータ空間における平坦な極小の体積が指数的に増える一方、鋭い極小の体積はあまり増えない。平坦な極小は鋭い極小より圧縮されやすいので、圧縮の観点とも整合する。結果、過剰パラメータ化は既存理論の枠内に収まり、 10 億パラメータ規模でも有用な一般化の限界が得られる。

「良性過適合」と soft inductive bias

次の謎が良性過適合 (benign overfitting) 。深層ネットは完全にランダムなノイズも当てはめられるが、構造のあるデータでは良く汎化する。謎は「ランダムデータも当てはめられるのに、なぜ汎化を可能にする帰納バイアスを同時に持てるのか」。正則化付きの多項式モデルが直感を与える — ランダムデータには十分なパラメータで当てはまるが、構造データでは正則化が低次の項を選ばせる。こうして柔軟性と帰納バイアスの両方が手に入る。

一般化すると、ニューラルネットは soft inductive bias (柔らかい帰納バイアス) を持つ表現力の高いモデルとして見られる。硬く制限した仮説空間は現実をモデル化しきれず、無制約な仮説空間は過適合する。中間 — 表現力の高い仮説空間を持ちつつ、汎化しそうな (例えば圧縮されやすい) 解を好むこと — が答え。大きな道具箱を持ちながら、当てはまる最も単純な道具に手を伸ばす癖、に近い。

no free lunch と sample efficiency

結論として、深層学習のいわゆる「謎」は、 soft inductive bias や PAC-Bayes といった既存理論と整合し、部分的に説明される。 Akshay が残す問いは sample efficiency にある。正しい帰納バイアスを見つけられれば、それを目掛けて最適化できるかもしれない。 no free lunch theorem によれば、学習効率の改善は帰納バイアスを通じてしか得られない。 AI と人間の間にある巨大な sample efficiency の差を思えば、この問題に取り組むのは良い賭けだ、と締めくくる。

編集所見

この talk の芯は「謎を消す」方向の知的態度にある。過剰パラメータ化・良性過適合・二重降下は、深層学習を神秘化する三点セットとして語られがちだが、 Wilson はそれらを PAC-Bayes と soft inductive bias という古典で説明し直す。鍵語は「柔らかい帰納バイアス」 — 大きな仮説空間を持ちつつ単純な解を好む、という構え。 Akshay と Q Labs が一般化を「AI の中心的な未解決問題」と位置付け、 Solomonoff 帰納の実用的近似を掲げる文脈と合わせて読むと、この発表は「能力はスケールで伸びるが、なぜ伸びるかを理解できれば sample efficiency を設計できる」という賭けの宣言として響く。同じ Paper Club の Konwoo Kim の発表 (データ制約下の pre-training) と並べると、「人間との sample efficiency の差」という共通の問題意識が浮かぶ。

着眼点

「謎」を「誤用」に置き換える

Wilson の論法で効いているのは、 PAC-Bayes の限界が過去「緩くて無意味」だったのは理論の限界ではなく「限界の誤用」だった、という再定義。圧縮項を別の方法で計算すれば 10 億パラメータ規模でも有用な限界が出る、という指摘は、「深層学習は古典理論の外にある」という通説を内側から崩す。神秘ではなく適用の問題だった、という整理が talk 全体のトーンを決めている。

平坦な極小が「増える」という幾何

過剰パラメータ化がなぜ汎化を助けるかの説明として、「パラメータを増やすと平坦な極小の体積が指数的に増え、鋭い極小はあまり増えない」という幾何の視点が示される。平坦な極小ほど圧縮されやすく汎化しやすい。次元を足すほど「広く平らな谷」がはるかに多くなり、勾配降下がそこに落ちやすくなる、という描像は、スケーリング則の経験則に物理的な手触りを与える。

動画の構成 (本セグメント)

(43:20) 司会による紹介 — QLabs の Akshay Vegesna
(43:54) 登壇、 Andrew Gordon Wilson の論文を扱う、 Q Labs で Andrew と協働
(44:12) 中心の問い — スケールで汎化するが、なぜかは未理解
(44:46) 三つの「謎」 — 過剰パラメータ化・良性過適合・二重降下
(45:04) PAC-Bayes — 訓練損失 + 圧縮項、過去の誤用
(45:42) 過剰パラメータ化の説明 — 経験リスク低下 + 圧縮されやすい解 (Lotfi ら)
(46:39) 平坦な極小の体積が指数的に増える
(47:50) 良性過適合と正則化付き多項式モデルの直感
(48:46) soft inductive bias — 表現力 + 単純な解への偏り
(49:43) no free lunch と sample efficiency への賭け

関連リンク

アクシャイ・ヴェゲスナ

Akshay Vegesna

Q Labs 共同創業者 / 一般化研究 (元 Nuro)

用語集

一般化 (generalization): 訓練データではなく未知のデータに対する性能。機械学習が最終的に気にする量。「スケールさせると一般化が良くなるが、なぜかは機構的に分かっていない」という現状認識が、この talk と Wilson の論文の出発点。
PAC-Bayes: テスト損失 (一般化) を、訓練損失と圧縮項の和で上から抑える古典的枠組み。過去は過剰パラメータ化で圧縮項が支配的になり限界が無意味化していたが、 Wilson は圧縮項を別の方法で計算すれば 10 億パラメータ規模でも有用な限界が得られると示す。
過剰パラメータ化 (overparameterization): データ点よりはるかに多いパラメータを持つこと。古典的には過適合するはずだが実際は汎化が良くなる。説明は (1) 経験リスクが下がる、 (2) より圧縮されやすい解が見つかる、 (3) 平坦な極小の体積が指数的に増える。
良性過適合 (benign overfitting): ランダムノイズも当てはめられる (過適合できる) のに、構造データでは良く汎化する現象。正則化付き多項式モデルが直感を与える — ランダムには十分なパラメータで当てはまるが、構造データでは正則化が低次の項を選ばせる。
soft inductive bias (柔らかい帰納バイアス): 表現力の高い大きな仮説空間を持ちつつ、より単純で圧縮されやすい解を好む性質。硬く制限する (現実をモデル化しきれない) のでも無制約 (過適合) でもない中間。大きな道具箱を持ちつつ最も単純な道具に手を伸ばす癖に近い。
no free lunch theorem: あらゆる問題で万能に最良な学習器は存在せず、学習効率の改善はすべて「どんなデータが来るか」についての仮定 (帰納バイアス) からしか得られない、という定理。 AI と人間の sample efficiency の差を埋める鍵をここに見る。

comment is stripped from the HTML output. */}