コンウー・キム / Konwoo Kim · 53:16 「データに制約され、 計算には全く制約されないとき、 pre-training にどう取り組むべきか」
過去 6〜7 年、 pre-training はモデルの能力を大きく伸ばしてきた — 2020 年 GPT-3 の文脈内学習、 2022 年 Anthropic の RLHF によるアライメント、 2024 年の o1 や DeepSeek R1 による推論の出現。 pre-training は高価なので、 研究の焦点は計算効率に向いてきた。 だが Konwoo Kim が立てる問いは逆を向く — まもなくデータのほうが制約になる時代に、 計算が無制限ならどうするか。
なぜ今 「データ制約」 か
計算効率を上げるには、 モデルのパラメータ数とデータ点の数を両方スケールさせる必要がある (Chinchilla スケーリング則)。 問題は、 まもなくデータに縛られること。 公開された推計では、 インターネット上の人間が生成したテキストは年に約 3% しか増えない。 一方、 pre-training に投じる計算は年に約 4〜5 倍で伸びる。 つまり 1 データ点あたりに費やせる計算は、 年率およそ 4 倍で増え続ける。 これは、 これまで慣れ親しんだ 「計算効率」 の世界とはまったく別の代数的体制だ。 古典統計や、 MNIST・Penn Treebank のような古いベンチマーク (データ点が少なく暗黙にデータ制約だった) に近い問いでもある。
漸近線という物差し
この論文はスケーリング則の現代的な道具立てを持ち込む。 IID 検証損失 (= 分布内の汎化) を単調に下げるレシピを追い、 それがきれいなべき乗則に乗ることを示す。 漸近線 (asymptote) スケーリング則のべき乗則が収束する平らな下限。 そのレシピが無限の計算で到達できる最良の損失を表し、 レシピの 『天井』 に当たる。 漸近線が低いレシピほど、 計算を無制限に積んだときに根本的に優れている。 この論文は漸近線を評価の物差しとして導入する が物差しになる。 べき乗則が当てはめられれば、 その漸近線を見ることでレシピの最良の損失 — 無限の計算下での到達点 — を推定できる。 目標は、 漸近線を下げるアルゴリズムを探すこと。 設定は素朴で、 データ制約の世界を 200M トークン (DCLM の一般 Web データ) だけに絞って再現し、 だんだん大きいモデルを学習させ、 IID 検証損失を見る。 まず素直なやり方 — 同じデータを繰り返し学習 (epoching) しつつモデルを大きくする 「標準レシピ」 は、 過剰パラメータ化するほど早く過適合し、 ある点を超えると損失が増えてしまう。
強い正則化
この線を見たときの自然な直感は 「どう直すか」。 一つの答えが強い 正則化 / weight decay モデルがデータを丸暗記 (過適合) するのを抑える手法。 weight decay は重みを小さく保つ正則化の一種。 この論文では、 計算最適な pre-training で使われる値の約 30 倍という強い weight decay を、 パラメータ数ごとに最適調整する。 すると損失がきれいなべき乗則に乗り、 測定可能な漸近線 (3.43) を持つ。 小さなデータを丸暗記させない 『厳しい食事制限』 に近い (積極的な正則化)。 パラメータ数ごとに weight decay を最適調整すると、 損失はパラメータを増やすにつれてきれいなべき乗則に乗る。 これは本当に強い正則化で、 計算最適な pre-training で使う値の約 30 倍。 このべき乗則はパラメータ数 n の指数が 1 (データ制約理論が予測する) で、 漸近線 3.43 を持つ。 過適合の早い標準レシピは、 測定可能な漸近線すら持たない。
アンサンブル
古典機械学習の道具箱を開けると、 有名どころに アンサンブル (ensembling) 独立に学習した複数のモデルの予測を組み合わせる古典手法。 一人の大きな専門家より、 多数の小さな独立した専門家の委員会のほうが、 データが乏しいときに良く汎化する。 この論文では、 300M モデルを複数組み合わせたアンサンブルもきれいなべき乗則に乗り、 その漸近線が正則化レシピの漸近線よりはるかに低いことを示す がある。 300M パラメータのモデルをメンバー数を増やしながらアンサンブルすると (5 個なら計 1.5B)、 これもきれいなべき乗則に乗り、 メンバー数の指数 1 で漸近線を持つ。 重要なのは、 アンサンブルの漸近線が正則化レシピの漸近線よりはるかに低いこと — 無限の計算下での真のデータ効率の勝ち。 計算量を揃えて比べても、 アンサンブルは正則化レシピより良い。 データ制約下で最良の 1.5B モデルが欲しいなら、 一つの大きなモデルより小さなモデルの委員会を組むほうが良い。 正則化 (モデルを大きくし続けられる) とアンサンブル (モデルを増やすという計算スケールの新しい軸) を合成した 「joint scaling」 を、 二重の極限 (メンバー数 K の極限、 次にパラメータ N の極限) で見積もると、 損失は大きく改善する。
5 倍、 そして蒸留で小さく戻す
レシピがスケールするかを確かめるため、 4 つのトークン数 (最大 1.7B) でデータスケーリング則を引く。 joint scaling レシピは標準レシピに対しておよそ 5 倍 (正確には 5.17 倍) のデータ効率を与える。 この勝ちはトークン数に対してほぼ一定で、 10 兆トークン規模に外挿しても保たれる見込み。 有限のモデルでも実現でき、 例えば 1B モデルの 5 個アンサンブルで約 3.7 倍。 学習計算は要るが、 推論計算は 蒸留 (distillation) 大きなモデルやアンサンブルの振る舞いを、 小さな単一モデルに模倣させて圧縮する手法。 この論文では 8 個アンサンブル (計約 2.4B) を単一の 300M モデルに蒸留し、 アンサンブルの利得の約 83% を保持できることを示す。 学習時に test-time の計算を前払いすれば、 推論計算の小さな高データ効率モデルが得られる。 自己蒸留 (同じ構成の生徒へ蒸留) でも損失が下がり、 2 個アンサンブルを暗黙に学習する見方と結びつく で減らせる。 8 個アンサンブル (計約 2.4B) を単一の 300M モデルに蒸留すると、 利得の約 83% を保持できる。 さらに意外なことに、 自己蒸留 — 300M の教師を同じ構成の新しい 300M の生徒に蒸留すると損失が下がり、 正則化レシピの漸近線すら上回る。 これは 2 個アンサンブルを暗黙に学習する見方と結びつく。 IID 損失だけを追ったのに、 傾向はそのまま下流ベンチマークでも働き (約 9% の改善)、 pre-training を超えた設定 — 継続事前学習でも成立する。 73B トークンのうち 4B の数学トークンだけで全 73B 学習と同等の性能に届く、 およそ 17 倍 (正確には 17.5 倍) のデータ効率。
編集所見
この発表の核心は 「データの壁」 を逆手に取る発想にある。 これまで研究は 「計算を節約する」 方向に最適化されてきたが、 計算が年 4 倍で増えデータが年 3% しか増えない以上、 やがて 「計算は余り、 データが希少」 という体制に入る。 そこでは正則化・アンサンブル・蒸留という古典的な道具が、 データ効率の武器として蘇る。 そして 「漸近線」 を物差しに据えることで、 レシピを 「無限の計算でどこまで到達できるか」 で評価し直す。 同じ Paper Club の Akshay Vegesna の発表 が 「AI と人間の sample efficiency の差」 を問題提起したのと、 この論文の 「データ希少下でいかに学ぶか」 は同じ硬貨の表裏になっている。 司会の Chaubard が所属する Chris Ré 研の 「固定データ + 無限計算でどこまで汎化できるか」 という関心が、 この最終発表に直接つながっている点も、 イベント全体の通奏低音として読める。
着眼点
古典手法の 「復権」 という構図
正則化・アンサンブル・蒸留は何十年も前からある手法。 この論文の面白さは、 新奇なアルゴリズムを発明するのではなく、 「計算は余りデータは希少」 という新しい体制でこれらを measure し直したこと。 とりわけ 「データ制約下では、 一つの大きなモデルより小さなモデルの委員会のほうが良い」 という結論は、 大規模単一モデルへ向かう近年の直感を、 条件付きで逆転させる。
自己蒸留が漸近線を超える不思議
同じ構成のモデルへ自分を蒸留するだけで損失が下がり、 正則化レシピの漸近線すら上回る — 直感に反するこの結果を、 論文は 「自己蒸留は暗黙に 2 個アンサンブルを学習している」 という先行研究の見方と結びつけて説明する。 アンサンブルの利得を、 推論コストを増やさずに単一モデルへ畳み込めることを示す象徴的な現象になっている。
動画の構成 (本セグメント)
- (50:37) 司会による紹介 — sample efficiency への執着、 Chris Ré 研の関心
- (51:24) Konwoo Kim 登壇、 共著者 (Suhas・Percy・Tatsu) の紹介
- (51:38) pre-training が能力を伸ばしてきた歴史 (文脈内学習 → アライメント → 推論)
- (52:41) データは年 3%、 計算は年 4〜5 倍 — データの壁
- (53:16) 中心の問い — データ制約・計算無制限の pre-training
- (54:14) スケーリング則と漸近線、 200M トークン DCLM の設定
- (55:59) 標準レシピは過適合する
- (56:28) 30 倍の weight decay、 漸近線 3.43
- (57:44) アンサンブル — 低い漸近線、 joint scaling の二重極限
- (1:02:28) データスケーリング則 — 5.17 倍のデータ効率
- (1:04:06) 蒸留・自己蒸留、 下流ベンチ、 数学 CPT の 17.5 倍
関連リンク
- 論文 「Pre-training under infinite compute」 (arXiv 2509.14786、 Stanford、 2025-09)
- Konwoo Kim 個人サイト
- YC Paper Club 動画 (本セグメント 51:24〜)
用語集
- データ制約・計算無制限 (data-constrained, compute-unconstrained)
- 固定された少量のデータしかないが、 計算は無制限に使える体制。 インターネットの人間生成テキストが年 3% 増に対し pre-training 計算は年 4〜5 倍増のため、 1 データ点あたりの計算が年 4 倍で増え続け、 やがてこの体制に入る。 小さな料理本と無限の調理時間に喩えられる。
- 漸近線 (asymptote)
- スケーリング則のべき乗則が収束する平らな下限。 そのレシピが無限の計算で到達できる最良の損失を表し、 レシピの 「天井」 に当たる。 漸近線が低いレシピほど根本的に優れている。 この論文は漸近線を評価の物差しとして導入した。
- 正則化 / weight decay
- モデルがデータを丸暗記 (過適合) するのを抑える手法。 この論文では計算最適な値の約 30 倍という強い weight decay をパラメータ数ごとに最適調整し、 損失をきれいなべき乗則 (漸近線 3.43) に乗せる。 小さなデータを丸暗記させない 「厳しい食事制限」 に近い。
- アンサンブル (ensembling)
- 独立に学習した複数モデルの予測を組み合わせる古典手法。 データが乏しいとき、 一つの大きな専門家より小さな独立専門家の委員会のほうが良く汎化する。 漸近線が正則化レシピより低く、 計算を揃えても勝つ。 正則化と合成した joint scaling で約 5.17 倍のデータ効率。
- 蒸留 / 自己蒸留 (distillation)
- 大きなモデルやアンサンブルの振る舞いを小さな単一モデルに模倣させて圧縮する手法。 8 個アンサンブル (計約 2.4B) を単一 300M に蒸留して利得の約 83% を保持。 自己蒸留 (同じ構成の生徒へ蒸留) でも損失が下がり、 2 個アンサンブルを暗黙に学習する見方と結びつく。
- 継続事前学習 (continued pre-training)
- 既存モデルを特定領域のデータで追加学習すること。 この論文では 3B モデルを、 全 73B トークンのうち 4B の数学トークンだけで継続事前学習し、 データ効率の工夫で全 73B 学習と同等性能に到達 — およそ 17.5 倍のデータ効率を示した。