大きくするな、振る舞いを直せ — Kobie Crawford (Snorkel) が示す「4B が 235B を超える」 tool discipline

AI Engineer 2026 / 講演約 21 分

コービー・クロフォード / Kobie Crawford · 18:06 「結局、問題は推論力ではなかった。ツールの使い方だった」

AI Engineer 2026 での講演「Stop Making Models Bigger, Make Them Behave」 (講演約 21 分、動画公開 2026-06-10、 AI Engineer 公式チャンネル)。講師は Kobie Crawford (Snorkel AI の AI/ML Developer Advocate)。 Snorkel AI は「Frontier AI Data Lab」を掲げ、 Stanford AI Lab 発 (2019)、 expert-in-the-loop のデータ品質と RL 環境を作る。 UC Berkeley の rLLM / Agentica チームと組み、 40 億パラメータのモデルを RL で 2350 億パラメータのモデル超えにした金融分析の事例を示す。

タイトルは挑発的だが、 Kobie Crawford は釘を刺す — モデルが大きいこと自体を否定するわけではない。主張は、正しい問題に正しいデータを当てれば大きな勝ちがある、ということ。題材は Snorkel の研究チームが見つけた具体例 — 40 億 (4B) パラメータのモデルを、金融分析のツール使用タスクで 2350 億 (235B) パラメータのモデルより強くする。

なぜ「大きいモデルを足す」と考えるのか

エンタープライズの本番運用では、性能が足りないと反射的に「もっと大きいモデルを入れよう、賢くなって解決するはず」となりがち。だがコスト・速度・セキュリティ、そして金融や医療では on-prem (自前運用) とデータ管理の要件が絡む。ここで Crawford が立てる仮説は、小さいモデルでも RL (強化学習) で正しいデータを使えば、必要な性能に届く、というもの。 RL は核となる知識の入れ替えより、振る舞いを変えるのに向く — そして今回足りなかったのは知識ではなく振る舞いだった、という直感が出発点になる。

Terence Tao 効果 — 賢さは要らなかった

共同研究の rLLM チームは、大モデルを当てる発想を Terence Tao 効果と呼ぶ。あらゆる数学に通じる天才 Terence Tao の深さは、金融アナリストの実務 (SQL でデータを取り、足し引きする) には要らない。「大きいモデルは、クルミを割るのに大ハンマーを使うようなもの」。デモでは 235B の Qwen3 が「YouTube 広告収益の前年比成長率は?」に対し、存在しないテーブルへクエリを投げ、環境を調べずに再試行し、結局ハルシネーションで答える。推論は優れていても、ツールを使う規律が無かった (= デモ環境での例示)。

アプローチ — データと GRPO、そして $500 未満

まず高品質データセット。 Snorkel は expert-in-the-loop を一貫させ、金融分析の専門家 (PhD レベルや実務家) を引き込み、タスクが実際に答え可能・検証可能かを確かめる検証ステップを置く。学習は GRPO による RL。 UC Berkeley が開発する rLLM / Agentica フレームワークと、 Snorkel 自作の FinQA 環境を使う。 FinQA は外部依存の無い自己完結型で、 Prime Intellect や OpenEnv (GitHub / Hugging Face Spaces) で公開されている。学習は 1 回 $500 未満 (8 基の H100) で回った — RL が高価とは限らない、という実証。「Karpathy が嫌っていても」 RL で必要な性能に届けられる、と冗談を添える。

結果と ablation — 効いたのは tool discipline

RL を施した 4B は 235B を上回った。 Snorkel のブログは Qwen3-4B-Instruct-2507 が Qwen3-235B-A22B を約 60 分の 1 の規模で上回ったことを確認している。講演では Pass@1 がおよそ倍になったと述べる (= 本人談)。成功デモでは、 4B はまずツールでテーブル名を取得し、スキーマを調べ、クエリでエラーが出ると正しい列へ自己修正する。大モデルが選ばなかったツールを、小モデルは使った。

意外だったのは ablation。 single-table のみの学習が最大の uplift を出し (Snorkel ブログでは single-table のみが最良の社内 Pass@1 66.3%)、 mixed や curriculum を上回った。しかも、より難しい multi-table の FinQA reasoning でも同様に伸び、講演では 13.9% → 26.6% へ跳ねたと紹介する (= rLLM ブログ引用)。つまり鍵は推論ではなく tool discipline (ツールの規律) 。答える前にツールを調べ、スキーマを確認し、エラーを直す習慣 — その振る舞いを直したことが、別の問題セットへの汎化まで生んだ。

編集所見

この talk の値打ちは、スケール最大主義への「再現可能で値段付きの反証」にある。 4B を RL で 1 回 $500 未満に仕上げ、 235B を金融ツール使用で超える。効いたのは推論力ではなく tool discipline だった、という診断が核心。 Snorkel のポジション (データ品質の会社) ではあるが、「失敗の原因となる具体的な振る舞いを特定し、 rubric ベースの eval でそれを局在化し、そこに当てるデータを作る」という方法論として一般化できる。「大きくして賢くする」ではなく「小さく保って正しく振る舞わせる」 — コスト・速度・on-prem が要件のエンタープライズにとって、 RL 環境 + 良いデータの現実的な威力を、数字付きで archive できる一枚。

着眼点

診断の単位を「振る舞い」に置く

失敗を「モデルが賢くない」ではなく「ツールを使う規律が無い」と切り分けたのが効いている。 Snorkel の rubric ベース eval は、正誤を多数の下位質問に分解し、どの振る舞いが壊れているかを局在化する。 GRPO 自体は単一の報酬しか使わないが、どのデータを作るかの判断を rubric の豊かなフィードバックで決める、という分業になっている。

RL は高価という通念への反証

1 回 $500 未満・8 基の H100 で非自明な性能向上が得られた事実は、「RL は frontier lab のもの」という通念を崩す。自前でホストする小モデルを持ち、性能を上げたいが手が出ないと思っている現場への「実は手が届く」という call to action になっている。 FinQA 環境が OpenEnv / Prime Intellect で公開されている点も、再現性を担保する。

動画の構成

(00:57) 自己紹介 — Kobie Crawford、 Snorkel 「Frontier AI Data Lab」
(02:46) UC Berkeley の rLLM / Agentica チームとの共同研究
(03:02) 目標 — 4B モデルで 235B を金融ツール使用タスクで超える
(03:13) なぜ反射的に「大きいモデルを足す」のか (コスト・速度・on-prem)
(05:42) RL は知識ではなく振る舞いを変える道具
(06:13) 「クルミに大ハンマー」 / Terence Tao 効果
(06:59) 失敗デモ — 235B Qwen3 が存在しないテーブルを叩きハルシネーション
(09:10) アプローチ — expert-in-the-loop のデータ + 検証
(10:47) RL 設定 — GRPO、 4B、 rLLM、約 21 時間、 1 回 $500 未満
(12:09) FinQA 環境 — 自己完結、 Prime Intellect / OpenEnv、 290 + 79 問
(13:43) 結果 — 4B が 235B 超え、 Pass@1 がほぼ倍
(14:30) 成功デモ — テーブル発見・スキーマ確認・自己修正
(16:32) ablation — single-table のみが最大の uplift
(17:19) 汎化 — multi-table FinQA reasoning が 13.9% → 26.6%
(18:30) まとめ — rubric ベース eval で失敗する振る舞いを特定

関連リンク

コービー・クロフォード

Kobie Crawford

Snorkel AI の AI/ML Developer Advocate (元 Databricks / MosaicML)

用語集

tool discipline (ツールの規律): 答える前に、利用可能なツール・テーブル・スキーマを調べ、エラーを観測して自己修正する学習された習慣。推測やハルシネーションをしない。この研究では、性能の真の駆動因が raw な推論力ではなくこの規律だった、というのが結論。
GRPO: Group Relative Policy Optimization。 1 応答あたり単一のスカラー報酬に対して最適化する RL アルゴリズム。 LLM の RL でよく使われ、今回は 4B モデルの fine-tune に用いた。
rLLM / Agentica: UC Berkeley (Sky Computing Lab) の Agentica プロジェクトが開発する LLM 向け RL のオープンソースフレームワーク。 Snorkel はこの rLLM を学習フレームワークに、自前の FinQA 環境を組み合わせた。
FinQA 環境: Snorkel の自己完結型 RL 環境。 22 社の公開企業の SEC 10-K データに対し、エージェントがツールでスキーマを発見し制約付き SQL を書く 290 問の専門家厳選データセット。外部依存が無く Prime Intellect / OpenEnv で公開。より難しい multi-table の「FinQA reasoning」サブセットもある。
Qwen3-235B-A22B / Qwen3-4B-Instruct-2507: 比較された大きな推論モデルと、 fine-tune された小モデル。 RL を施した 4B が、約 60 分の 1 の規模で 235B を金融ツール使用タスクで上回った。
rubric ベース eval: 応答の正誤を多数の下位質問に分解し、どの振る舞いが壊れているかを局在化する Snorkel の評価法。どのデータを作るべきかの判断に使う。 RL 自体 (GRPO) は単一の報酬値で回す。

comment is stripped from the HTML output. */}