コービー・クロフォード / Kobie Crawford · 18:06 「結局、 問題は推論力ではなかった。 ツールの使い方だった」
タイトルは挑発的だが、 Kobie Crawford は釘を刺す — モデルが大きいこと自体を否定するわけではない。 主張は、 正しい問題に正しいデータを当てれば大きな勝ちがある、 ということ。 題材は Snorkel の研究チームが見つけた具体例 — 40 億 (4B) パラメータのモデルを、 金融分析のツール使用タスクで 2350 億 (235B) パラメータのモデルより強くする。
なぜ 「大きいモデルを足す」 と考えるのか
エンタープライズの本番運用では、 性能が足りないと反射的に 「もっと大きいモデルを入れよう、 賢くなって解決するはず」 となりがち。 だがコスト・速度・セキュリティ、 そして金融や医療では on-prem (自前運用) とデータ管理の要件が絡む。 ここで Crawford が立てる仮説は、 小さいモデルでも RL (強化学習) Reinforcement Learning。 Crawford の整理では、 モデルの『核となる知識』を入れ替えるより、『振る舞い (behavior)』を変えるのに向く。 今回のケースでは、 大モデルに足りなかったのは知識ではなくツールを使う規律だったため、 RL が適切な道具になった (= 本人の枠組み) で正しいデータを使えば、 必要な性能に届く、 というもの。 RL は核となる知識の入れ替えより、 振る舞いを変えるのに向く — そして今回足りなかったのは知識ではなく振る舞いだった、 という直感が出発点になる。
Terence Tao 効果 — 賢さは要らなかった
共同研究の rLLM チームは、 大モデルを当てる発想を Terence Tao 効果 rLLM / Agentica チームの言い回し。 あらゆる数学に通じる天才数学者 Terence Tao のような『深い推論力』は、 金融アナリストの実務 (SQL でデータを取り、 足し引きする) には必ずしも要らない。 大きく賢いモデルを当てるのは『クルミを割るのに大ハンマー』であり、 本当に要るのは正しい振る舞いだ、 という比喩 と呼ぶ。 あらゆる数学に通じる天才 Terence Tao の深さは、 金融アナリストの実務 (SQL でデータを取り、 足し引きする) には要らない。 「大きいモデルは、 クルミを割るのに大ハンマーを使うようなもの」。 デモでは 235B の Qwen3 が 「YouTube 広告収益の前年比成長率は?」 に対し、 存在しないテーブルへクエリを投げ、 環境を調べずに再試行し、 結局ハルシネーションで答える。 推論は優れていても、 ツールを使う規律が無かった (= デモ環境での例示)。
アプローチ — データと GRPO、 そして $500 未満
まず高品質データセット。 Snorkel は expert-in-the-loop を一貫させ、 金融分析の専門家 (PhD レベルや実務家) を引き込み、 タスクが実際に答え可能・検証可能かを確かめる検証ステップを置く。 学習は GRPO Group Relative Policy Optimization。 1 応答あたり単一のスカラー報酬に対して最適化する RL アルゴリズムで、 LLM の RL でよく使われる。 今回は 4B モデルの fine-tune に用いた による RL。 UC Berkeley が開発する rLLM / Agentica UC Berkeley (Sky Computing Lab) の Agentica プロジェクトが開発する、 LLM 向け RL のオープンソースフレームワーク。 Snorkel はこの rLLM を学習フレームワークに、 自前の FinQA 環境を組み合わせた フレームワークと、 Snorkel 自作の FinQA 環境 Snorkel の自己完結型 RL 環境。 22 社の公開企業の SEC 10-K データに対し、 エージェントがツールでスキーマを発見し制約付き SQL を書く 290 問の専門家厳選データセット。 外部依存が無く、 Prime Intellect や OpenEnv / Hugging Face Spaces で公開・ホスト可能 を使う。 FinQA は外部依存の無い自己完結型で、 Prime Intellect や OpenEnv (GitHub / Hugging Face Spaces) で公開されている。 学習は 1 回 $500 未満 (8 基の H100) で回った — RL が高価とは限らない、 という実証。 「Karpathy が嫌っていても」 RL で必要な性能に届けられる、 と冗談を添える。
結果と ablation — 効いたのは tool discipline
RL を施した 4B は 235B を上回った。 Snorkel のブログは Qwen3-4B-Instruct-2507 が Qwen3-235B-A22B を約 60 分の 1 の規模で上回ったことを確認している。 講演では Pass@1 がおよそ倍になったと述べる (= 本人談)。 成功デモでは、 4B はまずツールでテーブル名を取得し、 スキーマを調べ、 クエリでエラーが出ると正しい列へ自己修正する。 大モデルが選ばなかったツールを、 小モデルは使った。
意外だったのは ablation。 single-table のみの学習が最大の uplift を出し (Snorkel ブログでは single-table のみが最良の社内 Pass@1 66.3%)、 mixed や curriculum を上回った。 しかも、 より難しい multi-table の FinQA reasoning でも同様に伸び、 講演では 13.9% → 26.6% へ跳ねたと紹介する (= rLLM ブログ引用)。 つまり鍵は推論ではなく tool discipline (ツールの規律) この講演の中心概念。 答える前に、 利用可能なツール・テーブル・スキーマを調べ、 エラーを観測して自己修正する、 という学習された習慣。 推測やハルシネーションをしない。 性能の真の駆動因は raw な推論力ではなくこの規律だった、 というのが Snorkel の結論 。 答える前にツールを調べ、 スキーマを確認し、 エラーを直す習慣 — その振る舞いを直したことが、 別の問題セットへの汎化まで生んだ。
編集所見
この talk の値打ちは、 スケール最大主義への 「再現可能で値段付きの反証」 にある。 4B を RL で 1 回 $500 未満に仕上げ、 235B を金融ツール使用で超える。 効いたのは推論力ではなく tool discipline だった、 という診断が核心。 Snorkel のポジション (データ品質の会社) ではあるが、 「失敗の原因となる具体的な振る舞いを特定し、 rubric ベースの eval でそれを局在化し、 そこに当てるデータを作る」 という方法論として一般化できる。 「大きくして賢くする」 ではなく 「小さく保って正しく振る舞わせる」 — コスト・速度・on-prem が要件のエンタープライズにとって、 RL 環境 + 良いデータの現実的な威力を、 数字付きで archive できる一枚。
着眼点
診断の単位を 「振る舞い」 に置く
失敗を 「モデルが賢くない」 ではなく 「ツールを使う規律が無い」 と切り分けたのが効いている。 Snorkel の rubric ベース eval は、 正誤を多数の下位質問に分解し、 どの振る舞いが壊れているかを局在化する。 GRPO 自体は単一の報酬しか使わないが、 どのデータを作るかの判断を rubric の豊かなフィードバックで決める、 という分業になっている。
RL は高価という通念への反証
1 回 $500 未満・8 基の H100 で非自明な性能向上が得られた事実は、 「RL は frontier lab のもの」 という通念を崩す。 自前でホストする小モデルを持ち、 性能を上げたいが手が出ないと思っている現場への 「実は手が届く」 という call to action になっている。 FinQA 環境が OpenEnv / Prime Intellect で公開されている点も、 再現性を担保する。
動画の構成
- (00:57) 自己紹介 — Kobie Crawford、 Snorkel 「Frontier AI Data Lab」
- (02:46) UC Berkeley の rLLM / Agentica チームとの共同研究
- (03:02) 目標 — 4B モデルで 235B を金融ツール使用タスクで超える
- (03:13) なぜ反射的に 「大きいモデルを足す」 のか (コスト・速度・on-prem)
- (05:42) RL は知識ではなく振る舞いを変える道具
- (06:13) 「クルミに大ハンマー」 / Terence Tao 効果
- (06:59) 失敗デモ — 235B Qwen3 が存在しないテーブルを叩きハルシネーション
- (09:10) アプローチ — expert-in-the-loop のデータ + 検証
- (10:47) RL 設定 — GRPO、 4B、 rLLM、 約 21 時間、 1 回 $500 未満
- (12:09) FinQA 環境 — 自己完結、 Prime Intellect / OpenEnv、 290 + 79 問
- (13:43) 結果 — 4B が 235B 超え、 Pass@1 がほぼ倍
- (14:30) 成功デモ — テーブル発見・スキーマ確認・自己修正
- (16:32) ablation — single-table のみが最大の uplift
- (17:19) 汎化 — multi-table FinQA reasoning が 13.9% → 26.6%
- (18:30) まとめ — rubric ベース eval で失敗する振る舞いを特定
関連リンク
- Snorkel AI 公式
- Snorkel ブログ (本研究 「How Tool Discipline Let a 4B Model Outsmart a 235B Giant」 を含む)
- rLLM (UC Berkeley Agentica) GitHub
- AI Engineer 講演動画 「Stop Making Models Bigger, Make Them Behave」 (YouTube)
用語集
- tool discipline (ツールの規律)
- 答える前に、 利用可能なツール・テーブル・スキーマを調べ、 エラーを観測して自己修正する学習された習慣。 推測やハルシネーションをしない。 この研究では、 性能の真の駆動因が raw な推論力ではなくこの規律だった、 というのが結論。
- GRPO
- Group Relative Policy Optimization。 1 応答あたり単一のスカラー報酬に対して最適化する RL アルゴリズム。 LLM の RL でよく使われ、 今回は 4B モデルの fine-tune に用いた。
- rLLM / Agentica
- UC Berkeley (Sky Computing Lab) の Agentica プロジェクトが開発する LLM 向け RL のオープンソースフレームワーク。 Snorkel はこの rLLM を学習フレームワークに、 自前の FinQA 環境を組み合わせた。
- FinQA 環境
- Snorkel の自己完結型 RL 環境。 22 社の公開企業の SEC 10-K データに対し、 エージェントがツールでスキーマを発見し制約付き SQL を書く 290 問の専門家厳選データセット。 外部依存が無く Prime Intellect / OpenEnv で公開。 より難しい multi-table の 「FinQA reasoning」 サブセットもある。
- Qwen3-235B-A22B / Qwen3-4B-Instruct-2507
- 比較された大きな推論モデルと、 fine-tune された小モデル。 RL を施した 4B が、 約 60 分の 1 の規模で 235B を金融ツール使用タスクで上回った。
- rubric ベース eval
- 応答の正誤を多数の下位質問に分解し、 どの振る舞いが壊れているかを局在化する Snorkel の評価法。 どのデータを作るべきかの判断に使う。 RL 自体 (GRPO) は単一の報酬値で回す。