推論は「コスト」ではなく「能力」 — Tanishq Kumar (Stanford) の Speculative Speculative Decoding

YC Paper Club 2026 / 講演約 14 分

タニシュク・クマール / Tanishq Kumar · 05:53 「推論は今日、コストや利便性のレバーとして見られている。だが 1 年、 2 年、 3 年のうちに、推論は能力として見られるようになる」

第 1 回 YC Paper Club (2026-05-20、 Y Combinator、 Mountain View) の 5 本立て 1 本目。講演約 14 分 (動画 03:49〜)。講師は Tanishq Kumar (Stanford CS 博士課程)。論文は Tri Dao (Princeton / Together AI)、 Avner May (Together AI) との共著「Speculative Speculative Decoding」 (arXiv 2603.03251、 ICLR 2026)。

Tanishq Kumar は学習 (training) を専門にしてきた研究者で、推論 (inference) は「重みを渡して行列を掛けるだけ、なぜチームが要るのか」と当初は捉えていたと明かす。その認識は覆った。この talk は推論を一つの主張へ束ねる — 推論速度は単なる効率ではなく、到達できる知能の上限そのものになる、という主張。

推論は「コスト」ではなく「能力」

推論コストが学習コストを上回る、 RL は推論のラッパーであり pre-training の計算量を超えつつある — この 2 点はよく語られる。 Kumar が強調する 3 点目は別の角度にある。性能が「考える量」に比例して伸びるアルゴリズムを持つなら、 1 秒あたりに吐けるトークン数 (tokens per second) が、そのまま引き出せる知能のピークになる。だから推論は速くするほど賢くなる、という関係が成り立つ。 Kumar は「2 万基の B200 を並べてリーマン予想だけに取り組ませる」未来図を冗談半分に掲げ、推論を能力の問題として語り直す。

投機的デコーディングの仕組み

前提となる投機的デコーディングを Kumar は丁寧に図解する。小さな draft モデル (tiny llama) がトークンを 1 個ずつ先読みで起草し、大きな target モデル (big llama) がそれを 1 回の forward pass でまとめて検証する。

速い理由は非対称性にある — 「生成するより検証するほうが易しい」。 transformer は系列中の多くのトークンの確率を 1 パスで並列に得られるが、生成は 1 個ずつしかできない。遅い逐次生成を小さく速いモデルに任せ、大モデルは 1 パスで「自分ならこのトークンを出しただろうか」を確率で確かめる。 plausible なら採用、そうでない点で棄却する。棄却した位置では追加の forward pass なしに 1 個「ボーナストークン」を無料で引ける。この無料の 1 個が後で効いてくる。

逐次依存というボトルネック

投機的デコーディングは「flops をレイテンシに両替する」通貨交換だと Kumar は言う。先に計算しておいた予測が当たれば時間を早送りできる — CPU の投機実行と同じ深いアイデア。だが普通の投機的デコーディングは無限には押し進められない。起草を増やしすぎると採用率が落ちる。最大のボトルネックは draft と target の逐次依存にある。ラウンド T の検証が終わらないとラウンド T+1 の起草が始められない。前の検証結果を prefix として上に積む必要があるためで、ここに論理的な依存が残る。

SSD — 起草と検証を同時に走らせる

SSD (Speculative Speculative Decoding) の高レベルの発想は単純 — 逐次操作を並列化する。起草と検証を同時に起こす。通常は同じハードウェア上で交互に動かすが、 SSD では両者を別ハードに分け (論文では target を 4 基の H100、 draft を別の 1 基の H100 に配置)、同時に走らせる。

target が今のラウンドを検証している間、 draft はその検証結果として最も起こりそうな帰結を即座に先読みし、その上に次のラウンドを先回りで起草し始める。当たっていれば、次に target が起草を求めた瞬間に答えが用意できている — 起草のレイテンシを丸ごと隠せる。さらに検証には時間がかかるので、その間に起草できるトークンが増え、 1 ラウンドあたりの期待トークン数が上がってさらに速くなる。

検証結果を当てる

設計上の難所は「検証の結果を事前に予測できるのか」。検証は大モデルの知能を使う工程で、本来は予測しづらいはず。鍵は draft 自身が持つ情報にある。 draft が青いトークンを生成したとき、採用しなかった別の候補トークンが残っている。それらが検証のボーナストークン候補になる。つまり draft モデルのトークン分布から、 target 側で起こりそうな帰結を当てにいく。候補は語彙数 (数万〜十数万) ぶんあって広いが、実際には up to 90% の精度で当たり、速度向上には十分。当てた複数の系列を共有 prefix の上で並列にデコードすればよい。

結果 — レイテンシとスループットの両取り

数字が上がるという「AI 研究の北極星」を Kumar は自嘲気味に掲げる。オープンソースエンジン (vLLM の投機的デコーディング、最速だった SGLang) と並べると、 SSD はそれらより速い。投機的デコーディングは普通レイテンシには効くがスループットに効くかは不明瞭 — SSD はこの設定で両方に効いた。論文の平均値では最適化された投機的デコーディング比で約 30% 速いという控えめな表現だが、 talk では Kumar が「次にサンフランシスコのハウスパーティで踊る人々を眺めながら、 4 基の H100 で Llama 3 70B を毎秒 300 トークンで回す方法を自分は知っている、と隅で思える」と締めた。機微情報だ、と冗談を添えて。

編集所見

この talk の価値は「推論を能力として再定義する」一文に集約される。推論最適化は普通「安く・速く・便利に」という運用の話に閉じる。 Kumar はそこに「考える量に性能が比例するなら、推論速度 = 知能の上限」という等式を持ち込み、 SSD という具体的なアルゴリズムでその主張を裏打ちする。 test-time scaling (推論時に計算を積んで賢くする流れ) が前提になりつつある時代に、「速さは贅沢ではなく能力」という捉え方は、投機的デコーディングの位置付けを運用層から研究の最前線へ引き上げる。

着眼点

「検証は生成より易しい」という transformer の非対称性

SSD を含む投機的デコーディング全体を支えるのは、 transformer が「系列中の多数トークンの確率を 1 パスで並列に得られるが、生成は 1 個ずつしかできない」という構造的な非対称性。速い下書き役と、一目で全体を確かめる遅い校閲役の分業に喩えられる。校閲のほうが下書きより速い、という直感に反する性質が、高速化の土台になっている。

逐次依存を「別ハードで並列化」する発想

SSD の核心は新しい数学ではなく、逐次依存をハードウェア配置で解く工学判断にある。 target と draft を同じ箱に同居させず、別 GPU に分けて同時稼働させる。検証を待たずに「最も起こりそうな帰結」を先回りして起草する点は、 CPU の分岐予測 (投機実行) をそのまま LLM 推論に持ち込んだ構図。当たれば時間を早送りでき、外れたらバックアップ戦略に切り替える。

動画の構成 (本セグメント)

(03:49) Tanishq Kumar 登壇、タイトルの「speculative」が 2 回ある理由は意図的
(04:00) 自己紹介 (Stanford 博士課程)、 Tri Dao・Avner May との共同研究
(05:53) 中心主張 — 推論は近い将来「能力」として見られる
(06:30) 高速推論のサイドバイサイドのデモ (autoregressive / vLLM 投機 / SSD)
(07:54) 投機的デコーディングの図解 — draft と target、ボーナストークン
(10:48) 通貨交換としての投機、逐次依存というボトルネック
(11:53) SSD の発想 — 起草と検証の並列化、別ハード配置
(13:36) 検証結果の予測、 draft の未採用トークンの活用
(16:09) 結果 — vLLM / SGLang との比較、レイテンシとスループットの両取り

関連リンク

タニシュク・クマール

Tanishq Kumar

Stanford CS 博士課程 / 推論高速化 (Speculative Speculative Decoding)

用語集

投機的デコーディング (Speculative Decoding): 小さな draft モデルがトークンを 1 個ずつ先読みで生成し、大きな target モデルが 1 回の forward pass でまとめて検証する LLM 推論高速化手法。「検証は生成より易しい」という transformer の非対称性を使い、大モデルが出しても不自然でないトークンだけを採用する。棄却点では追加計算なしにボーナストークンを 1 個引ける。
SSD (Speculative Speculative Decoding): 通常の投機的デコーディングに残る draft↔target の逐次依存を解消する手法 (arXiv 2603.03251、 ICLR 2026)。起草と検証を別ハードウェアで同時並行させ、 target が検証している間に draft が検証結果を予測して次ラウンドを先回り起草する。起草レイテンシを隠し、レイテンシとスループットの両方を改善する。最適化版エンジンは Saguaro と命名。
draft モデル / target モデル: draft (小モデル) は速い逐次生成で「次に来そうなトークン」を先読みで提案する役。 target (大モデル、本命) は draft の提案を 1 パスで検証し、自分が出しても不自然でないトークンだけを採用する役。 SSD では両者を別 GPU に分けて同時稼働させる。
ボーナストークン (bonus token): 投機的デコーディングで、トークンを棄却した位置において追加の forward pass なしに 1 個サンプルできるトークン。 SSD では、 draft が起草時に採用しなかった候補トークンが、検証のボーナストークン候補として再利用され、検証結果の予測 (up to 90% 精度) に使われる。
test-time scaling / 推論 = 能力: 推論時に計算を積むほど性能が伸びる手法群を指す。 Kumar の中心主張は、性能が「考える量」に比例するなら、 1 秒あたりのトークン数がそのまま引き出せる知能の上限になる、というもの。これにより推論速度はコストや利便性ではなく能力の問題になる。

comment is stripped from the HTML output. */}