タニシュク・クマール / Tanishq Kumar · 05:53 「推論は今日、 コストや利便性のレバーとして見られている。 だが 1 年、 2 年、 3 年のうちに、 推論は能力として見られるようになる」
Tanishq Kumar は学習 (training) を専門にしてきた研究者で、 推論 (inference) は 「重みを渡して行列を掛けるだけ、 なぜチームが要るのか」 と当初は捉えていたと明かす。 その認識は覆った。 この talk は推論を一つの主張へ束ねる — 推論速度は単なる効率ではなく、 到達できる知能の上限そのものになる、 という主張。
推論は「コスト」ではなく「能力」
推論コストが学習コストを上回る、 RL は推論のラッパーであり pre-training の計算量を超えつつある — この 2 点はよく語られる。 Kumar が強調する 3 点目は別の角度にある。 性能が 「考える量」 に比例して伸びるアルゴリズムを持つなら、 1 秒あたりに吐けるトークン数 (tokens per second) が、 そのまま引き出せる知能のピークになる。 だから推論は速くするほど賢くなる、 という関係が成り立つ。 Kumar は 「2 万基の B200 を並べてリーマン予想だけに取り組ませる」 未来図を冗談半分に掲げ、 推論を能力の問題として語り直す。
投機的デコーディングの仕組み
前提となる 投機的デコーディング Speculative decoding。 小さな draft モデルがトークンを 1 個ずつ先回りで生成し (autoregressive)、 大きな target モデルがそれらを 1 回の forward pass でまとめて検証する手法。 transformer は系列中の多数のトークンの確率を並列に 1 パスで得られる (= 検証は速い) が、 生成は 1 個ずつしかできない (= 生成は遅い) という非対称性を利用する。 大モデルが生成しても不自然でないトークンだけを採用する を Kumar は丁寧に図解する。 小さな draft モデル (tiny llama) がトークンを 1 個ずつ先読みで起草し、 大きな target モデル (big llama) がそれを 1 回の forward pass でまとめて検証する。
速い理由は非対称性にある — 「生成するより検証するほうが易しい」。 transformer は系列中の多くのトークンの確率を 1 パスで並列に得られるが、 生成は 1 個ずつしかできない。 遅い逐次生成を小さく速いモデルに任せ、 大モデルは 1 パスで 「自分ならこのトークンを出しただろうか」 を確率で確かめる。 plausible なら採用、 そうでない点で棄却する。 棄却した位置では追加の forward pass なしに 1 個 「ボーナストークン」 を無料で引ける。 この無料の 1 個が後で効いてくる。
逐次依存というボトルネック
投機的デコーディングは 「flops をレイテンシに両替する」 通貨交換だと Kumar は言う。 先に計算しておいた予測が当たれば時間を早送りできる — CPU の投機実行と同じ深いアイデア。 だが普通の投機的デコーディングは無限には押し進められない。 起草を増やしすぎると採用率が落ちる。 最大のボトルネックは draft と target の逐次依存にある。 ラウンド T の検証が終わらないとラウンド T+1 の起草が始められない。 前の検証結果を prefix として上に積む必要があるためで、 ここに論理的な依存が残る。
SSD — 起草と検証を同時に走らせる
SSD (Speculative Speculative Decoding) Tanishq Kumar・Tri Dao・Avner May による推論高速化手法 (arXiv 2603.03251、 ICLR 2026)。 通常の投機的デコーディングに残る draft↔target の逐次依存を解消し、 起草と検証を別ハードウェア上で同時並行させる。 target が現在のラウンドを検証している間に、 draft は検証結果を予測して次ラウンドを先回りで起草する。 最適化版エンジンは Saguaro と命名 の高レベルの発想は単純 — 逐次操作を並列化する。 起草と検証を同時に起こす。 通常は同じハードウェア上で交互に動かすが、 SSD では両者を別ハードに分け (論文では target を 4 基の H100、 draft を別の 1 基の H100 に配置)、 同時に走らせる。
target が今のラウンドを検証している間、 draft はその検証結果として最も起こりそうな帰結を即座に先読みし、 その上に次のラウンドを先回りで起草し始める。 当たっていれば、 次に target が起草を求めた瞬間に答えが用意できている — 起草のレイテンシを丸ごと隠せる。 さらに検証には時間がかかるので、 その間に起草できるトークンが増え、 1 ラウンドあたりの期待トークン数が上がってさらに速くなる。
検証結果を当てる
設計上の難所は 「検証の結果を事前に予測できるのか」。 検証は大モデルの知能を使う工程で、 本来は予測しづらいはず。 鍵は draft 自身が持つ情報にある。 draft が青いトークンを生成したとき、 採用しなかった別の候補トークンが残っている。 それらが検証のボーナストークン候補になる。 つまり draft モデルのトークン分布から、 target 側で起こりそうな帰結を当てにいく。 候補は語彙数 (数万〜十数万) ぶんあって広いが、 実際には up to 90% の精度で当たり、 速度向上には十分。 当てた複数の系列を共有 prefix の上で並列にデコードすればよい。
結果 — レイテンシとスループットの両取り
数字が上がるという 「AI 研究の北極星」 を Kumar は自嘲気味に掲げる。 オープンソースエンジン (vLLM の投機的デコーディング、 最速だった SGLang) と並べると、 SSD はそれらより速い。 投機的デコーディングは普通レイテンシには効くがスループットに効くかは不明瞭 — SSD はこの設定で両方に効いた。 論文の平均値では最適化された投機的デコーディング比で約 30% 速いという控えめな表現だが、 talk では Kumar が 「次にサンフランシスコのハウスパーティで踊る人々を眺めながら、 4 基の H100 で Llama 3 70B を毎秒 300 トークンで回す方法を自分は知っている、 と隅で思える」 と締めた。 機微情報だ、 と冗談を添えて。
編集所見
この talk の価値は 「推論を能力として再定義する」 一文に集約される。 推論最適化は普通 「安く・速く・便利に」 という運用の話に閉じる。 Kumar はそこに 「考える量に性能が比例するなら、 推論速度 = 知能の上限」 という等式を持ち込み、 SSD という具体的なアルゴリズムでその主張を裏打ちする。 test-time scaling (推論時に計算を積んで賢くする流れ) が前提になりつつある時代に、 「速さは贅沢ではなく能力」 という捉え方は、 投機的デコーディングの位置付けを運用層から研究の最前線へ引き上げる。
着眼点
「検証は生成より易しい」 という transformer の非対称性
SSD を含む投機的デコーディング全体を支えるのは、 transformer が 「系列中の多数トークンの確率を 1 パスで並列に得られるが、 生成は 1 個ずつしかできない」 という構造的な非対称性。 速い下書き役と、 一目で全体を確かめる遅い校閲役の分業に喩えられる。 校閲のほうが下書きより速い、 という直感に反する性質が、 高速化の土台になっている。
逐次依存を 「別ハードで並列化」 する発想
SSD の核心は新しい数学ではなく、 逐次依存をハードウェア配置で解く工学判断にある。 target と draft を同じ箱に同居させず、 別 GPU に分けて同時稼働させる。 検証を待たずに 「最も起こりそうな帰結」 を先回りして起草する点は、 CPU の分岐予測 (投機実行) をそのまま LLM 推論に持ち込んだ構図。 当たれば時間を早送りでき、 外れたらバックアップ戦略に切り替える。
動画の構成 (本セグメント)
- (03:49) Tanishq Kumar 登壇、 タイトルの 「speculative」 が 2 回ある理由は意図的
- (04:00) 自己紹介 (Stanford 博士課程)、 Tri Dao・Avner May との共同研究
- (05:53) 中心主張 — 推論は近い将来 「能力」 として見られる
- (06:30) 高速推論のサイドバイサイドのデモ (autoregressive / vLLM 投機 / SSD)
- (07:54) 投機的デコーディングの図解 — draft と target、 ボーナストークン
- (10:48) 通貨交換としての投機、 逐次依存というボトルネック
- (11:53) SSD の発想 — 起草と検証の並列化、 別ハード配置
- (13:36) 検証結果の予測、 draft の未採用トークンの活用
- (16:09) 結果 — vLLM / SGLang との比較、 レイテンシとスループットの両取り
関連リンク
- 論文 「Speculative Speculative Decoding」 (arXiv 2603.03251、 ICLR 2026)
- SSD 推論エンジン (GitHub: tanishqkumar/ssd)
- Hugging Face 論文ページ
- YC Paper Club 動画 (本セグメント 03:49〜)
用語集
- 投機的デコーディング (Speculative Decoding)
- 小さな draft モデルがトークンを 1 個ずつ先読みで生成し、 大きな target モデルが 1 回の forward pass でまとめて検証する LLM 推論高速化手法。 「検証は生成より易しい」 という transformer の非対称性を使い、 大モデルが出しても不自然でないトークンだけを採用する。 棄却点では追加計算なしにボーナストークンを 1 個引ける。
- SSD (Speculative Speculative Decoding)
- 通常の投機的デコーディングに残る draft↔target の逐次依存を解消する手法 (arXiv 2603.03251、 ICLR 2026)。 起草と検証を別ハードウェアで同時並行させ、 target が検証している間に draft が検証結果を予測して次ラウンドを先回り起草する。 起草レイテンシを隠し、 レイテンシとスループットの両方を改善する。 最適化版エンジンは Saguaro と命名。
- draft モデル / target モデル
- draft (小モデル) は速い逐次生成で 「次に来そうなトークン」 を先読みで提案する役。 target (大モデル、 本命) は draft の提案を 1 パスで検証し、 自分が出しても不自然でないトークンだけを採用する役。 SSD では両者を別 GPU に分けて同時稼働させる。
- ボーナストークン (bonus token)
- 投機的デコーディングで、 トークンを棄却した位置において追加の forward pass なしに 1 個サンプルできるトークン。 SSD では、 draft が起草時に採用しなかった候補トークンが、 検証のボーナストークン候補として再利用され、 検証結果の予測 (up to 90% 精度) に使われる。
- test-time scaling / 推論 = 能力
- 推論時に計算を積むほど性能が伸びる手法群を指す。 Kumar の中心主張は、 性能が 「考える量」 に比例するなら、 1 秒あたりのトークン数がそのまま引き出せる知能の上限になる、 というもの。 これにより推論速度はコストや利便性ではなく能力の問題になる。