アイザック・ロビンソン / Isaac Robinson · 10:24 「私たちはある意味勝った」
Vision AI 領域で、 CNN (畳み込みニューラルネットワーク) と Transformer が長く競争を続けてきた。 当初 Transformer は計算量が画像辺長 n に対して n の 4 乗で増えるため、 CNN の n の 2 乗に勝てるはずがない、 と多くの人が考えた。 ところが 2026 年現在、 主要な Vision 基盤モデルはほぼすべて ViT 系。 「なぜ 4 乗スケーリングのモデルが、 効率の良い CNN を打ち負かしたのか」 を 17 分で整理するテクニカルセッション。
語るのは アイザック・ロビンソン (Isaac Robinson) — Roboflow (コンピュータービジョンのモデル / ツール / プラットフォーム企業) のリサーチ責任者。 同社の RF-DETR (リアルタイム物体検出 + セグメンテーションモデル、 ICLR 2026 で発表予定) と RF100-VL ベンチマークを主導開発した立場で、 Vision 基盤モデルの進化を最前線から整理する。
講演の構造は明快。 (1) CNN は eye-inspired な誘導バイアス (translation invariance、 階層構造) で n の 2 乗計算量、 (2) ViT は誘導バイアスなしで n の 4 乗、 (3) その間に SWIN (windowed attention)、 ConvNeXt (CNN を Transformer 風にリデザイン)、 HERA (高速化 + ピラミッド構造) などの中間試行が並ぶ。 そして結論 — 結局 ViT が勝った。 理由は 3 つ: 大規模事前トレーニング、 LLM 由来の高速化 (FlashAttention 等)、 事前トレーニング互換の NAS。
講演の最後で示される具体例が SAM (Segment Anything Model) シリーズの系譜。 SAM (ViT MAE) → MobileSAM (TinyViT ハイブリッドで置き換え) → SAM2 (HERA に乗せ替え) → SAM3 (アーキテクチャ刷新を諦め、 大規模事前訓練済み ViT バックボーンをそのまま使う)。 「アーキテクチャ最適化」 から 「事前訓練ロックイン」 への流れが、 4 世代にわたって明確に見える。 そして Roboflow の RF-DETR は、 この事前訓練済み ViT に NAS を適用することで、 SAM3 比 40 倍の高速化を同精度で実現した、 という最新成果でまとめる。
着眼点
HERA の論文に隠れていた 「FlashAttention で測定していない」 という注釈 (08:50)
HERA (Hierarchical attention の Vision モデル) は ViT に対して同精度で速度向上を示した、 とされていた。 ところが論文の脚注に 「FlashAttention で測定していない」 とある。 Isaac が FlashAttention を再度追加して測定し直すと、 HERA の優位は消える。 「LLM の世界で爆発的に成長したインフラ (FlashAttention 等) が、 そのまま Vision にも借用されることで、 ViT の n の 4 乗が実用上の問題でなくなった」 という重要な転換点が、 この論文の脚注の検証で示される。 「LLM ブームの恩恵を ViT が間接的に受け取った」 という業界横断の力学が見える瞬間。
SAM の世代別バックボーンに見える 「事前訓練ロックイン」 (10:40)
SAM (Segment Anything Model) シリーズの世代別バックボーン変遷。 SAM = ViT (MAE で事前訓練)、 MobileSAM = TinyViT (CNN-Transformer ハイブリッドで置き換える試み)、 SAM2 = HERA + MAE (ピラミッド構造で速度改善)、 SAM3 = 「アーキテクチャ刷新を諦めて、 大規模事前訓練済みバックボーンをそのまま使う」。 「これが私たちにできる最善のこと」 と SAM3 は実質的に宣言している、 という Isaac の解釈。 ただし代償として、 SAM3 は 8 億パラメータ + T4 GPU で 300ms — エッジデバイスでは使えない、 という制約も明示される。
RF-DETR = 事前訓練 ViT + NAS で SAM3 比 40 倍高速 (12:30)
Roboflow の解 — 大規模事前訓練済み ViT バックボーンを変えずに、 NAS (Neural Architecture Search) で柔軟なノブをドロップイン互換で導入する。 ターゲットデータとターゲットハードウェアに応じて、 同じ家族の高性能モデルを一度に生成する。 結果: RF100-VL での測定で、 SAM3 ファインチューン比 40 倍の高速化を同精度で実現、 SAM3 比でも 15 倍の高速化。 「画一的な基盤モデルの展開柔軟性のなさ」 を NAS で解く、 という Roboflow のポジショニングが具体性を帯びる。 ICLR 2026 で発表予定の論文。
「VIT 特化事前訓練 + LLM 由来高速化 + NAS」 という 3 要素の処方箋 (15:01)
講演を通じて示された ViT が勝った理由を、 最後に 3 行に整理する。 (1) ViT 特化の大規模事前トレーニング (DynaV2/V3、 MAE 等)、 (2) LLM の世界で爆発的に成長したインフラ (FlashAttention 等) からの高速化借用、 (3) 事前訓練と互換性のあるニューラル アーキテクチャ検索。 「それで終わりです、 私たちはある意味勝った」 という締め方が、 Vision コミュニティの数年の議論に区切りをつける。 同会場の Stephen Batifol (BFL) の Self-Flow が「外部エンコーダー不要で生成」 を主張するのと並べると、 「事前訓練済み ViT バックボーンの活用」 vs 「外部エンコーダー不要化」 という、 表現学習を巡る 2 つの異なるアプローチが浮かび上がる。
動画の構成
- (00:00) 自己紹介、 Vision バックボーン進化の概要
- (00:30) CNN の特徴 — eye-inspired 誘導バイアス、 translation invariance、 階層構造、 n の 2 乗
- (01:20) Transformer の登場 — sets-to-sets、 誘導バイアスなし、 n の 4 乗
- (01:55) ViT (Vision Transformer) — 16x16 パッチ + 位置エンコーディング
- (02:50) 競争の問い — CNN の n²と ViT の n⁴ どちらが勝つか
- (03:00) 結論 — ViT、 大規模事前訓練と LLM 由来の高速化のおかげ
- (04:00) SWIN — windowed attention、 シフトウィンドウで畳み込み的に近づく
- (05:00) ConvNeXt — CNN を Transformer 風にリデザイン
- (06:00) HERA — ピラミッド構造 + 高速化主張
- (08:00) DynaV2/V3 + ViT 特化事前訓練 — 自己教師あり学習が完全教師ありに迫る
- (08:50) HERA の論文の脚注に 「FlashAttention で未測定」 と書かれていた
- (09:30) FlashAttention 再追加 → HERA の速度優位が消失
- (10:24) 「私たちはある意味勝った」 — ViT 派の勝利宣言
- (10:40) SAM 系譜 — SAM (ViT MAE) → MobileSAM (TinyViT) → SAM2 (HERA) → SAM3 (事前訓練 ViT そのまま)
- (12:00) SAM3 のコスト — 8 億パラメータ、 T4 GPU で 300ms、 エッジデバイス不可
- (12:30) Roboflow RF100-VL — 基盤モデルが下流タスクにどの程度伝達するか測定
- (13:00) RF-DETR — SAM3 比 40 倍高速、 同精度、 ICLR 2026 発表予定
- (14:00) NAS で同じ事前訓練バックボーンから家族全モデルを生成
- (15:01) 3 要素の処方箋 — 大規模事前訓練 + LLM 高速化 + 互換 NAS
- (15:30) Q&A — マルチモーダル (動画・画像・テキスト) アーキテクチャ、 JEPA / V-JEPA の評価
出典
How Transformers Finally Ate Vision — Isaac Robinson, Roboflow (AI Engineer)