トランスフォーマーが、ついにビジョンを食べた — アイザック・ロビンソン / Roboflow (AI Engineer Europe)

AI Engineer Europe 2026/05/08

アイザック・ロビンソン / Isaac Robinson · 10:24 「私たちはある意味勝った」

AI Engineer チャンネル (2026/05/08 公開、約 17 分)。ロンドン開催の AI Engineer Europe 2026 (4/8-10) のテクニカルセッション

Vision AI 領域で、 CNN (畳み込みニューラルネットワーク) と Transformer が長く競争を続けてきた。当初 Transformer は計算量が画像辺長 n に対して n の 4 乗で増えるため、 CNN の n の 2 乗に勝てるはずがない、と多くの人が考えた。ところが 2026 年現在、主要な Vision 基盤モデルはほぼすべて ViT 系。「なぜ 4 乗スケーリングのモデルが、効率の良い CNN を打ち負かしたのか」を 17 分で整理するテクニカルセッション。

語るのはアイザック・ロビンソン (Isaac Robinson) — Roboflow (コンピュータービジョンのモデル / ツール / プラットフォーム企業) のリサーチ責任者。同社の RF-DETR (リアルタイム物体検出 + セグメンテーションモデル、 ICLR 2026 で発表予定) と RF100-VL ベンチマークを主導開発した立場で、 Vision 基盤モデルの進化を最前線から整理する。

講演の構造は明快。 (1) CNN は eye-inspired な誘導バイアス (translation invariance、階層構造) で n の 2 乗計算量、 (2) ViT は誘導バイアスなしで n の 4 乗、 (3) その間に SWIN (windowed attention)、 ConvNeXt (CNN を Transformer 風にリデザイン)、 HERA (高速化 + ピラミッド構造) などの中間試行が並ぶ。そして結論 — 結局 ViT が勝った。理由は 3 つ: 大規模事前トレーニング、 LLM 由来の高速化 (FlashAttention 等)、事前トレーニング互換の NAS。

講演の最後で示される具体例が SAM (Segment Anything Model) シリーズの系譜。 SAM (ViT MAE) → MobileSAM (TinyViT ハイブリッドで置き換え) → SAM2 (HERA に乗せ替え) → SAM3 (アーキテクチャ刷新を諦め、大規模事前訓練済み ViT バックボーンをそのまま使う)。「アーキテクチャ最適化」から「事前訓練ロックイン」への流れが、 4 世代にわたって明確に見える。そして Roboflow の RF-DETR は、この事前訓練済み ViT に NAS を適用することで、 SAM3 比 40 倍の高速化を同精度で実現した、という最新成果でまとめる。

着眼点

HERA の論文に隠れていた「FlashAttention で測定していない」という注釈 (08:50)

HERA (Hierarchical attention の Vision モデル) は ViT に対して同精度で速度向上を示した、とされていた。ところが論文の脚注に「FlashAttention で測定していない」とある。 Isaac が FlashAttention を再度追加して測定し直すと、 HERA の優位は消える。「LLM の世界で爆発的に成長したインフラ (FlashAttention 等) が、そのまま Vision にも借用されることで、 ViT の n の 4 乗が実用上の問題でなくなった」という重要な転換点が、この論文の脚注の検証で示される。「LLM ブームの恩恵を ViT が間接的に受け取った」という業界横断の力学が見える瞬間。

SAM の世代別バックボーンに見える「事前訓練ロックイン」 (10:40)

SAM (Segment Anything Model) シリーズの世代別バックボーン変遷。 SAM = ViT (MAE で事前訓練)、 MobileSAM = TinyViT (CNN-Transformer ハイブリッドで置き換える試み)、 SAM2 = HERA + MAE (ピラミッド構造で速度改善)、 SAM3 = 「アーキテクチャ刷新を諦めて、大規模事前訓練済みバックボーンをそのまま使う」。「これが私たちにできる最善のこと」と SAM3 は実質的に宣言している、という Isaac の解釈。ただし代償として、 SAM3 は 8 億パラメータ + T4 GPU で 300ms — エッジデバイスでは使えない、という制約も明示される。

RF-DETR = 事前訓練 ViT + NAS で SAM3 比 40 倍高速 (12:30)

Roboflow の解 — 大規模事前訓練済み ViT バックボーンを変えずに、 NAS (Neural Architecture Search) で柔軟なノブをドロップイン互換で導入する。ターゲットデータとターゲットハードウェアに応じて、同じ家族の高性能モデルを一度に生成する。結果: RF100-VL での測定で、 SAM3 ファインチューン比 40 倍の高速化を同精度で実現、 SAM3 比でも 15 倍の高速化。「画一的な基盤モデルの展開柔軟性のなさ」を NAS で解く、という Roboflow のポジショニングが具体性を帯びる。 ICLR 2026 で発表予定の論文。

「VIT 特化事前訓練 + LLM 由来高速化 + NAS」という 3 要素の処方箋 (15:01)

講演を通じて示された ViT が勝った理由を、最後に 3 行に整理する。 (1) ViT 特化の大規模事前トレーニング (DynaV2/V3、 MAE 等)、 (2) LLM の世界で爆発的に成長したインフラ (FlashAttention 等) からの高速化借用、 (3) 事前訓練と互換性のあるニューラルアーキテクチャ検索。「それで終わりです、私たちはある意味勝った」という締め方が、 Vision コミュニティの数年の議論に区切りをつける。同会場の Stephen Batifol (BFL) の Self-Flow が「外部エンコーダー不要で生成」を主張するのと並べると、「事前訓練済み ViT バックボーンの活用」 vs 「外部エンコーダー不要化」という、表現学習を巡る 2 つの異なるアプローチが浮かび上がる。

動画の構成

(00:00) 自己紹介、 Vision バックボーン進化の概要
(00:30) CNN の特徴 — eye-inspired 誘導バイアス、 translation invariance、階層構造、 n の 2 乗
(01:20) Transformer の登場 — sets-to-sets、誘導バイアスなし、 n の 4 乗
(01:55) ViT (Vision Transformer) — 16x16 パッチ + 位置エンコーディング
(02:50) 競争の問い — CNN の n²と ViT の n⁴ どちらが勝つか
(03:00) 結論 — ViT、大規模事前訓練と LLM 由来の高速化のおかげ
(04:00) SWIN — windowed attention、シフトウィンドウで畳み込み的に近づく
(05:00) ConvNeXt — CNN を Transformer 風にリデザイン
(06:00) HERA — ピラミッド構造 + 高速化主張
(08:00) DynaV2/V3 + ViT 特化事前訓練 — 自己教師あり学習が完全教師ありに迫る
(08:50) HERA の論文の脚注に「FlashAttention で未測定」と書かれていた
(09:30) FlashAttention 再追加 → HERA の速度優位が消失
(10:24) 「私たちはある意味勝った」 — ViT 派の勝利宣言
(10:40) SAM 系譜 — SAM (ViT MAE) → MobileSAM (TinyViT) → SAM2 (HERA) → SAM3 (事前訓練 ViT そのまま)
(12:00) SAM3 のコスト — 8 億パラメータ、 T4 GPU で 300ms、エッジデバイス不可
(12:30) Roboflow RF100-VL — 基盤モデルが下流タスクにどの程度伝達するか測定
(13:00) RF-DETR — SAM3 比 40 倍高速、同精度、 ICLR 2026 発表予定
(14:00) NAS で同じ事前訓練バックボーンから家族全モデルを生成
(15:01) 3 要素の処方箋 — 大規模事前訓練 + LLM 高速化 + 互換 NAS
(15:30) Q&A — マルチモーダル (動画・画像・テキスト) アーキテクチャ、 JEPA / V-JEPA の評価

出典

How Transformers Finally Ate Vision — Isaac Robinson, Roboflow (AI Engineer)

アイザック・ロビンソン

Isaac Robinson

Roboflow リサーチ責任者 (Research Lead) / RF-DETR 主導開発

comment is stripped from the HTML output. */}