主権という escape velocity — Gus Martins & Ian Ballantyne (Google DeepMind) の Gemma 4 と「所有」

AI Engineer 2026 / 講演約 20 分

ガス・マルティンス / Gus Martins · 01:30 「モデルを所有したい場面がある。自前のハードで動かしたい、カスタマイズしたい、インフラから出せない proprietary データを渡したい — そういうとき」

AI Engineer 2026 での講演「Sovereign Escape Velocity: Ownership w Open Models」 (講演約 20 分、動画公開 2026-06-10、 AI Engineer 公式チャンネル)。講師は Gus Martins (Google DeepMind、 Gemma のプロダクトマネージャー) と Ian Ballantyne (Google DeepMind、生成 AI / on-device の Developer Relations Engineer)。直前に公開された open model ファミリ Gemma 4 を題材に、「最も賢いモデル」ではなく「所有 (ownership)」と主権 (sovereignty) を主軸に置く。

Google に勤める Gus Martins は率直に言う — 「どのモデルが一番か」と聞かれれば答えは Gemini。だが話はそこで終わらない。自前のハードで動かしたい、カスタマイズしたい、インフラから出せない proprietary データを扱いたい — そんな場面では、最良の proprietary モデルでも直接は助けにならない。そこで open model (オープンモデル) が要る。それが Gemma。 Gemini (最も高性能・proprietary・API) と Gemma (open) は補完関係にある、という立て付け。

Gemma 4 のラインナップ — 「サイズあたりの知能」

Gemma 4 は 4 サイズ。モバイル / エッジ向けの E2B / E4B (effective parameters) は「E = effective (実効)」を意味する命名で、占有メモリは総パラメータ数より小さい (余剰パラメータを他メモリに逃がす)。テキスト + 画像 + 音声入力に対応し、スマホ上で動く。大きい方は 26B MoE / 31B Dense — 26B は Mixture of Experts (約 4B 相当の footprint)、 31B Dense が最も高性能。 Gemma 4 では画像・音声入力が LLM 本体に直接流れる encoder-free のマルチモーダル構成になっている。

LM Arena (人間の選好による ELO) で、 Gemma 4 は open model の上位 — 講演では 4 位・7 位、公式素材では 31B が 3 位・26B が 6 位 (= スナップショット差)。上位 20〜30 の競合は少なくとも 2〜3 倍、場合により 20 倍大きい。「サイズあたりの知能が不釣り合いに高い」。 31B は 1 GPU で動き、同等の競合は約 200GB (4〜5 GPU) を要する (= 講演談)。「メール要約や雑多な作業、コーディング、文書を探す agentic な仕事に、地球最賢のモデルが要るか? たぶん要らない」。 ai.dev で無料で試せる。

主権と Apache 2.0

なぜ所有が大事か。 Gus は主権 (sovereignty) を挙げる — 重みを所有すれば、 loss of service や利用停止に左右されない。大きな変更は Apache 2.0 ライセンスへの移行。 Gemma 3 までは独自の Gemma ライセンスで、法務が独自ライセンスを嫌い調達に 18 ヶ月かかることもあった。 Apache 2.0 なら法務を説得しやすく、多くの sovereign 機関が採用できる。例として Ukraine の一部サービス、 Bulgarian の国民 LLM (Gemma 2 ベース)、 Brazilian ポルトガル語版 (Gemma 3 ベース) が挙がる (= いずれも講演談)。もっとも、ベースの多言語性能が既に強く、言語特化の fine-tune は逓減しつつある、とも。

on-device と enterprise — エネルギーで測る

Ian Ballantyne は agentic なワークロードのコストを「トークン」で、 on-device では「エネルギー / GPU・NPU の利用」で捉え直す。 OpenRouter の State of AI レポートでも、プログラミングは入出力トークン生成量が最も多い部類。高トークンのタスク (リファクタ、解析、小さなモジュールの生成) を、所有するモデルへ offload する。何を所有し何をクラウドへ送るかは、能力 × ハードウェア適合 × レイテンシ × コストの閾値で決める。

デモは二つ。スマホ上で skill を持つエージェント ( Google AI Edge Gallery 経由、カレンダーや地図を起動)、そして M4 Mac の LM Studio で 26B を走らせるマルチエージェント翻訳 (orchestrator が複数 sub-agent に翻訳を配り、 Web ページにまとめる)。エンタープライズでは、 300B+ で複数 GPU が要った仕事を、単一の H100 / A100、場合により L4 へ縮小できる。医療特化の MedGemma を 1〜2 GPU で病院 1 つに、という例も。導入は OpenAI 互換クライアントを Ollama や LM Studio に向けるだけ、と締める。

編集所見

この talk の芯は「frontier は最賢モデルではなく所有にある」という再フレーミング。 Apache 2.0 の Gemma 4 が、 open model のリーダーボード上位に小さなサイズで並び、 1 GPU やスマホで動く — それを「主権・エネルギーコスト・借りるのでなく所有できるもの」という軸で語る。プロダクトマネージャー (Gus) と DevRel エンジニア (Ian) の二人組で、「なぜ open か」と「どう使うか」を分担する構成も的確。独自ライセンスから Apache 2.0 への移行を「法務が 18 ヶ月かける」という調達の現実から説く点は、 sovereign AI を spectrum として整理した deepset の talk と同じ系譜にあり、「どのレベルの control と lock-in を抱えるか」を選ぶ実務の地図になっている。 Android 上の AI を論じた同じ Google DeepMind の AMA とも接続する on-device の一枚。

着眼点

ライセンスが主権の実務的ボトルネック

技術ではなくライセンスが採用の壁になる、という指摘が現実的。独自ライセンスは法務に嫌われ調達が長期化し、 sovereign 機関は動けない。 Gemma 4 の Apache 2.0 化は、性能やサイズの議論とは別レイヤーで「誰が採用できるか」を一気に広げる。 open model の競争が、ベンチマークだけでなくライセンスの寛容さでも起きていることを示す。

コストを「トークン」から「エネルギー」へ読み替える

Ian の再フレーミング — on-device ではコストはトークン課金ではなく GPU / NPU のエネルギー利用になる — が示唆的。「即座に応答が要るのか、夜に充電中のバックグラウンドで処理できるのか」で閾値が変わる。所有・on-device になると、コストの単位そのものが変わり、何をいつ実行するかの設計が前面に出てくる。

動画の構成

(00:00) 自己紹介 — Gus と Ian、 Google DeepMind の Gemma チーム
(00:44) Gemma 4 公開、なぜ Gemini と並んで open model が要るか
(01:30) モデルを所有する理由 — ハード・カスタマイズ・private データ
(02:18) Gemma 4 のラインナップ、「effective」の意味
(03:05) on-device の能力、 26B MoE と 31B Dense
(03:59) LM Arena ELO — サイズあたりの知能
(04:45) 経済性 — 1 GPU の 31B、安い、最賢でなくてよい場面
(05:37) ai.dev で試す、 vision + thinking + code execution
(07:11) 主権と Apache 2.0 への移行
(07:58) sovereign の例 — Ukraine、 Bulgarian、 Brazilian
(09:38) Ian — agentic なトークンコストと所有の論
(11:37) 閾値の枠組み — 能力・ハード・レイテンシ・コスト
(12:37) デモ — Google AI Edge Gallery のスマホ agent skill
(14:09) enterprise の縮小 — 単一 H100/A100/L4、病院向け MedGemma
(15:46) デモ — LM Studio で 26B のマルチエージェント翻訳
(18:13) 導入 — OpenAI 互換、 eval、 serving コスト、まとめ

関連リンク

ガス・マルティンス

Gus Martins

Google DeepMind / Gemma open model のプロダクトマネージャー (London)

イアン・バランタイン

Ian Ballantyne

Google DeepMind の Developer Relations Engineer (生成 AI / on-device)

用語集

Gemma 4: Google DeepMind の open-weight モデルファミリ (2026 年公開)。 4 サイズ — E2B / E4B (エッジ・モバイル)、 26B MoE、 31B Dense。 Apache 2.0 ライセンスで、画像・音声入力が LLM 本体に直接流れる encoder-free のマルチモーダル構成。
effective parameters (E2B / E4B): 「E」は effective (実効) の意。 GPU メモリ上の占有 (約 2B / 4B 相当) が総パラメータ数より小さい命名で、余剰パラメータ (トークンのマッピング等) を他メモリに逃がす。 E2B は総計約 5B でも 2B 相当のメモリで、スマホ上で動く。
主権 / 所有 (sovereignty / ownership): モデルの重みを自分で所有・運用・カスタマイズし、ホスト型 API への依存を断つこと。 loss of service や利用停止に左右されず、 proprietary データを自社に留められる。 Apache 2.0 化で sovereign 機関の法務・調達の壁が下がった。
Apache 2.0 ライセンス: 寛容な標準オープンソースライセンス。 Gemma 3 までの独自ライセンスは法務に嫌われ調達に 18 ヶ月かかることもあった。 Gemma 4 の Apache 2.0 移行は、性能とは別レイヤーで「誰が採用できるか」を広げる。
MedGemma / Google AI Edge Gallery: MedGemma は Gemma の医療特化バリアント (private データ上で運用、 1〜2 GPU で病院規模)。 Google AI Edge Gallery は on-device モデルを試す iOS / Android アプリで、 Gemma 4 がデバイス上で skill を読み function call でアプリを起動するデモに使われた。
LM Studio / Ollama: ローカルでモデルを動かすツール。 OpenAI 互換 API を提供し、既存ワークフローに最小の変更で Gemma 等の open model を組み込める。講演では LM Studio で 26B のマルチエージェント翻訳を実演した。

comment is stripped from the HTML output. */}