主権という escape velocity — Gus Martins & Ian Ballantyne (Google DeepMind) の Gemma 4 と 「所有」

AI Engineer 2026 / 講演約 20 分

ガス・マルティンス / Gus Martins · 01:30 「モデルを所有したい場面がある。 自前のハードで動かしたい、 カスタマイズしたい、 インフラから出せない proprietary データを渡したい — そういうとき」

AI Engineer 2026 での講演 「Sovereign Escape Velocity: Ownership w Open Models」 (講演約 20 分、 動画公開 2026-06-10、 AI Engineer 公式チャンネル)。 講師は Gus Martins (Google DeepMind、 Gemma のプロダクトマネージャー)Ian Ballantyne (Google DeepMind、 生成 AI / on-device の Developer Relations Engineer)。 直前に公開された open model ファミリ Gemma 4 を題材に、 「最も賢いモデル」 ではなく 「所有 (ownership)」 と主権 (sovereignty) を主軸に置く。

Google に勤める Gus Martins は率直に言う — 「どのモデルが一番か」 と聞かれれば答えは Gemini。 だが話はそこで終わらない。 自前のハードで動かしたい、 カスタマイズしたい、 インフラから出せない proprietary データを扱いたい — そんな場面では、 最良の proprietary モデルでも直接は助けにならない。 そこで open model (オープンモデル) 重みを公開し、 利用者が自前のハードで動かし・カスタマイズし・所有できるモデル。 Google では Gemini (最も高性能・proprietary・API 経由) と Gemma (open・自前運用可) が補完関係にある。 所有によって loss of service や利用停止のリスクから自由になり、 データを自社に留められる が要る。 それが Gemma。 Gemini (最も高性能・proprietary・API) と Gemma (open) は補完関係にある、 という立て付け。

Gemma 4 のラインナップ — 「サイズあたりの知能」

Gemma 4 は 4 サイズ。 モバイル / エッジ向けの E2B / E4B (effective parameters) Gemma 4 の小型モデル。 『E』 は effective (実効) の意で、 GPU メモリ上の占有 (約 2B / 4B 相当) は総パラメータ数より小さい。 余剰のパラメータ (トークンのマッピング等) は他のメモリに置けるため、 例えば E2B は総計約 5B でも 2B 相当のメモリで動く。 テキスト + 画像 + 音声入力、 テキスト出力、 thinking・coding・function calling に対応し、 スマホ上で動く は 「E = effective (実効)」 を意味する命名で、 占有メモリは総パラメータ数より小さい (余剰パラメータを他メモリに逃がす)。 テキスト + 画像 + 音声入力に対応し、 スマホ上で動く。 大きい方は 26B MoE / 31B Dense Gemma 4 の大型モデル。 26B は Mixture of Experts で、 トークンごとに一部の expert だけが発火し、 約 4B 相当の footprint で 26B 規模の力を出す。 31B Dense が最も高性能。 Gus いわく 31B は 1 GPU で動き、 同等の競合は約 200GB (4〜5 GPU) を要する (= 講演談) — 26B は Mixture of Experts (約 4B 相当の footprint)、 31B Dense が最も高性能。 Gemma 4 では画像・音声入力が LLM 本体に直接流れる encoder-free のマルチモーダル構成になっている。

LM Arena (人間の選好による ELO) で、 Gemma 4 は open model の上位 — 講演では 4 位・7 位、 公式素材では 31B が 3 位・26B が 6 位 (= スナップショット差)。 上位 20〜30 の競合は少なくとも 2〜3 倍、 場合により 20 倍大きい。 「サイズあたりの知能が不釣り合いに高い」。 31B は 1 GPU で動き、 同等の競合は約 200GB (4〜5 GPU) を要する (= 講演談)。 「メール要約や雑多な作業、 コーディング、 文書を探す agentic な仕事に、 地球最賢のモデルが要るか? たぶん要らない」。 ai.dev で無料で試せる。

主権と Apache 2.0

なぜ所有が大事か。 Gus は 主権 (sovereignty) モデルの重みを自分で所有・運用・カスタマイズし、 ホスト型 API への依存を断つこと。 loss of service や 『もう使うな』 という利用停止に左右されず、 proprietary データを自社に留められる。 Gemma 4 が Apache 2.0 になったことで、 sovereign な機関 (政府・規制産業) の法務・調達の壁が下がった を挙げる — 重みを所有すれば、 loss of service や利用停止に左右されない。 大きな変更は Apache 2.0 ライセンス 寛容な標準オープンソースライセンス。 Gemma 3 までは独自の Gemma ライセンスで、 法務が独自ライセンスを嫌い調達に 18 ヶ月かかることもあった。 Gemma 4 が Apache 2.0 に移行したことで、 sovereign 機関やエンタープライズの法務レビューの障壁が大きく下がった への移行。 Gemma 3 までは独自の Gemma ライセンスで、 法務が独自ライセンスを嫌い調達に 18 ヶ月かかることもあった。 Apache 2.0 なら法務を説得しやすく、 多くの sovereign 機関が採用できる。 例として Ukraine の一部サービス、 Bulgarian の国民 LLM (Gemma 2 ベース)、 Brazilian ポルトガル語版 (Gemma 3 ベース) が挙がる (= いずれも講演談)。 もっとも、 ベースの多言語性能が既に強く、 言語特化の fine-tune は逓減しつつある、 とも。

on-device と enterprise — エネルギーで測る

Ian Ballantyne は agentic なワークロードのコストを 「トークン」 で、 on-device では 「エネルギー / GPU・NPU の利用」 で捉え直す。 OpenRouter の State of AI レポートでも、 プログラミングは入出力トークン生成量が最も多い部類。 高トークンのタスク (リファクタ、 解析、 小さなモジュールの生成) を、 所有するモデルへ offload する。 何を所有し何をクラウドへ送るかは、 能力 × ハードウェア適合 × レイテンシ × コストの閾値で決める。

デモは二つ。 スマホ上で skill を持つエージェント ( Google AI Edge Gallery Google の iOS / Android 向けアプリ。 on-device のモデルを試せる遊び場で、 Gemma 4 がデバイス上で skill を読み、 カレンダーや地図などのアプリを起動する function calling を実演できる。 Gemma 4 は前世代より確実に 『どの行動を取るべきか』 を推論し function call を出せる、 とされる 経由、 カレンダーや地図を起動)、 そして M4 Mac の LM Studio で 26B を走らせるマルチエージェント翻訳 (orchestrator が複数 sub-agent に翻訳を配り、 Web ページにまとめる)。 エンタープライズでは、 300B+ で複数 GPU が要った仕事を、 単一の H100 / A100、 場合により L4 へ縮小できる。 医療特化の MedGemma Gemma の医療特化バリアント (Google Health / DeepMind)。 医療テキスト・画像の理解に特化し、 private データ上で動かす前提。 1〜2 GPU で、 例えば病院 1 つを賄える規模にデプロイできる (= 規模感は講演談、 MedGemma 自体は実在) を 1〜2 GPU で病院 1 つに、 という例も。 導入は OpenAI 互換クライアントを Ollama や LM Studio に向けるだけ、 と締める。

編集所見

この talk の芯は 「frontier は最賢モデルではなく所有にある」 という再フレーミング。 Apache 2.0 の Gemma 4 が、 open model のリーダーボード上位に小さなサイズで並び、 1 GPU やスマホで動く — それを 「主権・エネルギーコスト・借りるのでなく所有できるもの」 という軸で語る。 プロダクトマネージャー (Gus) と DevRel エンジニア (Ian) の二人組で、 「なぜ open か」 と 「どう使うか」 を分担する構成も的確。 独自ライセンスから Apache 2.0 への移行を 「法務が 18 ヶ月かける」 という調達の現実から説く点は、 sovereign AI を spectrum として整理した deepset の talk と同じ系譜にあり、 「どのレベルの control と lock-in を抱えるか」 を選ぶ実務の地図になっている。 Android 上の AI を論じた同じ Google DeepMind の AMA とも接続する on-device の一枚。

着眼点

ライセンスが主権の実務的ボトルネック

技術ではなくライセンスが採用の壁になる、 という指摘が現実的。 独自ライセンスは法務に嫌われ調達が長期化し、 sovereign 機関は動けない。 Gemma 4 の Apache 2.0 化は、 性能やサイズの議論とは別レイヤーで 「誰が採用できるか」 を一気に広げる。 open model の競争が、 ベンチマークだけでなくライセンスの寛容さでも起きていることを示す。

コストを 「トークン」 から 「エネルギー」 へ読み替える

Ian の再フレーミング — on-device ではコストはトークン課金ではなく GPU / NPU のエネルギー利用になる — が示唆的。 「即座に応答が要るのか、 夜に充電中のバックグラウンドで処理できるのか」 で閾値が変わる。 所有・on-device になると、 コストの単位そのものが変わり、 何をいつ実行するかの設計が前面に出てくる。

動画の構成

  • (00:00) 自己紹介 — Gus と Ian、 Google DeepMind の Gemma チーム
  • (00:44) Gemma 4 公開、 なぜ Gemini と並んで open model が要るか
  • (01:30) モデルを所有する理由 — ハード・カスタマイズ・private データ
  • (02:18) Gemma 4 のラインナップ、 「effective」 の意味
  • (03:05) on-device の能力、 26B MoE と 31B Dense
  • (03:59) LM Arena ELO — サイズあたりの知能
  • (04:45) 経済性 — 1 GPU の 31B、 安い、 最賢でなくてよい場面
  • (05:37) ai.dev で試す、 vision + thinking + code execution
  • (07:11) 主権と Apache 2.0 への移行
  • (07:58) sovereign の例 — Ukraine、 Bulgarian、 Brazilian
  • (09:38) Ian — agentic なトークンコストと所有の論
  • (11:37) 閾値の枠組み — 能力・ハード・レイテンシ・コスト
  • (12:37) デモ — Google AI Edge Gallery のスマホ agent skill
  • (14:09) enterprise の縮小 — 単一 H100/A100/L4、 病院向け MedGemma
  • (15:46) デモ — LM Studio で 26B のマルチエージェント翻訳
  • (18:13) 導入 — OpenAI 互換、 eval、 serving コスト、 まとめ

関連リンク

用語集

Gemma 4
Google DeepMind の open-weight モデルファミリ (2026 年公開)。 4 サイズ — E2B / E4B (エッジ・モバイル)、 26B MoE、 31B Dense。 Apache 2.0 ライセンスで、 画像・音声入力が LLM 本体に直接流れる encoder-free のマルチモーダル構成。
effective parameters (E2B / E4B)
「E」 は effective (実効) の意。 GPU メモリ上の占有 (約 2B / 4B 相当) が総パラメータ数より小さい命名で、 余剰パラメータ (トークンのマッピング等) を他メモリに逃がす。 E2B は総計約 5B でも 2B 相当のメモリで、 スマホ上で動く。
主権 / 所有 (sovereignty / ownership)
モデルの重みを自分で所有・運用・カスタマイズし、 ホスト型 API への依存を断つこと。 loss of service や利用停止に左右されず、 proprietary データを自社に留められる。 Apache 2.0 化で sovereign 機関の法務・調達の壁が下がった。
Apache 2.0 ライセンス
寛容な標準オープンソースライセンス。 Gemma 3 までの独自ライセンスは法務に嫌われ調達に 18 ヶ月かかることもあった。 Gemma 4 の Apache 2.0 移行は、 性能とは別レイヤーで 「誰が採用できるか」 を広げる。
MedGemma / Google AI Edge Gallery
MedGemma は Gemma の医療特化バリアント (private データ上で運用、 1〜2 GPU で病院規模)。 Google AI Edge Gallery は on-device モデルを試す iOS / Android アプリで、 Gemma 4 がデバイス上で skill を読み function call でアプリを起動するデモに使われた。
LM Studio / Ollama
ローカルでモデルを動かすツール。 OpenAI 互換 API を提供し、 既存ワークフローに最小の変更で Gemma 等の open model を組み込める。 講演では LM Studio で 26B のマルチエージェント翻訳を実演した。
comment is stripped from the HTML output. */}