ギヨーム・ヴェルナード / Guillaume Vernade · 06:51 「DeepMind 全体で平均 5 日に 1 つ新しいものを ship している。 GenMedia だけ見ても 1 ヶ月に 1 つ以上。 1 週間に複数 ship する週もある」
Guillaume Vernade の AI Engineer Europe 2026 Day 1 ワークショップは、 Google DeepMind の GenMedia model 群 全体を 1 つの workflow で俯瞰する希少な機会。 通常は Nano Banana の発表、 VO の発表、 Lyria の発表が個別に行われ、 開発者は model 単体での使用法を学ぶ。 この workshop は 4 model を 1 つのストーリー (本の illustration) に組み合わせる 統合 demo で、 GenMedia 全体の API 設計思想と組織内部の戦略まで開示する。
MEMEX 編集視点で重要なのは、 これが Anthropic の B2C / enterprise 戦略 や OpenAI の Codex / Agent 戦略 と並ぶ Google DeepMind 側の AI 製品全体戦略 を、 frontier lab 内部の Developer Advocate が直接語る位置づけにあること。 frontier 3 強の戦略 divergence を読み解く上で、 これまで MEMEX に欠けていた DeepMind 側の声を補う重要ノードになる。
「5 日に 1 ship」 ── リリース速度の戦略的意味
講演で最も衝撃的な数値が冒頭の自己紹介に紛れて出てくる。 「DeepMind 全体では平均 5 日に 1 つ何かを ship している。 GenMedia だけ見ても 1 ヶ月に 1 つ以上のリリース。 小さな機能まで含めれば週に複数 ship する週もある」。 これは frontier lab の中で公開されている最も具体的なリリース頻度の数値の 1 つ。
この速度の背景には DeepMind の world model vision がある。 Yann LeCun の新会社が世間で 「world model」 を喧伝し始める前から、 DeepMind は同じ vision を追っていた。 「全 modality を入力し、 全 modality を出力する 1 つの model」 を最終目標とし、 実装上は specific model (Nano Banana = 画像、 VO = 動画、 Lyria = 音楽、 Gemini = テキスト + マルチモーダル) を separately ship しつつ、 下層では同じ研究投資が回る構造。 「release 用には specific model のほうが扱いやすく、 main model を毎回 update して何かを壊すリスクを避けられる」 ── これが multi-model アーキテクチャを維持する理由として明確に言語化された。
API 統一の苦闘 ── Imagen ブランド消滅まで
Guillaume が Developer Advocate として「内部で戦った」 具体例として挙げたのが Imagen / Nano Banana の API 統一。 「各 model が独自の API set を持つのは normal developer の視点で全く意味をなさない。 model 名を swap するだけで動くべき」。 この主張で長く戦い続け、 最終的には Imagen ブランドが消滅 (Nano Banana に統合) する形で 「default win」 を勝ち取った経緯を吐露。
これは DeepMind 内部での Developer Advocate の役割の重み を示す。 model を作る研究側と、 実際に使う開発者側の間で 「common sense」 を仲介する役職が、 公式 model のブランド戦略まで動かす権限を持つ。 これは Anthropic の DevRel (Christian Ryan、 Erik Schluntz 等) や OpenAI の Developer Relations 体制と比較したとき、 frontier 3 強の組織設計の差として興味深い観察点。
Gemini 1.0 → 1.5 ── 「multimodal が外された」 事件
Guillaume が裏話として披露する Gemini の歴史的逸話。 Gemini 1.0 は本来 multimodal として ship される予定だった (DeepMind の全 model は最初から multimodal 前提で開発)。 しかしリリース時点で testing が間に合わず、 1.1 ではマルチモーダル input が removed。 1.5 で復活したが、 1.0 期の 「I can't deal with images」 という training の残滓が 1.5 でも時々出てしまう問題があった。 これが完全に解消されたのは 2.0 から。
この insights は、 frontier model の機能リリースが training の前提と切り離せない 構造を示す。 model の表面的機能は変えられても、 base に焼き込まれた 「自分が何ができるか / できないか」 の自己認識は、 後から完全に上書きすることが難しい。 これは Amanda Askell の AI Personality 議論 や Constitutional AI の文脈と直接接続する技術的洞察。
GenMedia 4 model の現状 ── 2026 年 4 月時点
Guillaume が workshop 用に整理した最新 model 状況:
| Model | 機能 | 価格 / 特徴 |
|---|---|---|
| Nano Banana 2 (Gemini 3.1 Flash Image) | 画像生成 | 520px - 4K、 search grounding + image grounding |
| VO 3.1 / 3.1 Lite | 動画生成 (image → video、 音声付き) | Lite は 5 セント / 秒 (40 セント / 8 秒動画) |
| Lyria | 音楽生成 (clip 30 秒 / full song 3 分) | Clip 4 セント / Full song 8 セント |
| Lyria Real-Time | ライブ音楽生成 (predict model) | prompt swap でリアルタイム mix 可能 |
Lyria Real-Time は Guillaume の個人的 favorite。 diffusion model ではなく predict model なので、 「prompt 与えて何かを得る」 ではなく 「生成し続け、 途中で prompt を swap して DJ 的に mix する」 設計。 これは多くの開発者がまだ気づいていない、 GenMedia の中で最も interaction model が異質な model。
Workshop の核心 ── Gemini が prompt を書き、 GenMedia が描く循環
Workshop の hands-on demo は Kenneth Grahame 「The Wind in the Willows」 (1908 年、 Gutenberg Project) を Gen Media で illustrate する。 構造:
- 本全体を Gemini に投入 ── File Upload API + chat mode で全 context 保持
- Gemini が character prompt を生成 ── 主要登場人物 (mole, water rat, toad, badger) 各々の portrait 用 prompt を structured output で出力
- Nano Banana 2 で character images 生成 ── 「colorful building block style」 等のグローバル style instruction で統一感確保
- Gemini が chapter prompt を生成 ── 各章の illustration prompt + 登場 character リスト
- Nano Banana 2 で chapter images 生成 ── 該当 character images を reference として渡す
- VO で chapter image を動画化 ── Gemini が動画 prompt を別途生成 (「image の数秒後に何が起きるか」)、 image を first frame として VO 3.1 に渡す
- Lyria で章 BGM 生成 ── Gemini が instrumental song prompt 生成、 30 秒 clip を各章用に作成
最も興味深い insight は demo 中盤に出てくる。 「GenMedia model の training data の多くは Gemini が書いた prompt。 だから Gemini に GenMedia 用 prompt を書かせると非常によく聞く」。 これは Google DeepMind 内部の model 開発の循環構造を端的に示す ── Gemini が GenMedia の training prompts を生成し、 GenMedia が image / video / music を生成し、 ユーザーは Gemini に prompt を作らせて GenMedia を駆動する。 全 model が 1 つの生態系として最適化されている。
Interactions API ── stateless から stateful へ
Workshop 中盤で Guillaume が「a few months ago に release した」 と紹介する Interactions API は、 GenMedia 利用パターンの転換点。 従来 API は stateless で、 毎 turn で全 context (本の全文等) を再送信する必要があり、 cost と latency の両方で重荷だった。
新 API は (a) interactions ID で server 側に context を保持、 (b) 自動 caching、 (c) discussion fork が容易 (1 つの context から複数方向に分岐、 例: 同じ書誌から song と cover image を並列生成)、 という 3 つの改善を提供。 現在は preview だが、 「I/O (Google I/O 2026) で default API になる可能性が高い」 と Guillaume が示唆。 これは GenMedia API の構造的シフトであり、 開発者にとってのインフラ的重要性は大きい。
Service Tier ── 3 段階の SLA
Workshop demo の途中で 「昨日 ship した」 と Guillaume が紹介するのが Service Tier Priority。 3 段階:
- Normal ── 通常価格、 通常待ち行列
- Flex ── 50% 割引、 ただし最大数分の遅延を許容
- Priority ── 2 倍価格、 fast track 保証
これは AWS の Spot Instance / On-Demand / Reserved 構造の API 版。 開発者が cost-latency trade-off を request 単位で選択できる。 frontier lab の API 設計が、 cloud インフラ的成熟度に達していることを示す。
編集所見 ── Google DeepMind 戦略の MEMEX 的位置づけ
このワークショップを MEMEX で取り上げる視点は 3 つ。
(1) frontier 3 強の戦略 divergence。 Anthropic は B2C (Cowork) + 開発者 (Claude Code) + enterprise (350B 評価額) を 1 つのプラットフォームで統合 (参照: Claude Cowork 解説、 参照: Anthropic 戦略)。 OpenAI は Codex + Agent + ChatGPT を分離して幅広く構える。 Google DeepMind は 「全 modality 統合 + 5 日に 1 ship」 という規模戦略。 同じ frontier 競争でも実装哲学が異なる。
(2) GenMedia 市場の構造化。 画像生成 (OpenAI DALL-E / Stable Diffusion / Black Forest Labs FLUX / Google Nano Banana)、 動画生成 (Sora / Runway / Pika / VO)、 音楽生成 (Suno / Udio / Lyria) が 個別市場として戦っていた状況から、 1 vendor の中で 4 modality を統合する Google DeepMind の動きは、 Black Forest Labs (FLUX) の Open Research 戦略 や Roboflow の Transformers ate Vision 議論と接続する 「multimodal 統合の競争」 の現状確認になる。
(3) Gemini が GenMedia の training を駆動する循環構造。 「training data の多くを Gemini が書く」 という insider 情報は、 frontier model 開発の self-bootstrapping の実例。 これは Anthropic の Skills 議論 や Karpathy の Software 3.0 での 「AI が AI を駆動する」 構造の Google DeepMind 版実装として読める。 frontier lab 全社が同じ方向 (AI による AI の高速 iteration) に収斂しつつある。
動画の構成 (主要箇所のみ抜粋)
- (00:00) 自己紹介、 Developer Advocate の役割定義
- (03:00) Imagen / Nano Banana API 統一の苦闘 (内部の戦い)
- (04:30) DeepMind の world model vision
- (05:40) Gemini 1.0 → 1.5 の multimodal 「外された」 事件
- (06:51) 「5 日に 1 ship」 ── DeepMind 全体のリリース速度
- (07:30) 最新 model 紹介 ── Nano Banana 2 / VO 3.1 / Lyria / Lyria Real-Time
- (10:00) Workshop 開始 ── Kenneth Grahame の本を illustrate する
- (15:00) Gemini File Upload + chat mode で全本を context 化
- (20:00) Structured output で character prompts 生成
- (23:00) Nano Banana 2 で character images 生成
- (28:00) Chapter image 生成 (character reference 渡し)
- (35:00) Interactions API の説明 (stateful)
- (38:00) Service Tier (Normal / Flex / Priority) ── 昨日 ship
- (45:00) VO 3.1 で chapter image を動画化
- (52:00) 「Wrong character speaking」 問題と prompt 改善 (Gemini に動画 prompt 別途生成させる)
- (60:00) Lyria で章 BGM 生成 ── instrumental + lyrics の両パターン
- (68:00) Gemini が GenMedia training data を書いている insider 話
- (75:00) 締め + Q&A