AI audio の現在地 — Thor Schaeff (Google DeepMind) が示す「音声理解」を土台にした audio スタック

AI Engineer Europe 2026 (London) / 講演約 19 分

ソーステン・「ソー」・シェフ / Thorsten "Thor" Schaeff · 12:56 「ここでは知能が音声モデルに直接焼き込まれている。テキストを経由して LLM に通し知能を得る cascading パイプラインとは違う」

AI Engineer Europe 2026 (London) での講演 (公式タイトル「From Transcription to Live Music: Gemini's Audio Stack」、スライド上は「What's new in AI audio」、講演約 19 分、動画公開 2026-06-09、 AI Engineer 公式チャンネル)。講師は Thorsten "Thor" Schaeff (Google DeepMind の Developer Relations Engineer、 Gemini API + Google AI Studio 担当、元 ElevenLabs)。 Gemini 3 の音声理解を土台に、音声理解 (Echo Script)・音声生成 (Voice Library)・リアルタイム会話 (Gemini 3.1 Flash Live)・音楽生成 (Lyria 3) を一通り実演する DevRel デモ。

Thor Schaeff は Google DeepMind の DevRel で、 Gemini API と Google AI Studio を担当する (前職 ElevenLabs で AI audio の DevRel)。「Gemini 3 がリリースされる前日にチームに加わった」と自己紹介する。 talk の主軸は単純で、 DeepMind の音声まわり — 理解・生成・リアルタイム・音楽 — がすべて Gemini 3 の音声理解という一つの土台の上に積まれている、という構図を実演で見せる。

土台は Gemini 3 の音声理解

Schaeff がまず据えるのは音声理解 (audio understanding) という土台。 Gemini 3 は音声を「ただ文字起こしする」のではなく、話者・言語・感情・抑揚・文脈、さらに話者が重なって話す場面まで把握する。「深く理解し、豊かに文字起こしし、頑健に音声を通して推論する。多数の言語・方言・アクセント・モダリティをシームレスに扱う」をゴールに掲げる。この音声理解が、後段の音声生成とリアルタイム会話の両方を支える、という積み上げを talk 全体の背骨に置く。

Echo Script — 1 リクエストで全部抜き出す

最初のデモは Echo Script 。純粋な文字起こしモデルと違い、音声から多くの情報を 1 回のリクエストで取り出す。 Schaeff は Gemini 3 Flash に response schema (構造化出力) を渡し、「話者を区別し、文脈があれば名前でラベル付け、正確なタイムスタンプ、言語、非英語なら英訳、感情を happy/sad/angry/neutral から特定、冒頭に全体の要約」を一つの指示で求める。結果は構造化されて返り、そのまま UI に流し込める。デモはドイツ語・フランス語・日本語 (これは外した、と本人が苦笑)・中国語と切り替えながら進み、言語と感情のラベリングが効く様子を見せる。

音声生成 — 約 30 の声を「演出する」

音声生成は他の TTS とアプローチが違う、と Schaeff は言う。大量の声のライブラリから性別やアクセントで絞り込むのではなく、 Gemini には約 30 の base voice があり、それを director's note (演出指示) で「どう演じるか」を方向付ける。音声理解が土台にあるので、声をアクセントや演じ方ごと変形できる。 AI Studio gallery の Voice Library アプリで、 audio profile (シーン)・director's note (演出指示)・サンプル文脈・読ませたい transcript を組み立てる。例として、 County Clare の賑わうパブという設定で「強く本物のアイルランド訛り」を効かせた声、続いてシンガポールの Hawker center 風の声 (「chicken rice」を勧める口調) を生成し、標準的なアメリカ英語の base voice から目的の声へ寄せていく様子を示す。

Gemini 3.1 Flash Live — sound-to-sound のリアルタイム

数週間前に launch したという Gemini 3.1 Flash Live は、ネイティブな sound-to-sound のリアルタイム多モーダルモデル。 WebSocket 経由でテキスト・音声・映像をリアルタイムに取り込み、リアルタイム音声と文字起こしを返す。 Schaeff が強調する設計上の差は、知能が音声モデルに直接焼き込まれている点 — テキストに変換して LLM に通して知能を得る cascading パイプラインではない。ベンチマークは音声領域では信用しきれない、と前置きしつつ、推論・思考がモデル内にあることを利点として挙げる。

デモは ai.studio/live で無料で試せる (クレジットカード不要) ことを示しつつ進む。 system instruction で「フレンドリーなアイルランド訛りで話せ」と与え、カメラ映像を取り込んで「見えてる?」と尋ねると、アイルランド訛りで服装 (Gemini シャツ + 後ろ向きの帽子) にコメントを返す。続けてドイツ語の詩を頼むと、アイルランド訛りがドイツ語にも適用されてしまう (= system instruction の調整が要る) という、仕様がよく分かる場面も。画面取り込みも可能で、映像は最大 1 fps で取り込む。

coding agent skills、 Lyria 3、 Live Jukebox

開発者向けに、 Live API を含む全 Gemini API 用の coding agent 向け skill が公開されている、と Schaeff は薦める。リアルタイム音声の実装は難所が多く、こうした skill を coding agent に入れると正しい方向へ steer できる、という DevRel らしい締め。

最後は音楽。 Lyria 3 は歌詞つきの楽曲を生成でき、 30 秒の jingle 向け Lyria 3 clip とフル曲向け Lyria 3 Pro の 2 系統がある。 Schaeff は「ラジオ局に電話して曲をリクエストした昔」になぞらえた Live Jukebox アプリを見せる — Gemini Live モデルに Lyria で作曲するツールを与え、「UK の startup シーンについてのドイツ語テクノ・シュラーガー」を即興でリクエストすると、 DJ 風の応答とともに楽曲が生成される。リアルタイム会話・ツール呼び出し・音楽生成を一つに束ねたデモになっている。

編集所見

この talk の背骨は「音声理解が全部の土台」という一文に尽きる。 Gemini 3 の音声理解 (感情・抑揚・話者重なり・多言語まで掴む) が、理解 (Echo Script)・生成 (Voice Library の演出)・リアルタイム (Flash Live) のすべてを下支えする、という積み上げ方を、デモの連なりで体感させる構成になっている。技術的に一番効いているのは「cascading パイプライン (音声→テキスト→LLM→音声) ではなく、知能を音声モデルに焼き込む」という設計判断。各段の受け渡しで nuance とレイテンシを失う relay 方式から、聞いてそのまま話す単一モデルへ、という移行を、アイルランド訛りやカメラ越しの会話で具体的に見せている。 DevRel らしく「AI Studio で無料で試せる」「coding agent には skill を入れろ」という入口の低さを一貫して押すのも特徴で、速報というより「いま手元で試せる音声 AI の見取り図」として archive 価値がある。

着眼点

「文字起こし」から「1 リクエストで構造化抽出」へ

Echo Script のデモが示すのは、音声処理が「文字に起こす」単機能から「話者・言語・感情・翻訳・要約を 1 API コールで構造化して返す」へ移ったこと。 response schema (structured output) を渡すだけで、結果をそのまま UI に流し込める。複数モデルを繋いだ pipeline ではなく、一つのモデルへの 1 リクエストで完結する点が、開発者体験を大きく変える。

cascading から baked-in へ — 音声 AI の構造転換

Flash Live の核心は「知能を音声モデルに焼き込む」設計。従来の音声アシスタントは音声→テキスト→LLM→音声の relay 方式で、各受け渡しで間 (ま) や訛りの nuance を落とし、レイテンシも積み上がった。 single の sound-to-sound モデルは、聞いた音をそのまま理解して話す。アイルランド訛りがドイツ語にまで適用されてしまう「失敗」のデモは、裏を返せば訛り・口調がモデル内部で一貫して扱われている証左になっている。

動画の構成

(00:00) 多言語あいさつのデモ + DeepMind の AI audio 概観
(01:31) 最近のリリース — Gemini 3、 Gemma 4 (オンデバイスのマルチモーダル音声理解)
(02:14) Gen Media は Veo 3.1 Lite、音声は Gemini 3.1 Flash Live
(03:10) Gemini 3 の音声理解 — 文字起こしを超える感情・抑揚・話者重なり・多言語
(04:14) Echo Script デモ (Gemini 3 Flash、 AI Studio gallery)
(04:46) 1 リクエストで要約・話者・timestamp・言語・感情・翻訳を抽出
(07:05) 1 API コール + response schema による structured output
(08:02) Gemini 3 を土台に専用音声モデルを積む
(08:38) 音声生成 — 約 30 の base voice を director's note で演出
(09:01) Voice Library アプリ (AI Studio gallery)
(10:25) アイルランド訛りの例 (County Clare のパブ)
(11:08) シンガポール Hawker center 風の例
(11:58) Gemini 3.1 Flash Live — sound-to-sound のリアルタイム多モーダル
(12:56) 知能はモデルに焼き込み (cascading パイプラインとの違い)
(13:09) ai.studio/live を無料で、アイルランド訛り + カメラのデモ
(14:07) ドイツ語の詩にアイルランド訛りが適用される
(15:00) 画面取り込み、映像は最大 1 fps
(16:31) Live API を含む Gemini coding agent skills
(15:54) Lyria 3 音楽生成 (clip 30 秒 / Pro フル曲)
(16:43) Live Jukebox デモ — UK startup シーンのドイツ語テクノ

関連リンク

ソーステン・「ソー」・シェフ

Thorsten "Thor" Schaeff

Google DeepMind Developer Relations Engineer / Gemini API + AI Studio (元 ElevenLabs)

用語集

音声理解 (audio understanding): 音声を文字起こしするだけでなく、話者・言語・感情・抑揚・文脈、話者の重なりまで把握する能力。 Gemini 3 がこれに長け、音声生成・リアルタイム会話の土台になる、というのが talk の背骨。
Echo Script: Schaeff が AI Studio で構築した音声解析デモアプリ。 Gemini 3 Flash への 1 回の API コールで response schema を渡し、要約・話者識別・タイムスタンプ・言語・感情・英訳をまとめて構造化出力する。純粋な文字起こしモデルとの違いを示す。
director's note (演出指示): Gemini の音声生成で、約 30 の base voice を「どう演じるか」で方向付ける指示。シーン・アクセント・感情を、声優への演技指導と同じ要領で与える。 AI Studio gallery の Voice Library アプリで実演された。
Gemini 3.1 Flash Live: Google DeepMind のリアルタイム会話モデル。 WebSocket 経由でテキスト・音声・映像を取り込み、リアルタイム音声とその文字起こしを返す sound-to-sound の多モーダルモデル。知能を音声モデルに焼き込んでおり、テキスト→LLM→TTS の cascading パイプラインとは異なる。 ai.studio/live で無料で試せる。
Lyria 3: Google DeepMind の音楽生成モデル。歌詞つき楽曲を生成でき、 30 秒の jingle 向け Lyria 3 clip とフル曲向け Lyria 3 Pro の 2 系統。 Live Jukebox デモでは Gemini Live に Lyria を呼ぶツールを与え、リクエストから即興で楽曲を生成した。

comment is stripped from the HTML output. */}