音声 AI、「Her」の瞬間はいつ来るか — ニール・ゼギドゥール / Gradium (AI Engineer Europe)

AI Engineer Europe 2026/05/09

ニール・ゼギドゥール / Neil Zeghidour · 11:43 「音声 AI のデモのほとんどが、電話の隣の静かな部屋で撮影されている」

AI Engineer チャンネル (2026/05/09 公開、約 19 分)。ロンドン開催の AI Engineer Europe 2026 (4/8-10) でのキーノート

音声 AI が「来てる」と多くの人が感じる 2026 年。一方で、業界トップのデモ動画は不自然な静寂の中で撮影されている、と Neil は冒頭で指摘する。雑音、同時会話、相槌 — そういった現実の会話で起きる現象に、今の音声 AI はほぼ全滅する。「Her」の瞬間 (映画『her/世界でひとつの彼女』のような自然な人間と AI の会話) はまだ来ていない、という現状診断から始まる 19 分のキーノート。

語るのはニール・ゼギドゥール (Neil Zeghidour) — Gradium 創業 CEO (パリ拠点)。元 Google DeepMind で SoundStream / AudioLM 等の音声モデル論文を主導した研究者で、 2023 年末に Kyutai (Eric Schmidt / Xavier Niel らが資金提供したオープンサイエンス AI ラボ) を共同設立、そこで Moshi (世界初級のフル二重音声テキスト基盤モデル、 2024 年 OSS 公開) を主導。 2025 年 9 月に Gradium をスピンアウトし、 12 月に $70M (約 100 億円) のシード調達を完了している。

診断は三段。 (1) カスケードシステム (STT → LLM → TTS の直列) の限界。 (2) ツール呼び出しレイテンシが今や最大のボトルネック。 (3) フル二重 S2S が究極解、ただし現存するのは Moshi (Kyutai) と派生物 (NVIDIA Persona Plex) のみ。そして提示するのが、自社のオンデバイス TTS Gradium Phonon — 1 億パラメータ未満で iPhone CPU 上で動作する小さなモデル。「TTS の請求書で資金を燃やしているスタートアップ」を救うコスト構造の提案でもある。

最後の一文は刺すような断言で締めくくる。「『音声はコモディティ化した』と主張する一部の競合に、私は断固として反対する。それは完全に嘘。声は最も挑戦的な領域で、残された 1 マイルが最も解くのが難しい」 — 商品扱いするには早すぎる、という主張。

着眼点

「ほとんどの音声 AI デモは、電話の隣の静かな部屋で撮影されている」という診断 (11:43)

Neil が現状を批評する一文。半二重 (model is either listening or speaking) のモデルでは、雑音、咳、相槌、同時発話で破綻する。だから業界のデモは静寂の中で撮られる。日本語文化では「mm、 mm、ああ」という積極的相槌が会話の最大 20% を占める、と具体例も挙げる。デモビデオの撮影環境というメタな視点から、「半二重 vs フル二重」という技術的核心へと読者を引き込む構成が巧みで、「音声 AI は本当に来ているのか」という問いを 1 文でリフレーミングしている。

ツール呼び出し = 最大のレイテンシボトルネック、解決策は「filler」 (07:25)

TTS のレイテンシは 200ms、 LLM のレイテンシも 200ms、それでもまだ人間会話 (積み重ねた理解 + 200ms 以内の応答) には届かない、という前提のあと、本当のボトルネックを示す。ツール呼び出しは 4 秒以上かかることがあり、しかも予測不可能。これに 10ms / 20ms 単位の TTS 最適化で対抗するのは無意味、という整理。解決策が filler 設計 — LLM を 2 つに分け、ツール結果を待つ間、もう片方の LLM に自然な会話を続けさせる。ライブで「Wonderlust Travel の Colin」という雰囲気コーディングしたエージェントを動かして実演する。「東京に行きたい」と告げると、検索が走っている裏で「東京は素敵な選択ですね、超近代的な高層ビルと美しい神社の融合 ...」と Colin が話し続けて空白を埋める、という具体的な絵が出てくる。

「Her の瞬間」まで残っているのは S2S スケーラビリティ問題 (15:30 - 18:00)

フル二重 S2S は技術的に Moshi で示せた、とした上で Neil が次の壁として置くのはスケーラビリティ。「Her」の世界では主人公が 1 日中 AI と話している。コンシューマーアプリで音声を「常時オン」にすると、ハイパースケーラーは赤字運営しているのに API 料金は払いきれない。 LLM のコストはほぼゼロまで下がったが、 TTS だけは依然高い — 「TTS の請求書で資金調達分を燃やしている」スタートアップを実例として挙げる。 Gradium の答えが Phonon — 1 億パラメータ未満、スマートフォン CPU 上で動く軽量 TTS。「クラウド GPU は要らない、一切の API 料金は要らない」という消費者規模を見据えた設計。業界の「最後の月」 (last mile) は「クラウド前提のスケール」から「デバイス上で完結する小さなモデル」への構造転換、という主張。

動画の構成

(00:00) 自己紹介と問い — 「Her」の瞬間はいつ来るか
(03:55) ElevenLabs の最新デモ (ジム仲間 Logan) — 自然になってきたが、まだ届かない
(05:42) カスケードシステム (STT → LLM → TTS) の構造とレイテンシ
(06:15) TTS だけで 200ms、 LLM 含めて人間会話の遅延に届かない
(06:54) ツール呼び出し = 4 秒以上、予測不可能、これが本当のボトルネック
(07:25) filler 解決策 — LLM を分割、ツール待ちの間に自然な会話で埋める
(07:48) Wonderlust Travel デモ — 雰囲気コーディングしたエージェントの実演
(09:05) Speech-to-Speech (S2S) アーキテクチャの説明
(09:30) 半二重モデルの限界 — Moshi 以外はすべて半二重
(10:32) 半二重デモ — 相槌で会話が崩壊する
(11:43) 「ほとんどの音声 AI デモは静かな部屋で撮影されている」
(11:58) Moshi デモ — 共同創業者 Alex との 2 人会話
(13:10) パラ言語的理解 — トーンや感情の認識
(13:43) Moshi の評価 — フローは無敵、でもエージェントとしては愚か
(14:16) NVIDIA の Persona Plex (Moshi 派生)、観測性なし → 本番投入不可
(15:30) スケーラビリティ — 「常時オン」になる消費者規模の問題
(15:48) コスト構造 — TTS の請求書で資金を燃やすスタートアップ
(16:36) プライバシー — オンデバイスがユーザーに快適
(17:00) Gradium Phonon 発表 — 1 億パラメータ未満、 iPhone CPU 上で動作
(17:38) Phonon ライブデモ
(18:30) 「音声はコモディティ化した」説への反論 — 完全な嘘
(18:50) 結論 — 残された 1 マイルが最も解くのが難しい

出典

Voice AI: when is the 'Her' moment? — Neil Zeghidour, Gradium AI (AI Engineer)

ニール・ゼギドゥール

Neil Zeghidour

Gradium 創業 CEO / Kyutai 創設メンバー / 元 Google DeepMind

comment is stripped from the HTML output. */}