ニール・ゼギドゥール / Neil Zeghidour · 11:43 「音声 AI のデモのほとんどが、 電話の隣の静かな部屋で撮影されている」
音声 AI が 「来てる」 と多くの人が感じる 2026 年。 一方で、 業界トップの デモ動画 は不自然な静寂の中で撮影されている、 と Neil は冒頭で指摘する。 雑音、 同時会話、 相槌 — そういった現実の会話で起きる現象に、 今の音声 AI はほぼ全滅する。 「Her」 の瞬間 (映画 『her/世界でひとつの彼女』 のような自然な人間と AI の会話) はまだ来ていない、 という現状診断から始まる 19 分のキーノート。
語るのは ニール・ゼギドゥール (Neil Zeghidour) — Gradium 創業 CEO (パリ拠点)。 元 Google DeepMind で SoundStream / AudioLM 等の音声モデル論文を主導した研究者で、 2023 年末に Kyutai (Eric Schmidt / Xavier Niel らが資金提供したオープンサイエンス AI ラボ) を共同設立、 そこで Moshi (世界初級のフル二重音声テキスト基盤モデル、 2024 年 OSS 公開) を主導。 2025 年 9 月に Gradium をスピンアウトし、 12 月に $70M (約 100 億円) のシード調達を完了している。
診断は三段。 (1) カスケードシステム (STT → LLM → TTS の直列) の限界。 (2) ツール呼び出しレイテンシ が今や最大のボトルネック。 (3) フル二重 S2S が究極解、 ただし現存するのは Moshi (Kyutai) と派生物 (NVIDIA Persona Plex) のみ。 そして提示するのが、 自社の オンデバイス TTS Gradium Phonon — 1 億パラメータ未満で iPhone CPU 上で動作する小さなモデル。 「TTS の請求書で資金を燃やしているスタートアップ」 を救うコスト構造の提案でもある。
最後の一文は刺すような断言で締めくくる。 「『音声はコモディティ化した』 と主張する一部の競合に、 私は断固として反対する。 それは完全に嘘。 声は最も挑戦的な領域で、 残された 1 マイルが最も解くのが難しい」 — 商品扱いするには早すぎる、 という主張。
着眼点
「ほとんどの音声 AI デモは、 電話の隣の静かな部屋で撮影されている」 という診断 (11:43)
Neil が現状を批評する一文。 半二重 (model is either listening or speaking) のモデルでは、 雑音、 咳、 相槌、 同時発話で破綻する。 だから業界のデモは静寂の中で撮られる。 日本語文化では 「mm、 mm、 ああ」 という積極的相槌が会話の最大 20% を占める、 と具体例も挙げる。 デモビデオの撮影環境というメタな視点から、 「半二重 vs フル二重」 という技術的核心へと読者を引き込む構成が巧みで、 「音声 AI は本当に来ているのか」 という問いを 1 文でリフレーミングしている。
ツール呼び出し = 最大のレイテンシボトルネック、 解決策は 「filler」 (07:25)
TTS のレイテンシは 200ms、 LLM のレイテンシも 200ms、 それでもまだ人間会話 (積み重ねた理解 + 200ms 以内の応答) には届かない、 という前提のあと、 本当のボトルネックを示す。 ツール呼び出しは 4 秒以上かかることがあり、 しかも予測不可能。 これに 10ms / 20ms 単位の TTS 最適化で対抗するのは無意味、 という整理。 解決策が filler 設計 — LLM を 2 つに分け、 ツール結果を待つ間、 もう片方の LLM に自然な会話を続けさせる。 ライブで 「Wonderlust Travel の Colin」 という雰囲気コーディングしたエージェントを動かして実演する。 「東京に行きたい」 と告げると、 検索が走っている裏で 「東京は素敵な選択ですね、 超近代的な高層ビルと美しい神社の融合 ...」 と Colin が話し続けて空白を埋める、 という具体的な絵が出てくる。
「Her の瞬間」 まで残っているのは S2S スケーラビリティ問題 (15:30 - 18:00)
フル二重 S2S は技術的に Moshi で示せた、 とした上で Neil が次の壁として置くのは スケーラビリティ。 「Her」 の世界では主人公が 1 日中 AI と話している。 コンシューマーアプリで音声を 「常時オン」 にすると、 ハイパースケーラーは赤字運営しているのに API 料金は払いきれない。 LLM のコストはほぼゼロまで下がったが、 TTS だけは依然高い — 「TTS の請求書で資金調達分を燃やしている」 スタートアップを実例として挙げる。 Gradium の答えが Phonon — 1 億パラメータ未満、 スマートフォン CPU 上で動く軽量 TTS。 「クラウド GPU は要らない、 一切の API 料金は要らない」 という消費者規模を見据えた設計。 業界の 「最後の月」 (last mile) は 「クラウド前提のスケール」 から 「デバイス上で完結する小さなモデル」 への構造転換、 という主張。
動画の構成
- (00:00) 自己紹介と問い — 「Her」 の瞬間はいつ来るか
- (03:55) ElevenLabs の最新デモ (ジム仲間 Logan) — 自然になってきたが、 まだ届かない
- (05:42) カスケードシステム (STT → LLM → TTS) の構造とレイテンシ
- (06:15) TTS だけで 200ms、 LLM 含めて人間会話の遅延に届かない
- (06:54) ツール呼び出し = 4 秒以上、 予測不可能、 これが本当のボトルネック
- (07:25) filler 解決策 — LLM を分割、 ツール待ちの間に自然な会話で埋める
- (07:48) Wonderlust Travel デモ — 雰囲気コーディングしたエージェントの実演
- (09:05) Speech-to-Speech (S2S) アーキテクチャの説明
- (09:30) 半二重モデルの限界 — Moshi 以外はすべて半二重
- (10:32) 半二重デモ — 相槌で会話が崩壊する
- (11:43) 「ほとんどの音声 AI デモは静かな部屋で撮影されている」
- (11:58) Moshi デモ — 共同創業者 Alex との 2 人会話
- (13:10) パラ言語的理解 — トーンや感情の認識
- (13:43) Moshi の評価 — フローは無敵、 でもエージェントとしては愚か
- (14:16) NVIDIA の Persona Plex (Moshi 派生)、 観測性なし → 本番投入不可
- (15:30) スケーラビリティ — 「常時オン」 になる消費者規模の問題
- (15:48) コスト構造 — TTS の請求書で資金を燃やすスタートアップ
- (16:36) プライバシー — オンデバイスがユーザーに快適
- (17:00) Gradium Phonon 発表 — 1 億パラメータ未満、 iPhone CPU 上で動作
- (17:38) Phonon ライブデモ
- (18:30) 「音声はコモディティ化した」 説への反論 — 完全な嘘
- (18:50) 結論 — 残された 1 マイルが最も解くのが難しい
出典
Voice AI: when is the 'Her' moment? — Neil Zeghidour, Gradium AI (AI Engineer)