TTS モデルが LLM に似てきた理由 — サミュエル・ユモー / Mistral AI (AI Engineer Europe)

AI Engineer Europe 2026/05/09

サミュエル・ユモー / Samuel Humeau · 08:21 「先史時代は、 SNCF (フランス国鉄) のように、 話された言葉を縫い合わせていた」

AI Engineer チャンネル (2026/05/06 公開、 約 22 分)。 ロンドン開催の AI Engineer Europe 2026 (4/8-10) でのテクニカルセッション

TTS (Text-to-Speech) のアーキテクチャは、 ここ数年で 「LLM のように見える」 設計に収束してきた、 という整理が中心の 22 分。 駅構内の SNCF 案内放送 (録音した単語を縫い合わせる concatenative TTS) → 各サンプルを順に生成するニューラル世代 → 全体を一度に生成する世代 → そして今、 ほとんどの研究室がオートリグレッシブデコーダバックボーン (LLM パターン) に収束している、 という技術史を、 1 ヶ月前にリリースされた Mistral の Voxtral TTS をデモしながら解説する。

語るのは サミュエル・ユモー (Samuel Humeau) — Mistral AI の AI 研究員。 EPFL (スイス連邦工科大学ローザンヌ校) で機械学習修士 → Diffbot → Facebook AI Research (FAIR) でリサーチエンジニア (ParlAI の bi-encoder / cross-encoder 担当) を経て Mistral へ。 2026 年 3 月に発表された Voxtral TTS (4B パラメータ、 9 言語対応のオープンウェイト TTS、 ElevenLabs Flash v2.5 に対する人間評価 62.8% 選好) の論文共著者の 1 人。 講演では同モデルのアーキテクチャを公開して論じる。

話の核心はビットレート。 テキストは 1 秒あたりわずか 15 ビットの情報しか含まないが、 標準品質の MP3 オーディオは 1 秒あたり 200,000 ビット — 桁違い。 だからオーディオを LLM 的に扱うには、 一連のトークンに圧縮する必要がある。 Mistral の場合、 80ms ごとに音声を切って、 各フレームを 37 個のトークンに変換、 1 秒あたり約 500 トークン。 「コーデック (encoder + decoder) で意味情報と音響特徴の両方を保持しながら、 LLM の語彙のように使えるトークン列に変換する」 という設計が、 業界共通のベース。

Mistral がこのベースから外れる点が 1 つある。 多くの研究室はバックボーン (大型自己回帰モデル) のあとに小さなオートリグレッシブモデルを置いて 37 トークンを順に生成するが、 Voxtral TTS は ディフュージョンモデルで 37 トークンを一度に生成する。 「フローマッチングモデル (ディフュージョン亜種) のクールなユースケース」 と紹介される。 単一 GPU で 「テキスト入力から最初の再生可能音声パケットまで 17ms」 という低レイテンシを実現する設計。

着眼点

「私の話す情報は 1 秒あたり 15 ビットしかない」 という自己弁護 (11:04)

講演中の小ジョーク。 「私はとても負けず嫌いで、 話すのもとても上手ですが、 実際の情報は 1 秒あたり 15 ビットしかない、 それを上回るように努力してみてください」。 一見冗談だが、 その後に続く 「200,000 ビット/秒の音声情報と比較すると 15 ビット/秒のテキストは大したことない」 という対比が、 講演全体の核心 — 「なぜ TTS をオーディオ全体ではなくトークン列で扱うのか」 — に直接つながる。 自己卑下を入り口にして技術的論点を出す導入の妙。

音声生成の 「先史時代」 はフランス国鉄、 と言い切る歴史整理 (08:21)

技術史を 「先史時代 = concatenative TTS = SNCF の駅放送のように録音単語を縫い合わせる方式」 → 「ニューラル世代 = 1 サンプルずつ次々生成」 → 「全体を一度に生成」 → 「現代 = トークン化 + LLM 的バックボーン」 という 4 段で示す。 「SNCF」 という具体的アンカーがあることで、 抽象的なアーキテクチャ史が一瞬で絵になる。 駅で 「La gare de ... Paris ... Nord」 と単語が継ぎ接ぎされて流れる、 あの音声が 「先史時代」 と切り捨てられる演出は、 フランス人 Sam の自虐ユーモアでもある。

Voxtral TTS の差別化点 = ディフュージョンで 37 トークン一括生成 (15:30)

「ほとんどの人 (= 業界の大半) は」 という言い回しを Sam は何度も使うが、 Mistral はそこから 1 点だけ外している。 多くの研究室はバックボーン (大型自己回帰モデル) の後段に 「小さなオートリグレッシブモデル」 を置いて、 1 フレーム 37 トークンを順に生成する。 Mistral の Voxtral TTS は代わりに ディフュージョンモデル で 37 トークンを一度に出す。 「フローマッチング (ディフュージョン亜種) のクールなユースケース」 と紹介される。 アーキテクチャ的には Imagen / Stable Diffusion 系の系譜が音声側に入ってきている、 という現象でもある。 「今日の動画ではあまり深く掘り下げない、 技術レポートを読んで」 と注釈されているのが、 むしろ気になる人を呼ぶ動機になる。

「音声をインターフェースとして使うだけで、 非常に遠くまで到達できる」 (20:01) — カスケード防衛論

Q&A で 「Google など大手研究所はネイティブな音声-音声変換を進めているが、 Mistral はカスケードアーキテクチャ (STT → LLM → TTS) 寄り。 どう思うか?」 と聞かれた Sam の回答。 「中央 LLM は非常に有能で、 多くのタスクをこなす。 だから、 同じインターフェースであらゆるエージェントに使えるようにすることが、 インターフェース側の利点。 LLM が出力するテキストトークンをストリーミングしてそれを声に変える、 という設計だけで遠くまで行ける」。 同会場で先に Neil Zeghidour (Gradium) が 「カスケードでは Her の瞬間に届かない」 と論じた直後にこの逆ポジション、 という応答の妙。

動画の構成

  • (00:00) 自己紹介 (Mistral と元 FAIR)
  • (01:14) Mistral の会社紹介 — フロンティアラボ、 B2B、 AI トランスフォーメーション支援
  • (01:46) TTS の用途 — オフライン (記事読み上げ等) からエージェントインターフェイスへ
  • (02:30) 音声エージェントのパイプライン — STT → LLM → TTS、 レイテンシが要
  • (03:30) 雰囲気コーディングしたデモアプリの紹介
  • (03:44) Voxtral TTS で Paul の声をクローン、 詩の朗読
  • (04:55) カンファレンスアシスタント — Paul 声 + Voxtral でセッション情報を答える
  • (06:24) 多言語対応 — 英語話者の声でフランス語を生成 (アクセント保持)
  • (06:54) 自分の声をクローン 「こんにちは、 サムです」
  • (07:27) 音声アイデンティティがブランドの一部になる時代 (= ウェブサイトの見た目と同じく)
  • (08:01) 音声生成の歴史 — concatenative (SNCF 風) → ニューラル世代
  • (08:55) 業界収束 — オートリグレッシブデコーダバックボーン (LLM パターン)
  • (10:00) コーデック (encoder + decoder) の役割 — 80ms フレーム → トークン化
  • (11:04) 「私の話す情報は 15 bits/sec」 — テキスト vs オーディオのビットレート対比
  • (11:50) Mistral のアプローチ — 80ms × 12fps × 37 トークン = 500 トークン/秒
  • (13:48) バックボーン + 小型モデル (業界共通パターン)
  • (14:21) Mistral の差別化点 — ディフュージョンで 37 トークン一括生成
  • (15:00) コンディショニング (テキスト→音声の橋渡し) の戦略バリエーション
  • (15:49) Mistral は text-first (全コンテキストを最初に与える) を選択
  • (16:13) レイテンシ — 17ms (テキスト → 最初の音声パケット、 単一 GPU)
  • (16:30) 次のステップ — リアルタイムテキストストリーミング (interleaving / dual-stream)
  • (17:34) Q&A — 音声エージェントのテキスト/音声同時生成?
  • (18:25) Q&A — 音声クローンの重みは公開? (エンコーダ部分は非公開)
  • (19:25) Q&A — ネイティブ S2S vs カスケード、 どちらが正解?
  • (20:43) Q&A — インターリーブが次か、 別のアプローチか

出典

Why TTS Models Now Look Like LLMs — Samuel Humeau, Mistral AI (AI Engineer)

comment is stripped from the HTML output. */}