ルーク・ハリーズ / Luke Harries · 06:43 「予測。 これらのチャット エージェントはいずれ死ぬ」
「ホーム画面はチャットインターフェイスになった」 — Linear や PostHog の SEO ツイート、 GovUK のチャットエージェント方針、 さまざまな実装が示すように、 過去 1 年でチャットは AI と話す既定の入口になった。 そのうえで Luke が打つ予測は単純で挑発的: チャットエージェントは死ぬ、 音声に乗り換えるか、 そのまま消えるかのどちらかだ — 8 分のライトニングトーク。
語るのは ルーク・ハリーズ (Luke Harries) — ElevenLabs の Growth + Engineering 担当。 ケンブリッジ大学プレメッド → Microsoft Research で強化学習 → Y Combinator バックの Fella Health 共同創業 → PostHog で暫定プロダクト責任者、 という横断キャリア。 ElevenLabs CEO の Mati Staniszewski から最初に声をかけられた時は go-to-market を疑って投資を見送り、 6 ヶ月後に 100 万ユーザー突破 + 評価額 33 億ドルの段階で参画した、 という来歴の人物。
なぜ音声か。 Luke の挙げる理由は複数ある。 ① 速くてインタラクティブ、 ② キーボード操作や読字困難 (失読症) に苦しむ層へのアクセシビリティ、 ③ オムニチャネル — Zoom 通話に AI エージェントが参加して間違った統計を即座に修正したり、 カスタマーサポートで電話回線をそのまま使えたり、 既存のインタラクション設計の延長線で音声を被せられる。 「最終的にやるべきは、 これらすべてのチャットエージェントを音声エージェントにアップグレードすること」 と要約する。
ところが現場では別の課題があった、 と Luke は話す。 ElevenLabs はもともと TTS で出発し、 Revolut のカスタマーサポートのようなエンタープライズ顧客と組んでフルスタックの音声エージェントプラットフォームを構築してきた。 だが、 そういう顧客の多くは既にチャットエージェントを持っており、 評価とトランスクリプト整備に大量の工数を投下している。 「ゼロから組み直す? 何のために?」 という抵抗が、 普及の壁になった。 ElevenLabs の今回の答えは、 既存のチャットエージェントを Voice Engine という新しいプリミティブでラップする、 という発想 — リサーチプレビューを数週間以内にローンチする予定とアナウンス。
着眼点
「音声エンジン」 をプリミティブとして切り出す設計判断 (02:46)
これまでの ElevenLabs プラットフォームは、 LLM + RAG + ツール呼び出し + STT + TTS をワンパッケージで提供する設計だった。 今回の Voice Engine はそこから 「音声エンジン部分」 だけを 「ファーストクラスのプリミティブ」 として独立させた、 という構造変更。 Server SDK は既存のチャットエージェントに 「音声エンジンを生成 → ラッパーを噛ませる → 新セッション開始ごとにプロキシ」 というループを足すだけで成立する。 中身は ElevenLabs の最良モデル — STT は Scribe、 TTS は V3、 ターンテイキングは感情とコンテキストを認識する高度版。 「フルパッケージか、 既存の上に薄く被せるか」 を顧客側で選べる粒度になった点が設計上の妙。
クライアント SDK 3 行 + ShadCN/Vercel スタイルの UI (04:15)
Server SDK と組ませる Client SDK は、 サイトに 3 行追加するだけで音声ウィジェットが出る。 さらに、 ShadCN と Vercel スタイルに揃えた UI コンポーネントが同梱されており、 コーディングエージェント (Claude Code 等) に 「ElevenLabs のコンポーネントで」 と指定して試作させられる。 開発者体験への投資の意図が明白で、 「これは部屋の中の人たち (= 開発者) を本気で気にかけている」 という Luke のメッセージは、 実装デモの構成にそのまま現れている。
「1 プロンプトで音声エージェントに変換」 という到達点 (04:48)
Luke がライブデモで見せたのは、 既存のチャットサポートエージェントを Claude Code に 「音声エージェントに変換して」 とプロンプトするだけで、 数秒で Voice Engine 統合済みのコードが返ってきて、 ローカルで動く、 という流れ。 ローンチ時には Skills (Anthropic) も同梱予定とのこと — 「コードベースを分析 → チャットエージェントを検出 → デプロイ方法とラップ方法を提案」 まで自動化する想定。 「面倒な統合工数」 を消すことで参入障壁を下げにいく戦略がはっきり見える。
ツール呼び出しは既存エージェントに任せる、 が DOM 直結ツールも提供 (07:01)
Q&A で出た論点。 既存のチャットエージェントは普通バックエンドでツール呼び出しを処理しているので、 Voice Engine ラッパーはそれをプロキシで透過させるだけで済む。 ただし ElevenLabs 側のクライアントサイドツール / サーバーサイドツールという独自概念もあり、 「DOM を直接操作するフロントエンドツールをその場で公開する」 ような使い方もできる。 既存の流れを尊重しつつ、 必要に応じて踏み込める二段構えの設計。
動画の構成
- (00:00) チャット エージェントに発言権を与える、 2025 年はチャットの年だった
- (00:30) Linear / PostHog のホーム画面 = チャットインターフェイス、 GovUK 方針
- (01:00) なぜ音声か — 自然な媒体、 速度、 アクセシビリティ、 オムニチャネル
- (01:24) Zoom 通話参加、 カスタマーサポート電話など実装シナリオ
- (01:39) チャットエージェント → 音声エージェント アップグレードという主題
- (01:50) ElevenLabs の歴史 — TTS から始まり、 Revolut 等とフル音声エージェントへ拡張
- (02:23) 顧客の現場の声 — 「既にエージェントある、 ゼロから組み直す価値ある?」
- (02:46) Voice Engine プリミティブの設計 — 既存エージェントをラップする発想
- (03:04) 音声エンジンの中身 — Scribe (STT) + V3 (TTS) + 高度ターンテイキング
- (03:42) Server SDK の構造 — クライアント生成 → Voice Engine → ラッパーで既存エージェントにアタッチ
- (04:15) Client SDK 3 行でウィジェット、 Telephony / CSAT 同梱
- (04:35) ShadCN / Vercel スタイル UI コンポーネント
- (04:48) 1 プロンプトで音声エージェントに変換するデモ
- (05:31) 生成コードの解説 — Voice Engine をセッションごとにアタッチ → プロキシ
- (06:00) 設計思想 — 純粋な TTS から、 抽象度の高いバンドルへの移行
- (06:43) 予測 — チャットエージェントは死ぬ、 音声を加えるかチャットで終わるか
- (06:51) デザインパートナー募集
- (07:01) Q&A — ツール呼び出しの扱い (既存エージェントに任せる + DOM ツール)
出典
Give Your Chat Agent a Voice — Luke Harries, ElevenLabs (AI Engineer)