チャットエージェントに声を与える — ルーク・ハリーズ / ElevenLabs (AI Engineer Europe)

AI Engineer Europe 2026/05/09

ルーク・ハリーズ / Luke Harries · 06:43 「予測。これらのチャットエージェントはいずれ死ぬ」

AI Engineer チャンネル (2026/05/07 公開、約 8 分)。ロンドンで開催された AI Engineer Europe 2026 (4 月 8-10 日) でのライトニングトーク

「ホーム画面はチャットインターフェイスになった」 — Linear や PostHog の SEO ツイート、 GovUK のチャットエージェント方針、さまざまな実装が示すように、過去 1 年でチャットは AI と話す既定の入口になった。そのうえで Luke が打つ予測は単純で挑発的: チャットエージェントは死ぬ、音声に乗り換えるか、そのまま消えるかのどちらかだ — 8 分のライトニングトーク。

語るのはルーク・ハリーズ (Luke Harries) — ElevenLabs の Growth + Engineering 担当。ケンブリッジ大学プレメッド → Microsoft Research で強化学習 → Y Combinator バックの Fella Health 共同創業 → PostHog で暫定プロダクト責任者、という横断キャリア。 ElevenLabs CEO の Mati Staniszewski から最初に声をかけられた時は go-to-market を疑って投資を見送り、 6 ヶ月後に 100 万ユーザー突破 + 評価額 33 億ドルの段階で参画した、という来歴の人物。

なぜ音声か。 Luke の挙げる理由は複数ある。 ① 速くてインタラクティブ、 ② キーボード操作や読字困難 (失読症) に苦しむ層へのアクセシビリティ、 ③ オムニチャネル — Zoom 通話に AI エージェントが参加して間違った統計を即座に修正したり、カスタマーサポートで電話回線をそのまま使えたり、既存のインタラクション設計の延長線で音声を被せられる。「最終的にやるべきは、これらすべてのチャットエージェントを音声エージェントにアップグレードすること」と要約する。

ところが現場では別の課題があった、と Luke は話す。 ElevenLabs はもともと TTS で出発し、 Revolut のカスタマーサポートのようなエンタープライズ顧客と組んでフルスタックの音声エージェントプラットフォームを構築してきた。だが、そういう顧客の多くは既にチャットエージェントを持っており、評価とトランスクリプト整備に大量の工数を投下している。「ゼロから組み直す? 何のために?」という抵抗が、普及の壁になった。 ElevenLabs の今回の答えは、既存のチャットエージェントを Voice Engine という新しいプリミティブでラップする、という発想 — リサーチプレビューを数週間以内にローンチする予定とアナウンス。

着眼点

「音声エンジン」をプリミティブとして切り出す設計判断 (02:46)

これまでの ElevenLabs プラットフォームは、 LLM + RAG + ツール呼び出し + STT + TTS をワンパッケージで提供する設計だった。今回の Voice Engine はそこから「音声エンジン部分」だけを「ファーストクラスのプリミティブ」として独立させた、という構造変更。 Server SDK は既存のチャットエージェントに「音声エンジンを生成 → ラッパーを噛ませる → 新セッション開始ごとにプロキシ」というループを足すだけで成立する。中身は ElevenLabs の最良モデル — STT は Scribe、 TTS は V3、ターンテイキングは感情とコンテキストを認識する高度版。「フルパッケージか、既存の上に薄く被せるか」を顧客側で選べる粒度になった点が設計上の妙。

クライアント SDK 3 行 + ShadCN/Vercel スタイルの UI (04:15)

Server SDK と組ませる Client SDK は、サイトに 3 行追加するだけで音声ウィジェットが出る。さらに、 ShadCN と Vercel スタイルに揃えた UI コンポーネントが同梱されており、コーディングエージェント (Claude Code 等) に「ElevenLabs のコンポーネントで」と指定して試作させられる。開発者体験への投資の意図が明白で、「これは部屋の中の人たち (= 開発者) を本気で気にかけている」という Luke のメッセージは、実装デモの構成にそのまま現れている。

「1 プロンプトで音声エージェントに変換」という到達点 (04:48)

Luke がライブデモで見せたのは、既存のチャットサポートエージェントを Claude Code に「音声エージェントに変換して」とプロンプトするだけで、数秒で Voice Engine 統合済みのコードが返ってきて、ローカルで動く、という流れ。ローンチ時には Skills (Anthropic) も同梱予定とのこと — 「コードベースを分析 → チャットエージェントを検出 → デプロイ方法とラップ方法を提案」まで自動化する想定。「面倒な統合工数」を消すことで参入障壁を下げにいく戦略がはっきり見える。

ツール呼び出しは既存エージェントに任せる、が DOM 直結ツールも提供 (07:01)

Q&A で出た論点。既存のチャットエージェントは普通バックエンドでツール呼び出しを処理しているので、 Voice Engine ラッパーはそれをプロキシで透過させるだけで済む。ただし ElevenLabs 側のクライアントサイドツール / サーバーサイドツールという独自概念もあり、「DOM を直接操作するフロントエンドツールをその場で公開する」ような使い方もできる。既存の流れを尊重しつつ、必要に応じて踏み込める二段構えの設計。

動画の構成

(00:00) チャットエージェントに発言権を与える、 2025 年はチャットの年だった
(00:30) Linear / PostHog のホーム画面 = チャットインターフェイス、 GovUK 方針
(01:00) なぜ音声か — 自然な媒体、速度、アクセシビリティ、オムニチャネル
(01:24) Zoom 通話参加、カスタマーサポート電話など実装シナリオ
(01:39) チャットエージェント → 音声エージェントアップグレードという主題
(01:50) ElevenLabs の歴史 — TTS から始まり、 Revolut 等とフル音声エージェントへ拡張
(02:23) 顧客の現場の声 — 「既にエージェントある、ゼロから組み直す価値ある?」
(02:46) Voice Engine プリミティブの設計 — 既存エージェントをラップする発想
(03:04) 音声エンジンの中身 — Scribe (STT) + V3 (TTS) + 高度ターンテイキング
(03:42) Server SDK の構造 — クライアント生成 → Voice Engine → ラッパーで既存エージェントにアタッチ
(04:15) Client SDK 3 行でウィジェット、 Telephony / CSAT 同梱
(04:35) ShadCN / Vercel スタイル UI コンポーネント
(04:48) 1 プロンプトで音声エージェントに変換するデモ
(05:31) 生成コードの解説 — Voice Engine をセッションごとにアタッチ → プロキシ
(06:00) 設計思想 — 純粋な TTS から、抽象度の高いバンドルへの移行
(06:43) 予測 — チャットエージェントは死ぬ、音声を加えるかチャットで終わるか
(06:51) デザインパートナー募集
(07:01) Q&A — ツール呼び出しの扱い (既存エージェントに任せる + DOM ツール)

出典

Give Your Chat Agent a Voice — Luke Harries, ElevenLabs (AI Engineer)

ルーク・ハリーズ

Luke Harries

ElevenLabs Growth + Engineering / 元 Microsoft Research・PostHog

comment is stripped from the HTML output. */}