IDE を離れずに GPU へデプロイ — Audry Hsu (RunPod) の Flash と serverless GPU

AI Engineer Europe 2026 (London) / 講演約 20 分

オードリー・スー / Audry Hsu · 14:11 「コード変更 → コミット → Docker 再ビルド → どこかにアップロード → GPU 割り当て、ではなく、これ全部が IDE の中で起きて、一度も離れなくていい」

AI Engineer Europe 2026 (London) での講演「GPU Cloud Deployment Without Leaving Your IDE」 (講演約 20 分、動画公開 2026-06-09、 AI Engineer 公式チャンネル)。講師は Audry Hsu (RunPod の developer advocate / DevRel)。 RunPod は AI ワークロード向けの GPU クラウド基盤。主題は同社の Python SDK 「Flash」 — async 関数にデコレータを 1 つ付けるだけで、 IDE を離れずにその関数を GPU クラウドへデプロイする開発体験。

RunPod の使命は「開発者が AI ワークロードをスケールさせるための基盤プラットフォーム」を作ること。ハードウェア (GPU・計算) は RunPod が用意し、開発者はコードとモデルを持ち込んで素早くデプロイする。 CUDA のバージョン整合、 PyTorch の組み合わせ、新しい GPU SKU の検証といった「インフラ設定」の苦労を肩代わりし、開発者がモデル訓練やアプリ構築に集中できるようにする、という立て付け。

RunPod とは — 地下室のマイニング機から

RunPod の由来を Audry は語る。共同創業者の Zhen Lu と Pardeep Singh は、 2021 年末に Ethereum マイニング機 (うまくいかなかった事業) を地下室に積んでいた。余った GPU で RunPod の原型を作り、 Reddit に「フィードバックと引き換えに GPU を無料で使いませんか」と投稿した — これが会社の始まり。以来コミュニティと公開で作り続け、最初から収益を生んできた (これは珍しい、と本人)。現在は 50 万人を超える開発者、 30 以上のデータセンター (10 カ国規模、フランス・ルーマニア・アイスランド・アジア太平洋など)、そして $120M の ARR (年間経常収益) に到達した。「階級の上を殴っている (punching above our weight)」と表現する。

4 つの形 — Pods / Serverless / Instant Clusters / Hub

RunPod の使い方は目的別に分かれる。 Pods は永続的な VM 環境で、オンデマンド・秒課金、借りている間 GPU は自分のもの。 Serverless はスケーリング重視で、負荷が変動するワークロードに対し worker を自動スケールし、リクエストが無ければ縮めてアイドル課金を避ける。 Instant Clusters は訓練・マルチノード向け。 Hub は ComfyUI / Stable Diffusion / vLLM など、 RunPod が事前検証した OSS リポジトリをすぐデプロイできる場所。

Flash — IDE を離れずに GPU へデプロイ

講演の主役は Flash — RunPod の Python SDK。開発者の大きな苦痛は反復サイクルにある。推論モデルのコードをいじって試すたびに、コミット → GitHub へ push → Docker イメージをビルド → レジストリから pull → サーバに載せ → GPU を割り当て → ようやくテスト、を繰り返す。 Flash はこれを消す。通常の async Python 関数に endpoint デコレータを 1 つ付けるだけで、その関数を GPU クラウドへデプロイする。 main 関数やヘルパーはローカルで動き、 GPU 計算が要る部分だけクラウドで走る。 hot file reload で、どこを変えても即座に再パッケージされ push される。

デモはライブで進む。 generate_image 関数 (PyTorch + Stable Diffusion XL Turbo で画像生成、 base64 で返す) を `flash run` で動かし、ローカルの FastAPI サーバにリクエストを送る。 endpoint デコレータには endpoint 名・GPU ファミリ (NVIDIA H100 系の variation)・最大 worker 数 (5)・常時稼働の active worker (1)・timeout などを指定する。観客に「何を生成する?」と尋ね、「ロンドンの曇り空を飛ぶ猫」を生成 (抽象的な猫が出て苦笑)。そこでモデルを DreamShaper (Stable Diffusion 1.5 ベースの fine-tune、アート・イラスト寄り) に差し替え、コードをコミットも Docker 再ビルドもせず IDE の中だけで切り替えて再生成する。

パイプラインと課金

最後に Audry は、開発者ツールの真価は単一モデル呼び出しではなく「その周りのオーケストレーション」に出る、とパイプラインを見せる。まず Qwen3 (公開エンドポイント) にプロンプトを生成させ、それを自社エンドポイントの DreamShaper に渡し、さらに Nano Banana 2 (Google の premium 画像モデル、写真合成が得意) で創業者の写真を合成する、という多段パイプラインを組む。 IDE を離れずに、プロンプト生成 → 画像生成 → 合成、が連なる。

課金は「リクエストが走った時間ぶんだけ」。デモ中、 H100 が 1 秒あたり約 0.00116 ドルと示し、 5 worker のうち 3 つが (3 枚要求したため) 稼働している様子をコンソールで見せる。 Serverless は Pods に対しスケーリングのぶん割増がある。推奨は、試行錯誤中なら worker 数を低く抑えるか Pods から始める (実験中は 1〜2 GPU で足りる)、本番で数百 worker・数百 GPU を可用性のため分散させたいなら Serverless、という使い分け。

編集所見

この talk の芯は「IDE を離れない」という開発体験の一点に尽きる。 GPU デプロイの従来の反復 (コミット → Docker → アップロード → GPU 割り当て → テスト) を、関数にデコレータを 1 つ貼るだけのローカル体験に畳む。 RunPod が GPU 基盤屋であることを思えばポジショントークだが、デモを「失敗込み」 (抽象的な猫、プロンプトの渡し忘れ、ライブのつまずき) で見せる正直さが、ツールの実像を伝える。地下室のマイニング機から Reddit の無料 GPU 提供で始まり、 build in public で $120M ARR・50 万開発者まで来た、という創業譚も、「インフラの設定を肩代わりして開発者を計算に集中させる」という製品思想と地続きに読める。 AI Studio で無料で試させる Google の DevRel と同じく、「まず触らせる」ことを軸にした開発者獲得の一例。

着眼点

デコレータ 1 つ = リモート GPU という抽象

Flash の発想は、関数に endpoint デコレータを貼ると「その関数だけ」が GPU クラウドで走り、周りのコードはローカルに残る、というもの。 Docker 化・レジストリ・サーバ確保という梱包と配送の工程を消し、 hot reload で変更が即反映される。「計算が要る部分だけ遠隔へ飛ばす」抽象は、ローカル開発と GPU 実行の境界を関数単位まで細かくする。

Serverless と Pods の経済学

同じ GPU でも、変動負荷で数百 worker を立てたいなら Serverless (自動スケール + ゼロスケールでアイドル課金を回避、ただし割増)、安定的に少数 GPU を握りたいなら Pods (予約・割安)、と使い分ける。「実験中は Pods か低 worker、本番の可変負荷は Serverless」という指針は、 GPU コストを「常時確保するか、都度立てるか」の選択として整理している。

動画の構成

(00:00) 自己紹介 (Audry、 RunPod)、観客との対話的イントロ
(00:45) RunPod とは — AI クラウド基盤、インフラ設定を肩代わり
(01:38) なぜ存在するか + 創業譚 (Zhen Lu / Pardeep Singh、 2021 マイニング機 → Reddit)
(03:20) 規模 — 50 万開発者 / 30+ データセンター / $120M ARR
(03:54) 4 つの形 — Pods / Serverless / Instant Clusters / Hub
(05:42) Flash の動機 — デプロイ反復サイクルの苦痛
(06:28) Flash = endpoint デコレータでローカル関数を GPU へ、 hot reload
(07:45) デモ — SDXL Turbo で画像生成、 flash run + FastAPI
(11:28) endpoint デコレータの中身 (GPU ファミリ・worker 数・timeout)
(13:03) DreamShaper に差し替えて IDE 内で再生成
(14:30) オーケストレーションが本領 — パイプラインのデモ
(15:20) Qwen3 でプロンプト生成 → DreamShaper → Nano Banana 2 で合成
(16:57) 課金 — 秒単位、 Serverless と Pods の使い分け
(18:39) 最終成果物の合成写真、まとめ

関連リンク

オードリー・スー

Audry Hsu

RunPod の developer advocate (DevRel) / GPU クラウド

用語集

RunPod: 2022 年創業の AI クラウド / GPU 基盤企業 (共同創業 Zhen Lu = CEO、 Pardeep Singh = CTO)。ハードウェアと計算を提供し、開発者はコード・モデルを持ち込んでデプロイする。公称 50 万人超の開発者、 $120M ARR、 30 以上のデータセンター。 2021 年末の Ethereum マイニング機の転用と Reddit の無料 GPU 提供から始まった。
Flash: RunPod の OSS Python SDK。 async Python 関数に endpoint デコレータ (講演では @flash.endpoint、公式ドキュメントでは @Endpoint) を付けるだけで、その関数を GPU クラウドへデプロイする。 main 関数やヘルパーはローカル、 GPU 計算部分だけクラウド。 hot file reload で変更が即反映。 Dockerfile 不要。
Pods / Serverless / Instant Clusters / Hub: RunPod の 4 つの形。 Pods = 永続 VM・秒課金・予約 GPU。 Serverless = 自動スケール + ゼロスケールでアイドル課金回避 (割増あり)。 Instant Clusters = 訓練・マルチノード向け。 Hub = 事前検証済み OSS リポジトリ (ComfyUI / Stable Diffusion / vLLM 等) を即デプロイ。
Nano Banana 2: Google の画像モデル Gemini 3.1 Flash Image の通称。複数写真の合成に強い premium モデル。 RunPod のデモでは、 Qwen3 がプロンプト生成 → DreamShaper が画像生成 → Nano Banana 2 が合成、という多段パイプラインの最終段に使われた。
秒単位課金 / Serverless 割増: RunPod の課金はリクエストが走った時間ぶん。デモでは H100 が 1 秒あたり約 0.00116 ドルと示された。 Serverless はスケーリングのぶん Pods より割増。試行錯誤中は Pods か低 worker、本番の可変負荷は数百 worker を分散できる Serverless、が推奨。

comment is stripped from the HTML output. */}