IDE を離れずに GPU へデプロイ — Audry Hsu (RunPod) の Flash と serverless GPU

AI Engineer Europe 2026 (London) / 講演約 20 分

オードリー・スー / Audry Hsu · 14:11 「コード変更 → コミット → Docker 再ビルド → どこかにアップロード → GPU 割り当て、 ではなく、 これ全部が IDE の中で起きて、 一度も離れなくていい」

AI Engineer Europe 2026 (London) での講演 「GPU Cloud Deployment Without Leaving Your IDE」 (講演約 20 分、 動画公開 2026-06-09、 AI Engineer 公式チャンネル)。 講師は Audry Hsu (RunPod の developer advocate / DevRel)。 RunPod は AI ワークロード向けの GPU クラウド基盤。 主題は同社の Python SDK 「Flash」 — async 関数にデコレータを 1 つ付けるだけで、 IDE を離れずにその関数を GPU クラウドへデプロイする開発体験。

RunPod の使命は 「開発者が AI ワークロードをスケールさせるための基盤プラットフォーム」 を作ること。 ハードウェア (GPU・計算) は RunPod が用意し、 開発者はコードとモデルを持ち込んで素早くデプロイする。 CUDA のバージョン整合、 PyTorch の組み合わせ、 新しい GPU SKU の検証といった 「インフラ設定」 の苦労を肩代わりし、 開発者がモデル訓練やアプリ構築に集中できるようにする、 という立て付け。

RunPod とは — 地下室のマイニング機から

RunPod 2022 年創業の AI クラウド / GPU 基盤企業。 共同創業者は Zhen Lu (CEO) と Pardeep Singh (CTO)。 ハードウェアと計算 (GPU) を提供し、 開発者はコード・モデルを持ち込んで素早くデプロイする。 公称 50 万人超の開発者、 $120M の ARR、 30 以上のデータセンター。 製品は Pods / Serverless / Instant Clusters / Hub、 そして本講演の主役である Python SDK 『Flash』 の由来を Audry は語る。 共同創業者の Zhen Lu と Pardeep Singh は、 2021 年末に Ethereum マイニング機 (うまくいかなかった事業) を地下室に積んでいた。 余った GPU で RunPod の原型を作り、 Reddit に 「フィードバックと引き換えに GPU を無料で使いませんか」 と投稿した — これが会社の始まり。 以来コミュニティと公開で作り続け、 最初から収益を生んできた (これは珍しい、 と本人)。 現在は 50 万人を超える開発者、 30 以上のデータセンター (10 カ国規模、 フランス・ルーマニア・アイスランド・アジア太平洋など)、 そして $120M の ARR (年間経常収益) に到達した。 「階級の上を殴っている (punching above our weight)」 と表現する。

4 つの形 — Pods / Serverless / Instant Clusters / Hub

RunPod の使い方は目的別に分かれる。 Pods 永続的な VM 環境。 オンデマンドで秒単位課金、 借りている間その GPU は確保され誰にも取られない。 予約 GPU が要るときの形。 使い終えたら破棄して再開できる は永続的な VM 環境で、 オンデマンド・秒課金、 借りている間 GPU は自分のもの。 Serverless RunPod のスケーリング重視の形。 ワークロードの頻度・負荷が変動するとき、 worker を自動スケールし、 リクエストが無ければゼロまで縮めてアイドル課金を避ける。 Pods に対し scaling のぶん割増がある はスケーリング重視で、 負荷が変動するワークロードに対し worker を自動スケールし、 リクエストが無ければ縮めてアイドル課金を避ける。 Instant Clusters は訓練・マルチノード向け。 Hub は ComfyUI / Stable Diffusion / vLLM など、 RunPod が事前検証した OSS リポジトリをすぐデプロイできる場所。

Flash — IDE を離れずに GPU へデプロイ

講演の主役は Flash RunPod の OSS Python SDK。 通常の async Python 関数に endpoint デコレータ (講演では @flash.endpoint、 公式ドキュメントでは @Endpoint) を付けるだけで、 その関数を GPU クラウドへデプロイ・パッケージングする。 main 関数やヘルパーはローカルで動き、 GPU 計算が要る部分だけクラウドで動く。 hot file reload があり、 変更すると即座に再パッケージ・push される。 Dockerfile 不要 — RunPod の Python SDK。 開発者の大きな苦痛は反復サイクルにある。 推論モデルのコードをいじって試すたびに、 コミット → GitHub へ push → Docker イメージをビルド → レジストリから pull → サーバに載せ → GPU を割り当て → ようやくテスト、 を繰り返す。 Flash はこれを消す。 通常の async Python 関数に endpoint デコレータを 1 つ付けるだけで、 その関数を GPU クラウドへデプロイする。 main 関数やヘルパーはローカルで動き、 GPU 計算が要る部分だけクラウドで走る。 hot file reload で、 どこを変えても即座に再パッケージされ push される。

デモはライブで進む。 generate_image 関数 (PyTorch + Stable Diffusion XL Turbo で画像生成、 base64 で返す) を `flash run` で動かし、 ローカルの FastAPI サーバにリクエストを送る。 endpoint デコレータには endpoint 名・GPU ファミリ (NVIDIA H100 系の variation)・最大 worker 数 (5)・常時稼働の active worker (1)・timeout などを指定する。 観客に 「何を生成する?」 と尋ね、 「ロンドンの曇り空を飛ぶ猫」 を生成 (抽象的な猫が出て苦笑)。 そこでモデルを DreamShaper (Stable Diffusion 1.5 ベースの fine-tune、 アート・イラスト寄り) に差し替え、 コードをコミットも Docker 再ビルドもせず IDE の中だけで切り替えて再生成する。

パイプラインと課金

最後に Audry は、 開発者ツールの真価は単一モデル呼び出しではなく 「その周りのオーケストレーション」 に出る、 とパイプラインを見せる。 まず Qwen3 (公開エンドポイント) にプロンプトを生成させ、 それを自社エンドポイントの DreamShaper に渡し、 さらに Nano Banana 2 Google の画像モデル Gemini 3.1 Flash Image の通称。 複数の写真を合成 (compose) するのが得意な premium モデル。 RunPod のデモでは、 DreamShaper が生成した画像と創業者の参照写真を合成する最終段に使われた (Google の premium 画像モデル、 写真合成が得意) で創業者の写真を合成する、 という多段パイプラインを組む。 IDE を離れずに、 プロンプト生成 → 画像生成 → 合成、 が連なる。

課金は 「リクエストが走った時間ぶんだけ」。 デモ中、 H100 が 1 秒あたり 約 0.00116 ドル と示し、 5 worker のうち 3 つが (3 枚要求したため) 稼働している様子をコンソールで見せる。 Serverless は Pods に対しスケーリングのぶん割増がある。 推奨は、 試行錯誤中なら worker 数を低く抑えるか Pods から始める (実験中は 1〜2 GPU で足りる)、 本番で数百 worker・数百 GPU を可用性のため分散させたいなら Serverless、 という使い分け。

編集所見

この talk の芯は 「IDE を離れない」 という開発体験の一点に尽きる。 GPU デプロイの従来の反復 (コミット → Docker → アップロード → GPU 割り当て → テスト) を、 関数にデコレータを 1 つ貼るだけのローカル体験に畳む。 RunPod が GPU 基盤屋であることを思えばポジショントークだが、 デモを 「失敗込み」 (抽象的な猫、 プロンプトの渡し忘れ、 ライブのつまずき) で見せる正直さが、 ツールの実像を伝える。 地下室のマイニング機から Reddit の無料 GPU 提供で始まり、 build in public で $120M ARR・50 万開発者まで来た、 という創業譚も、 「インフラの設定を肩代わりして開発者を計算に集中させる」 という製品思想と地続きに読める。 AI Studio で無料で試させる Google の DevRel と同じく、 「まず触らせる」 ことを軸にした開発者獲得の一例。

着眼点

デコレータ 1 つ = リモート GPU という抽象

Flash の発想は、 関数に endpoint デコレータを貼ると 「その関数だけ」 が GPU クラウドで走り、 周りのコードはローカルに残る、 というもの。 Docker 化・レジストリ・サーバ確保という梱包と配送の工程を消し、 hot reload で変更が即反映される。 「計算が要る部分だけ遠隔へ飛ばす」 抽象は、 ローカル開発と GPU 実行の境界を関数単位まで細かくする。

Serverless と Pods の経済学

同じ GPU でも、 変動負荷で数百 worker を立てたいなら Serverless (自動スケール + ゼロスケールでアイドル課金を回避、 ただし割増)、 安定的に少数 GPU を握りたいなら Pods (予約・割安)、 と使い分ける。 「実験中は Pods か低 worker、 本番の可変負荷は Serverless」 という指針は、 GPU コストを 「常時確保するか、 都度立てるか」 の選択として整理している。

動画の構成

  • (00:00) 自己紹介 (Audry、 RunPod)、 観客との対話的イントロ
  • (00:45) RunPod とは — AI クラウド基盤、 インフラ設定を肩代わり
  • (01:38) なぜ存在するか + 創業譚 (Zhen Lu / Pardeep Singh、 2021 マイニング機 → Reddit)
  • (03:20) 規模 — 50 万開発者 / 30+ データセンター / $120M ARR
  • (03:54) 4 つの形 — Pods / Serverless / Instant Clusters / Hub
  • (05:42) Flash の動機 — デプロイ反復サイクルの苦痛
  • (06:28) Flash = endpoint デコレータでローカル関数を GPU へ、 hot reload
  • (07:45) デモ — SDXL Turbo で画像生成、 flash run + FastAPI
  • (11:28) endpoint デコレータの中身 (GPU ファミリ・worker 数・timeout)
  • (13:03) DreamShaper に差し替えて IDE 内で再生成
  • (14:30) オーケストレーションが本領 — パイプラインのデモ
  • (15:20) Qwen3 でプロンプト生成 → DreamShaper → Nano Banana 2 で合成
  • (16:57) 課金 — 秒単位、 Serverless と Pods の使い分け
  • (18:39) 最終成果物の合成写真、 まとめ

関連リンク

用語集

RunPod
2022 年創業の AI クラウド / GPU 基盤企業 (共同創業 Zhen Lu = CEO、 Pardeep Singh = CTO)。 ハードウェアと計算を提供し、 開発者はコード・モデルを持ち込んでデプロイする。 公称 50 万人超の開発者、 $120M ARR、 30 以上のデータセンター。 2021 年末の Ethereum マイニング機の転用と Reddit の無料 GPU 提供から始まった。
Flash
RunPod の OSS Python SDK。 async Python 関数に endpoint デコレータ (講演では @flash.endpoint、 公式ドキュメントでは @Endpoint) を付けるだけで、 その関数を GPU クラウドへデプロイする。 main 関数やヘルパーはローカル、 GPU 計算部分だけクラウド。 hot file reload で変更が即反映。 Dockerfile 不要。
Pods / Serverless / Instant Clusters / Hub
RunPod の 4 つの形。 Pods = 永続 VM・秒課金・予約 GPU。 Serverless = 自動スケール + ゼロスケールでアイドル課金回避 (割増あり)。 Instant Clusters = 訓練・マルチノード向け。 Hub = 事前検証済み OSS リポジトリ (ComfyUI / Stable Diffusion / vLLM 等) を即デプロイ。
Nano Banana 2
Google の画像モデル Gemini 3.1 Flash Image の通称。 複数写真の合成に強い premium モデル。 RunPod のデモでは、 Qwen3 がプロンプト生成 → DreamShaper が画像生成 → Nano Banana 2 が合成、 という多段パイプラインの最終段に使われた。
秒単位課金 / Serverless 割増
RunPod の課金はリクエストが走った時間ぶん。 デモでは H100 が 1 秒あたり約 0.00116 ドルと示された。 Serverless はスケーリングのぶん Pods より割増。 試行錯誤中は Pods か低 worker、 本番の可変負荷は数百 worker を分散できる Serverless、 が推奨。
comment is stripped from the HTML output. */}