FLUX、オープン研究、ビジュアル AI の未来 — ステファン・バティフォル / Black Forest Labs (AI Engineer Europe)

AI Engineer Europe 2026/05/08

ステファン・バティフォル / Stephen Batifol · 09:55 「外部エンコーダーは、まさにフランケンシュタインの設定」

AI Engineer チャンネル (2026/05/08 公開、約 22 分)。ロンドン開催の AI Engineer Europe 2026 (4/8-10) 最終日キーノート

Stable Diffusion / Latent Diffusion の元チームが独立して 2024 年に作った Black Forest Labs (BFL、ドイツ・フライブルク) の現在地と未来構想を、 22 分で示すキーノート。 Flux 1 / Flux Context / Flux 2 という主要モデル系譜のレビューから、約 1.5 ヶ月前に公開した Self-Flow 研究論文、 Klein モデルのリアルタイム編集デモ、そして「Visual Intelligence」 = 世界モデル + ロボティクス + 自律運転という将来ビジョンまで含む密度の濃い内容。

語るのはステファン・バティフォル (Stephen Batifol) — BFL の Developer Relations エンジニア。 BFL は学術引用 200,000 件超のチームが作った会社で、顧客に Microsoft / Adobe / Canva / Mistral などが並ぶ。 Flux 1 (2024 年 8 月、初のブレークスルー、 OSS text-to-image、ラップトップで実行可) は当時 Hugging Face で「最も人気のモデル」だった、という Clem (HF 創業 CEO) からの言及エピソードも紹介される。

話の中心は Self-Flow という研究論文 (約 1.5 ヶ月前に公開、オープン)。マルチモーダル生成モデル (画像 + 動画 + 音声 + アクション) を訓練する従来手法は、外部の事前訓練エンコーダー (例: Dyno V2) に依存して表現を学ぶが、スケーリングに上限があり、モダリティ特化で、「フランケンシュタインの設定」と言いたくなるほど目的のズレがある。 Self-Flow はこれを解決する — 学生 / 教師の 2 段階構造で、表現学習と生成を同じフローで結合し、外部エンコーダー不要にする設計。

実演は 4 つ。 (1) 画像生成での文字精度 — 「World」のような単純な文字も従来は L が 2 つ出るバグがあったが、 Self-Flow は隣接関係を含めて学習する。 (2) 動画 + 音声の同時生成 — 「Hello from the Black Forest」という会社名そのものを発話するデモで、ベースラインのちらつきと Self-Flow の安定性を対比。 (3) ロボットアクション予測 — 同じ Self-Flow モデルが缶を拾うアクションも生成する。 (4) Klein 4B/9B によるリアルタイム編集 — 0.5 秒で生成、比較対象 QAN は 15-20 秒。「視覚的知性 = 世界モデル + ロボティクス + 自律運転」という未来絵で締める。

着眼点

「外部エンコーダーはフランケンシュタインの設定」という現状診断 (09:55)

マルチモーダル生成モデルを訓練するときの「ありがちな構成」への批判。画像のために Dyno V2、動画のために別のエンコーダー、音声のためにまた別、という個別最適のエンコーダー群を 1 つの生成モデルに繋ぎ込むと、「フランケンシュタインの設定」になり、目的もズレている (エンコーダー = 分割が目的、生成モデル = コンテンツ生成が目的)。さらに上位エンコーダー (Dyno V3) を使うとパフォーマンスが下がる、という実測も示される。「Dyno V3 はモデルとしては Dyno V2 より優秀、でも生成のために訓練するとなぜか悪化する。ルールも分かっていない」という率直な現状診断。

Self-Flow = 学生 / 教師で表現と生成を結合 (11:00 - 14:30)

解決策の中身。同じモデル内に「学生」と「教師」を置き、 (a) 学生には大量のノイズを加えた画像を渡してノイズ除去させる (生成損失)、 (b) 教師には少量のノイズを加えた画像を渡して、学生がその表現に近づくように学ばせる (表現損失)。これを 1 つのモデルで同時最適化することで、外部エンコーダーが不要になる。結果: 画像 / 動画 / 音声で全モダリティ向上、収束も速く (200 万ステップでもベースラインは飽和、 Self-Flow は損失減少を継続)。「Stable Diffusion 系の系譜が、 representation learning と generation を一体化させる方向に進んだ」という大きな転換点を示す論文。

「Hello from the Black Forest」という入れ子のジョークデモ (17:00)

Self-Flow が動画 + 音声を同時生成する能力を見せるデモで、プロンプトは会社名そのもの — 「Hello from the Black Forest」 (黒い森から、こんにちは)。ベースラインの動画+音声生成では音声がちらつき、リップシンクも歪む。 Self-Flow は両方を同じモデルで訓練しているので、ちらつきがほぼなく、「Hello from the Black Forest」が綺麗に発話される。会社名 (Black Forest Labs) → デモのプロンプト → モデルの能力デモンストレーション、という入れ子構造で記憶に残る作り。

Klein 4B/9B でリアルタイム編集 (0.5 秒) (18:00)

韓国の Klein モデルとの統合で実装した、リアルタイム編集デモ。 Klein 9B は他のオープンソースモデル (QAN 等) と少なくとも同等の品質を、 0.5 秒のレイテンシで返す (QAN は 15-20 秒)。「リアルタイムでガイドできる」 = ユーザーが編集指示を出すと即時に画像が変わる、というインタラクティブ体験が成立する。 BFL が描く未来 = 「ゲームや映画用のインタラクティブビジュアルエンジン、プロンプトに従って実際にムービーをレンダリング」という発想は、ここから具体性を帯びてくる。

動画の構成

(00:00) 自己紹介、 BFL の概要 — Stable Diffusion / Latent Diffusion を作ったチーム
(00:50) 顧客 — Microsoft / Adobe / Canva / Mistral など、学術引用 200,000 件超
(01:14) Flux 1 (2024/8) — 初のブレークスルー、 OSS、ラップトップで実行可、解剖学的構造の精度
(02:13) Flux Context — 世界初の OSS 編集モデル (テキスト + 画像入力)、 7-8 秒で生成
(04:00) Flux 2 (2025/11) — BFL の最新世代、同時最大 10 枚の画像入力、編集 + 生成統合
(06:00) BFL の経営理念 — フロンティアモデルをリリース、品質基準を毎回引き上げる
(09:00) 既存マルチモーダル生成モデルの限界 — スケーリング上限、モダリティ特化、目的のズレ
(09:55) 「フランケンシュタインの設定」 — 外部エンコーダー多重使用への批判
(10:30) Dyno V3 が Dyno V2 より生成タスクで悪化する実測
(11:00) Self-Flow 研究論文の紹介 — 約 1.5 ヶ月前に公開
(11:30) Self-Flow アーキテクチャ — 学生 / 教師の 2 段階で表現学習と生成を結合
(13:50) 結果 — 画像 / 動画 / 音声で全モダリティ向上、収束も速い
(14:50) 文字生成の精度向上 — 「World」の L が 2 つ出るバグが解消
(16:00) 動画ちらつきの解消比較
(17:00) 「Hello from the Black Forest」 — 動画 + 音声同時生成デモ
(17:30) ロボットアクション予測 — 同じ Self-Flow モデルが缶を拾うアクションも生成
(18:00) Klein 4B/9B によるリアルタイム編集デモ — 0.5 秒で生成 (QAN は 15-20 秒)
(19:48) Visual Intelligence の将来構想 — リアルタイム生成、インタラクティブビジュアルエンジン
(21:00) 世界モデル (World Models) — ロボティクス、自律運転、製造自動化
(21:30) Q&A — データソース (機密)、世界の表現方法 (コンテキストウィンドウの記憶)、長文脈対応 (sliding window)

出典

FLUX, Open Research, and the Future of Visual AI — Stephen Batifol, Black Forest Labs (AI Engineer)

ステファン・バティフォル

Stephen Batifol

Black Forest Labs (BFL) DevRel エンジニア / Flux モデル開発元

comment is stripped from the HTML output. */}