FLUX、 オープン研究、 ビジュアル AI の未来 — ステファン・バティフォル / Black Forest Labs (AI Engineer Europe)

AI Engineer Europe 2026/05/08

ステファン・バティフォル / Stephen Batifol · 09:55 「外部エンコーダーは、 まさにフランケンシュタインの設定」

AI Engineer チャンネル (2026/05/08 公開、 約 22 分)。 ロンドン開催の AI Engineer Europe 2026 (4/8-10) 最終日キーノート

Stable Diffusion / Latent Diffusion の元チームが独立して 2024 年に作った Black Forest Labs (BFL、 ドイツ・フライブルク) の現在地と未来構想を、 22 分で示すキーノート。 Flux 1 / Flux Context / Flux 2 という主要モデル系譜のレビューから、 約 1.5 ヶ月前に公開した Self-Flow 研究論文、 Klein モデルのリアルタイム編集デモ、 そして 「Visual Intelligence」 = 世界モデル + ロボティクス + 自律運転という将来ビジョンまで含む密度の濃い内容。

語るのは ステファン・バティフォル (Stephen Batifol) — BFL の Developer Relations エンジニア。 BFL は学術引用 200,000 件超のチームが作った会社で、 顧客に Microsoft / Adobe / Canva / Mistral などが並ぶ。 Flux 1 (2024 年 8 月、 初のブレークスルー、 OSS text-to-image、 ラップトップで実行可) は当時 Hugging Face で 「最も人気のモデル」 だった、 という Clem (HF 創業 CEO) からの言及エピソードも紹介される。

話の中心は Self-Flow という研究論文 (約 1.5 ヶ月前に公開、 オープン)。 マルチモーダル生成モデル (画像 + 動画 + 音声 + アクション) を訓練する従来手法は、 外部の事前訓練エンコーダー (例: Dyno V2) に依存して表現を学ぶが、 スケーリングに上限があり、 モダリティ特化で、 「フランケンシュタインの設定」 と言いたくなるほど目的のズレがある。 Self-Flow はこれを解決する — 学生 / 教師の 2 段階構造で、 表現学習と生成を同じフローで結合し、 外部エンコーダー不要にする設計。

実演は 4 つ。 (1) 画像生成での文字精度 — 「World」 のような単純な文字も従来は L が 2 つ出るバグがあったが、 Self-Flow は隣接関係を含めて学習する。 (2) 動画 + 音声の同時生成 — 「Hello from the Black Forest」 という会社名そのものを発話するデモで、 ベースラインのちらつきと Self-Flow の安定性を対比。 (3) ロボットアクション予測 — 同じ Self-Flow モデルが缶を拾うアクションも生成する。 (4) Klein 4B/9B によるリアルタイム編集 — 0.5 秒で生成、 比較対象 QAN は 15-20 秒。 「視覚的知性 = 世界モデル + ロボティクス + 自律運転」 という未来絵で締める。

着眼点

「外部エンコーダーはフランケンシュタインの設定」 という現状診断 (09:55)

マルチモーダル生成モデルを訓練するときの 「ありがちな構成」 への批判。 画像のために Dyno V2、 動画のために別のエンコーダー、 音声のためにまた別、 という個別最適のエンコーダー群を 1 つの生成モデルに繋ぎ込むと、 「フランケンシュタインの設定」 になり、 目的もズレている (エンコーダー = 分割が目的、 生成モデル = コンテンツ生成が目的)。 さらに上位エンコーダー (Dyno V3) を使うとパフォーマンスが下がる、 という実測も示される。 「Dyno V3 はモデルとしては Dyno V2 より優秀、 でも生成のために訓練するとなぜか悪化する。 ルールも分かっていない」 という率直な現状診断。

Self-Flow = 学生 / 教師で表現と生成を結合 (11:00 - 14:30)

解決策の中身。 同じモデル内に 「学生」 と 「教師」 を置き、 (a) 学生には大量のノイズを加えた画像を渡してノイズ除去させる (生成損失)、 (b) 教師には少量のノイズを加えた画像を渡して、 学生がその表現に近づくように学ばせる (表現損失)。 これを 1 つのモデルで同時最適化することで、 外部エンコーダーが不要になる。 結果: 画像 / 動画 / 音声で全モダリティ向上、 収束も速く (200 万ステップでもベースラインは飽和、 Self-Flow は損失減少を継続)。 「Stable Diffusion 系の系譜が、 representation learning と generation を一体化させる方向に進んだ」 という大きな転換点を示す論文。

「Hello from the Black Forest」 という入れ子のジョークデモ (17:00)

Self-Flow が動画 + 音声を同時生成する能力を見せるデモで、 プロンプトは会社名そのもの — 「Hello from the Black Forest」 (黒い森から、 こんにちは)。 ベースラインの動画+音声生成では音声がちらつき、 リップシンクも歪む。 Self-Flow は両方を同じモデルで訓練しているので、 ちらつきがほぼなく、 「Hello from the Black Forest」 が綺麗に発話される。 会社名 (Black Forest Labs) → デモのプロンプト → モデルの能力デモンストレーション、 という入れ子構造で記憶に残る作り。

Klein 4B/9B でリアルタイム編集 (0.5 秒) (18:00)

韓国の Klein モデルとの統合で実装した、 リアルタイム編集デモ。 Klein 9B は他のオープンソースモデル (QAN 等) と少なくとも同等の品質を、 0.5 秒のレイテンシで返す (QAN は 15-20 秒)。 「リアルタイムでガイドできる」 = ユーザーが編集指示を出すと即時に画像が変わる、 というインタラクティブ体験が成立する。 BFL が描く未来 = 「ゲームや映画用のインタラクティブビジュアルエンジン、 プロンプトに従って実際にムービーをレンダリング」 という発想は、 ここから具体性を帯びてくる。

動画の構成

  • (00:00) 自己紹介、 BFL の概要 — Stable Diffusion / Latent Diffusion を作ったチーム
  • (00:50) 顧客 — Microsoft / Adobe / Canva / Mistral など、 学術引用 200,000 件超
  • (01:14) Flux 1 (2024/8) — 初のブレークスルー、 OSS、 ラップトップで実行可、 解剖学的構造の精度
  • (02:13) Flux Context — 世界初の OSS 編集モデル (テキスト + 画像入力)、 7-8 秒で生成
  • (04:00) Flux 2 (2025/11) — BFL の最新世代、 同時最大 10 枚の画像入力、 編集 + 生成統合
  • (06:00) BFL の経営理念 — フロンティアモデルをリリース、 品質基準を毎回引き上げる
  • (09:00) 既存マルチモーダル生成モデルの限界 — スケーリング上限、 モダリティ特化、 目的のズレ
  • (09:55) 「フランケンシュタインの設定」 — 外部エンコーダー多重使用への批判
  • (10:30) Dyno V3 が Dyno V2 より生成タスクで悪化する実測
  • (11:00) Self-Flow 研究論文の紹介 — 約 1.5 ヶ月前に公開
  • (11:30) Self-Flow アーキテクチャ — 学生 / 教師の 2 段階で表現学習と生成を結合
  • (13:50) 結果 — 画像 / 動画 / 音声で全モダリティ向上、 収束も速い
  • (14:50) 文字生成の精度向上 — 「World」 の L が 2 つ出るバグが解消
  • (16:00) 動画ちらつきの解消比較
  • (17:00) 「Hello from the Black Forest」 — 動画 + 音声同時生成デモ
  • (17:30) ロボットアクション予測 — 同じ Self-Flow モデルが缶を拾うアクションも生成
  • (18:00) Klein 4B/9B によるリアルタイム編集デモ — 0.5 秒で生成 (QAN は 15-20 秒)
  • (19:48) Visual Intelligence の将来構想 — リアルタイム生成、 インタラクティブビジュアルエンジン
  • (21:00) 世界モデル (World Models) — ロボティクス、 自律運転、 製造自動化
  • (21:30) Q&A — データソース (機密)、 世界の表現方法 (コンテキストウィンドウの記憶)、 長文脈対応 (sliding window)

出典

FLUX, Open Research, and the Future of Visual AI — Stephen Batifol, Black Forest Labs (AI Engineer)

comment is stripped from the HTML output. */}