メルヴェ・ノヤン / Merve Noyan (Hugging Face) · 06:30 「Qwen2-VL を LLaVA-Instruct-Mix で fine-tune して、 と言うだけで、 エージェントが VRAM を計算して、 質問してきて、 自動で訓練する。 6 年機械学習やってきた私から見たら、 これは SF や」
登壇は Merve Noyan、 Hugging Face オープンソースチーム の ML アドボカシーエンジニア。 書籍『Vision Language Models』 (O'Reilly、 2025) 共著者。 タイトルは「Your Agent Can Now Train Models」 — Hugging Face Hub の MCP サーバ + Skills + Inference Providers を統合すると、 Claude Code が直接モデルを fine-tune できる時代がもう来てるで、 という宣言。
論の起点は強い:「Cloud のパフォーマンス劣化」 (Anthropic の Cloud モデルが直近で性能低下したという業界の話) を引き合いに、「全部オープンなら、 知らない間に性能が落ちることは無い」 と主張。 オープンモデル (重み公開) + オープンソース (商用 OK license) + 完全オープン (コード / ハーネス全て) の 3 段階を整理しつつ、 量子化・縮小・fine-tune が自由にでき、 端末ブラウザに乗せてプライバシー保証もできる、 と続ける。
着眼点
SWE-bench Pro トップ独占はオープンモデル — GLM 5.1 が 58.4 (04:34)
議論を決定づけるのが Artificial Analysis Intelligence Index + SWE-bench Pro リーダーボード。 緑が open、 黒が closed。「ここ最近、 オープン側がクローズドに完全に追いついた」 と Merve は言う。 直近の SWE-bench Pro ランキングは、 GLM 5.1 (Z.ai) 58.4 トップ、 続く MiniMax-M2.5 が 55.4、 Kimi K2.5 (Moonshot) が 50.7、 Qwen3-Coder-Next 44.3、 Qwen3-Coder-480B-A35B-Instruct 38.7 — 上位 5 つ全部オープン。
「我々はキャッチアップした、 これからもっとキャッチアップする」 と Merve。 Hugging Face Hub には今 300 万モデル弱、 大量のオープンモデルから「ベンチマーク → 試聴 → ローカル実行」 まで Hub 上で完結する流れを丁寧に解説。 Inference Providers (Groq、 Cerebras、 Novita 等) でルーティングしながら「最安 / 最速 / tool use 対応」 で絞り込めるのが Hub の真の価値、 と。
Skills が「VRAM 電卓」 を要らなくした — エージェント主導の fine-tune (13:14)
この talk の主役パートは Hugging Face Skills。 Skills の中に LLM trainer skill があって、 Claude Code に「Qwen2-VL を LLaVA-Instruct-Mix で fine-tune して」 と日本語感覚で指示するだけ。 エージェントが裏で:
- VRAM 試算 (モデルサイズ × バッチサイズ × precision で必要メモリを電卓)
- 適切なインスタンスを聞いてくる (複数候補から)
- validation split、 epoch 数等を質問
- Hugging Face Infra で job を kickoff
- 完了後、 Hub に学習済みモデルがアップロード
Merve 曰く「機械学習エンジニアキャリア 6 年、 これは SF や」。 さらに対応領域は LLM / VLM だけでなく、 object detector や segmentation model にも拡張中。 bounding box の形式差まで Skills が吸収する。 これが「vibe train」 の現実。
Hermes エージェント — open weight × Claude のメモリ管理超え (07:51)
Merve が「この丘で死ぬ」 (I will die on this hill) と公言するほど推しているのが Hermes Agents。 Open weight 系で Setup Wizard が Slack / WhatsApp / その他 messaging に統合するまで全部やってくれる。 メモリ管理の面で OpenClaw を一歩超える設計、 という主張。
Slack 連携で詰まった時、 「GLM 5.1 + Hermes に Slack 連携を修正して」 と頼んだら、 自分で原因特定して直してくれた、 という具体的な体験談。 Hugging Face Inference Providers 経由で動かしてもいいし、 Llama.cpp でローカル serve してもいい。 開発体験の柔軟性が、 Anthropic / OpenAI 単一 API より高い、 と。
30,000 論文を Codex + 安いオープン OCR で一括処理 (16:25)
同僚 Nils Reimers が Hugging Face Hub の 「Papers」 セクションの強化のために、 30,000 本の AI 論文を OCR でマークダウン化したプロジェクトを実演紹介。 やり方:
- olm OCR Bench でモデル選定 (Chandra OCR がトップだが、 Skills に「fine-tune 向けの最良 OCR は?」 と聞ける)
- エージェントに OCR スクリプトを書かせる
- エージェントが VRAM 計算 + コスト試算 (Hugging Face Bucket、 S3 互換だが安価高速)
- 並列 Job として Hugging Face Infra でキック
- 完了 → 論文に Markdown が紐付いて、 Hub 経由で検索 / RAG 可能に
これが「プロンプトだけで scientific data infra を回す」 実例。 30,000 論文を OCR するのに人間が触ったのは「指示書きと最終確認」 だけ。 Merve は「論文 1 本 OCR の napkin math を人間がやる時代は終わった」 と。
動画の構成
- (00:00) 自己紹介 — Hugging Face Open Source チームの Merve
- (00:40) Open Weight / Open Source / 完全オープンの 3 段階
- (01:23) Anthropic Cloud パフォーマンス低下と「全オープンなら気付かない劣化は起きない」
- (02:09) オープンモデルの強み — 量子化、 縮小、 fine-tune、 edge デプロイ
- (02:35) GLM 5.1 等オープンが Intelligence Index でキャッチアップ
- (03:50) Hugging Face Hub = オープンの infra 層、 300 万モデル
- (04:34) Vision LM + LLM の収束、 Day 0 で VLM リリースが標準化
- (04:58) Benchmark Datasets 機能 — SWE-bench Pro でランキング比較
- (05:17) Inference Providers で routing — 最安 / 最速 / tool use 対応で絞る
- (06:31) HF Hub MCP サーバ + Skills の概要
- (06:42) Local coding agents の選択肢 — Pi / Llama Agent / Llama.cpp 統合
- (07:51) Hermes Agents 推し — OpenClaw 超えのメモリ管理
- (09:22) Traces dataset repository — Claude / Codex / Pi セッションをアップロード可能
- (10:30) Local app 統合一覧 — LM Studio / Jan / Llama CPP
- (11:24) GGUF + Use This Model — 最低限のコマンドでローカル推論
- (12:14) Skills 概要 — HF CLI / LLM trainer / Gradio / Dataset / OCR
- (13:14) Skills 実例 — Qwen2-VL を LLaVA-Instruct-Mix で fine-tune
- (15:18) MCP で何を serve するか — Spaces 検索 / Jobs / Semantic search
- (16:00) Spaces から画像生成 (baklava made of yarn)
- (16:25) 同僚 Nils の 30,000 論文 OCR プロジェクト紹介
- (18:39) 締め + Twitter で slides 共有
出典
Your Agent Can Now Train Models — Merve Noyan, Hugging Face (AI Engineer Europe 2026)