父親が失明した日に Apple Silicon が来た — MLX で構築するオンデバイス AI (Prince Canuma)

AI Engineer Code Summit (NYC) 2026/05/11

Prince Canuma / プリンス・カヌマ · 01:30 「2020 年、 父が失明した。 同じ年、 Apple がオンデバイス推論で最も強力なチップ (M1) をリリースした。 私は父に言った、 『どうにかして読書に戻してあげる』 — その時から、 オンデバイス AI が私の未来になった」

AI Engineer Code Summit (NYC、 2026/05 開催)。 約 22 分。 Neywa Labs Prince Canuma が共同創業したスタートアップ。 MLX エコシステム (Apple Silicon 上の機械学習) の開発を主導、 MLX VLM (vision-language)、 MLX Audio、 MLX Video などのフレームワークを公開 共同創業者の Prince Canuma が、 個人的動機 (父の失明) から始まったオンデバイス AI への旅と、 MLX エコシステムの現在地を語る

他のセッションと一線を画す 個人的動機から始まる技術論。 Prince の父はアフリカに住み、 2020 年に視力を失った。 父はインターネット接続が不安定な環境にいて、 「クラウド AI」 は彼には届かない。 「オンデバイス AI こそ未来」 という Prince の信念は、 ここから始まる。 同年、 Apple が M1 を発表。 偶然の交差。

3 年後 (2023)、 Prince は GitHub で MLX を発見、 コントリビューターになった。 「3 年後、 1.5M ダウンロード、 4,000+ モデルが移植され、 Frontier ラボとの day zero サポート関係」 (03:00)。 MLX エコシステムの中心人物として、 オンデバイスでの AI 実装の最前線を 22 分で見せる。

MEMEX 編集視点で重要なのは、 これが MEMEX の他の vibe coding / エージェント系列と異なる、 「オンデバイス推論」 の論点を初めて立体化する こと。 Karpathy/Boris/Schluntz は クラウド推論 (Claude API、 GPT API) を前提、 Mehedi/Eric (Granola/Trigger.dev) も同様、 一方 Prince は 「全部ローカルで動かす」 こと自体を哲学にしてる。 アクセシビリティ、 主権、 プライバシー — クラウド前提では拾えない論点を補強する。

着眼点

個人史 — 父の失明と Apple Silicon の偶然 (01:00 - 02:30)

Prince の出発点。 2020 年、 父が失明。 「父は私が知る最も貪欲な読書家」。 「私は父に言った、 どうにかして読書に戻してあげる」 (01:30)。 同年、 Apple が M1 を発表。

技術選択の理由が個人的かつ構造的: 「父はアフリカに住んでる、 そこではここのようにインターネットがすぐ使えない、 サブスクプランも本当に酷い。 だから オンデバイスが未来や」 (02:30)。 Karpathy や Boris が 「クラウド AI を前提」 にして語る vibe coding と対比すると、 AI のアクセシビリティの地理的不平等 を Prince が直接に問題化してる。 これは Hinton/Sejnowski の DWC 講演 での 「タバコ・アスベスト先例 (Global South が被害者)」 と並ぶ、 業界の構造的問題への直接の応答。

MLX エコシステムの現状 — 1.5M ダウンロード、 4,000 モデル (03:00)

MLX Apple の研究チームが 2023 年に公開した、 Apple Silicon 用の機械学習フレームワーク。 PyTorch や TensorFlow に相当する役割を Apple Silicon で果たす。 Unified memory architecture (CPU/GPU 共有メモリ) を活用、 高効率に LLM 推論を実行 自体は Apple が 2023 年に発表した Apple Silicon 用 ML フレームワーク。 Prince はこれを早期に発見し、 コミュニティ拡張を主導してる。

Neywa Labs が提供する MLX 拡張:

  • MLX VLM: Vision-Language モデル (画像理解 + テキスト生成)。 LM Studio、 Liquid AI モデル等の基盤として採用
  • MLX Audio: 音声認識 (Whisper 系)、 音声合成 (Marvis TTS、 100ms 未満生成)
  • MLX Video: ビデオ生成。 16GB RAM の MacBook で動く
  • MLX Omni 系: 画像 + 音声 + テキストの統合モデル (Gemma 4 E 版、 QAN 3 Omni 30B 等)

Day Zero サポートの意味: 「Gemma 4 が先週リリース、 我々は リリース日から MLX で動く ようサポートを準備してた」 (03:00)。 これは Frontier ラボとの公式な事前協力関係を示す。 オープンソース MLX が、 Apple/Google/Meta の最新モデルと同じ速度でアップデートされる体制。

iPhone で Gemma 4 26B が動く時代 (04:42 - 05:30)

技術的ハイライト。 「数百億パラメータのモデルが、 M1 MacBook で動く。 さらに iPhone で Gemma 4 26B が動く、 ストレージを使えば」 (05:00)。 「合理的な速度で」 という条件付き。

これは Karpathy が AI Ascent 2026 で語った 「Software 3.0」 の物理的な可能性を、 デバイス側から保証する話。 「LLM がコンピューター」 という Karpathy のパラダイムが、 「ローカルマシンで LLM が動く」 という現実によって成立する。 Apple Silicon の Unified Memory アーキテクチャ (GPU/CPU 共有メモリ) が、 これを物理的に可能にした。

Marvis TTS と 100ms 未満生成 (06:00)

Neywa Labs が公開する Marvis カスタム音声生成モデル。 「100ms 未満で音声を生成」。 これにより、 リアルタイム対話システムが実用化される。 「Whisperflow や Super Whisper を使ってる人? — それを 10 分で vibe coding できる、 Claude Code か Codex を MLX Audio に向けて指示すれば」 (06:20)。

これは Schluntz の 「葉ノード戦略」 の最適例 — 完全にローカル動作する音声 I/O ライブラリの完成度 + Claude Code による組み立てで、 個人が 10 分で TTS アプリを作れる世界。 MEMEX の他の記事で扱う 「クラウド AI を Claude Code で組み合わせる」 vibe coding を、 「ローカル AI を Claude Code で組み合わせる」 という別次元に拡張する。

TurboQuant — Prince の研究貢献 (21:00 - 22:30)

質疑応答での重要なエピソード。 「私は TurboQuant 2026 年 3 月に発表された量子化研究。 LLM の KV キャッシュ (Key-Value、 推論時のメモリ使用量の主要部分) を 4 倍圧縮。 Prince Canuma が論文発表 30 分後に公開実装、 同日中に大規模に拡散 を 論文公開 30 分後に公開実装 した、 世界で最初に。 深夜 3 時のツイートが 70 万ビューになった」 (21:30)。

実用効果: 「フルモデルが KV キャッシュ / RAM で約 1GB 使う、 TurboQuant で 4 倍削減。 同等品質。 30 万コンテキストでは、 スループットがほぼ倍増」 (22:00)。 そして決定的: 「これで、 デバイス上で 1M コンテキストを提供できる、 モデルサイズとハードウェア次第で」 (22:30)。

これは Arize の階層メモリTrigger.dev の snapshot/restore の議論と並ぶ、 「LLM のスケール問題への 3 つの異なる解決策」 として読める。 Arize はソフトウェア層 (コンテキスト戦略)、 Trigger.dev はインフラ層 (state management)、 Prince はモデル層 (量子化) で、 同じ 「大きすぎる問題」 に異なる角度から取り組んでる。

Reachy Mini ロボット — Iron Man Jarvis 音声クローン (15:45 - 16:30)

動画のクロージング。 Prince が Reachy Mini ロボットを取得、 MLX Audio + MLX Vision で 「視覚 + 聴覚」 を持たせた。 「Iron Man の Jarvis 音声をリアルタイムでクローン」。 「私の iPhone、 iPad、 Mac、 ロボットで動くエージェントを作れる、 今日から」 (16:30)。

この未来観 — エージェントが個人のデバイスで動き、 形状 (phone、 robot) を問わない — は、 Karpathy の 「LLM は新しいコンピュータ」Boris Cherny の 「電話でコードを書く」 と同じ景色を、 ハードウェア多様性の文脈で見ている。 Phone、 Tablet、 Mac、 Robot、 すべてが「LLM ホストデバイス」 になる時代。

関連記事

重要な引用

  • 「2020 年、 父が失明した。 同じ年、 Apple がオンデバイス推論で最も強力なチップ (M1) をリリースした」 (01:30)
  • 「父はアフリカに住んでる、 インターネットがすぐ使えない。 だからオンデバイスが未来や」 (02:30)
  • 「3 年間で MLX は 1.5M ダウンロード、 4,000+ モデル、 Frontier ラボとの day zero サポート」 (03:00)
  • 「iPhone で Gemma 4 26B が動く、 ストレージを使えば。 合理的な速度で」 (05:00)
  • 「Marvis TTS は 100ms 未満で音声を生成。 Claude Code を MLX Audio に向ければ、 10 分で Whisperflow が vibe coding できる」 (06:20)
  • 「TurboQuant、 論文公開 30 分後に世界初の実装、 深夜 3 時のツイートが 70 万ビューに」 (21:30)
  • 「1M コンテキストをオンデバイスで提供できる、 モデルサイズとハードウェア次第で」 (22:30)
  • 「あなたの iPhone、 iPad、 Mac、 ロボットで動くエージェントを作れる、 今日から」 (16:30)

出典

Why MLX — AI Engineer 公式 (YouTube)

関連リソース:

用語集

MLX
Apple の研究チームが 2023 年に公開した、 Apple Silicon 用の機械学習フレームワーク。 PyTorch や TensorFlow に相当する役割を Apple Silicon で果たす。 Unified memory architecture (CPU/GPU 共有メモリ) を活用、 高効率に LLM 推論を実行。
Neywa Labs
Prince Canuma が共同創業のスタートアップ。 MLX エコシステム (MLX VLM、 MLX Audio、 MLX Video) の開発を主導。 Apple Silicon 上のオープンソース AI ツールの中心。
Marvis TTS
Neywa Labs が開発するカスタム音声合成モデル。 100ms 未満で音声を生成、 オンデバイス完結。 Whisperflow / Super Whisper と並ぶ、 音声入力ツールの自前実装基盤。
TurboQuant
2026 年 3 月に発表された量子化研究。 LLM の KV キャッシュ (Key-Value、 推論時のメモリ使用量の主要部分) を 4 倍圧縮。 Prince Canuma が論文公開 30 分後に公開実装、 同日大規模に拡散。 これにより、 1M コンテキストをデバイス上で提供可能に。
RFDETR (Roboflow)
Roboflow が公開するリアルタイム物体検出モデル。 Prince の MLX デモで使用、 「私の顔と背景を検出、 背景をぼかす」 をオンデバイスでリアルタイムに実行。 Isaac Robinson の AI Engineer Europe 講演 でも詳しく解説
Reachy Mini
Hugging Face / Pollen Robotics 等が販売するオープンソース小型ロボット。 Prince が MLX Audio + MLX Vision を組み合わせて、 視覚 + 聴覚を持たせ、 Iron Man Jarvis 風の音声で対話できるロボットに改造
comment is stripped from the HTML output. */}