Prince Canuma / プリンス・カヌマ · 01:30 「2020 年、 父が失明した。 同じ年、 Apple がオンデバイス推論で最も強力なチップ (M1) をリリースした。 私は父に言った、 『どうにかして読書に戻してあげる』 — その時から、 オンデバイス AI が私の未来になった」
他のセッションと一線を画す 個人的動機から始まる技術論。 Prince の父はアフリカに住み、 2020 年に視力を失った。 父はインターネット接続が不安定な環境にいて、 「クラウド AI」 は彼には届かない。 「オンデバイス AI こそ未来」 という Prince の信念は、 ここから始まる。 同年、 Apple が M1 を発表。 偶然の交差。
3 年後 (2023)、 Prince は GitHub で MLX を発見、 コントリビューターになった。 「3 年後、 1.5M ダウンロード、 4,000+ モデルが移植され、 Frontier ラボとの day zero サポート関係」 (03:00)。 MLX エコシステムの中心人物として、 オンデバイスでの AI 実装の最前線を 22 分で見せる。
MEMEX 編集視点で重要なのは、 これが MEMEX の他の vibe coding / エージェント系列と異なる、 「オンデバイス推論」 の論点を初めて立体化する こと。 Karpathy/Boris/Schluntz は クラウド推論 (Claude API、 GPT API) を前提、 Mehedi/Eric (Granola/Trigger.dev) も同様、 一方 Prince は 「全部ローカルで動かす」 こと自体を哲学にしてる。 アクセシビリティ、 主権、 プライバシー — クラウド前提では拾えない論点を補強する。
着眼点
個人史 — 父の失明と Apple Silicon の偶然 (01:00 - 02:30)
Prince の出発点。 2020 年、 父が失明。 「父は私が知る最も貪欲な読書家」。 「私は父に言った、 どうにかして読書に戻してあげる」 (01:30)。 同年、 Apple が M1 を発表。
技術選択の理由が個人的かつ構造的: 「父はアフリカに住んでる、 そこではここのようにインターネットがすぐ使えない、 サブスクプランも本当に酷い。 だから オンデバイスが未来や」 (02:30)。 Karpathy や Boris が 「クラウド AI を前提」 にして語る vibe coding と対比すると、 AI のアクセシビリティの地理的不平等 を Prince が直接に問題化してる。 これは Hinton/Sejnowski の DWC 講演 での 「タバコ・アスベスト先例 (Global South が被害者)」 と並ぶ、 業界の構造的問題への直接の応答。
MLX エコシステムの現状 — 1.5M ダウンロード、 4,000 モデル (03:00)
MLX Apple の研究チームが 2023 年に公開した、 Apple Silicon 用の機械学習フレームワーク。 PyTorch や TensorFlow に相当する役割を Apple Silicon で果たす。 Unified memory architecture (CPU/GPU 共有メモリ) を活用、 高効率に LLM 推論を実行 自体は Apple が 2023 年に発表した Apple Silicon 用 ML フレームワーク。 Prince はこれを早期に発見し、 コミュニティ拡張を主導してる。
Neywa Labs が提供する MLX 拡張:
- MLX VLM: Vision-Language モデル (画像理解 + テキスト生成)。 LM Studio、 Liquid AI モデル等の基盤として採用
- MLX Audio: 音声認識 (Whisper 系)、 音声合成 (Marvis TTS、 100ms 未満生成)
- MLX Video: ビデオ生成。 16GB RAM の MacBook で動く
- MLX Omni 系: 画像 + 音声 + テキストの統合モデル (Gemma 4 E 版、 QAN 3 Omni 30B 等)
Day Zero サポートの意味: 「Gemma 4 が先週リリース、 我々は リリース日から MLX で動く ようサポートを準備してた」 (03:00)。 これは Frontier ラボとの公式な事前協力関係を示す。 オープンソース MLX が、 Apple/Google/Meta の最新モデルと同じ速度でアップデートされる体制。
iPhone で Gemma 4 26B が動く時代 (04:42 - 05:30)
技術的ハイライト。 「数百億パラメータのモデルが、 M1 MacBook で動く。 さらに iPhone で Gemma 4 26B が動く、 ストレージを使えば」 (05:00)。 「合理的な速度で」 という条件付き。
これは Karpathy が AI Ascent 2026 で語った 「Software 3.0」 の物理的な可能性を、 デバイス側から保証する話。 「LLM がコンピューター」 という Karpathy のパラダイムが、 「ローカルマシンで LLM が動く」 という現実によって成立する。 Apple Silicon の Unified Memory アーキテクチャ (GPU/CPU 共有メモリ) が、 これを物理的に可能にした。
Marvis TTS と 100ms 未満生成 (06:00)
Neywa Labs が公開する Marvis カスタム音声生成モデル。 「100ms 未満で音声を生成」。 これにより、 リアルタイム対話システムが実用化される。 「Whisperflow や Super Whisper を使ってる人? — それを 10 分で vibe coding できる、 Claude Code か Codex を MLX Audio に向けて指示すれば」 (06:20)。
これは Schluntz の 「葉ノード戦略」 の最適例 — 完全にローカル動作する音声 I/O ライブラリの完成度 + Claude Code による組み立てで、 個人が 10 分で TTS アプリを作れる世界。 MEMEX の他の記事で扱う 「クラウド AI を Claude Code で組み合わせる」 vibe coding を、 「ローカル AI を Claude Code で組み合わせる」 という別次元に拡張する。
TurboQuant — Prince の研究貢献 (21:00 - 22:30)
質疑応答での重要なエピソード。 「私は TurboQuant 2026 年 3 月に発表された量子化研究。 LLM の KV キャッシュ (Key-Value、 推論時のメモリ使用量の主要部分) を 4 倍圧縮。 Prince Canuma が論文発表 30 分後に公開実装、 同日中に大規模に拡散 を 論文公開 30 分後に公開実装 した、 世界で最初に。 深夜 3 時のツイートが 70 万ビューになった」 (21:30)。
実用効果: 「フルモデルが KV キャッシュ / RAM で約 1GB 使う、 TurboQuant で 4 倍削減。 同等品質。 30 万コンテキストでは、 スループットがほぼ倍増」 (22:00)。 そして決定的: 「これで、 デバイス上で 1M コンテキストを提供できる、 モデルサイズとハードウェア次第で」 (22:30)。
これは Arize の階層メモリ や Trigger.dev の snapshot/restore の議論と並ぶ、 「LLM のスケール問題への 3 つの異なる解決策」 として読める。 Arize はソフトウェア層 (コンテキスト戦略)、 Trigger.dev はインフラ層 (state management)、 Prince はモデル層 (量子化) で、 同じ 「大きすぎる問題」 に異なる角度から取り組んでる。
Reachy Mini ロボット — Iron Man Jarvis 音声クローン (15:45 - 16:30)
動画のクロージング。 Prince が Reachy Mini ロボットを取得、 MLX Audio + MLX Vision で 「視覚 + 聴覚」 を持たせた。 「Iron Man の Jarvis 音声をリアルタイムでクローン」。 「私の iPhone、 iPad、 Mac、 ロボットで動くエージェントを作れる、 今日から」 (16:30)。
この未来観 — エージェントが個人のデバイスで動き、 形状 (phone、 robot) を問わない — は、 Karpathy の 「LLM は新しいコンピュータ」 や Boris Cherny の 「電話でコードを書く」 と同じ景色を、 ハードウェア多様性の文脈で見ている。 Phone、 Tablet、 Mac、 Robot、 すべてが「LLM ホストデバイス」 になる時代。
関連記事
- Karpathy: Software 3.0 — 「LLM は新しいコンピュータ」 概念、 ローカル実行の可能性を保証する
- Hinton: 国連 DWC — Global South とアクセシビリティの構造的問題
- Trigger.dev: 耐久エージェント — スケール問題のインフラ層解決
- Arize: 階層メモリ — スケール問題のソフトウェア層解決
- Samuel Humeau / Mistral: TTS — クラウド側 TTS の対比
重要な引用
- 「2020 年、 父が失明した。 同じ年、 Apple がオンデバイス推論で最も強力なチップ (M1) をリリースした」 (01:30)
- 「父はアフリカに住んでる、 インターネットがすぐ使えない。 だからオンデバイスが未来や」 (02:30)
- 「3 年間で MLX は 1.5M ダウンロード、 4,000+ モデル、 Frontier ラボとの day zero サポート」 (03:00)
- 「iPhone で Gemma 4 26B が動く、 ストレージを使えば。 合理的な速度で」 (05:00)
- 「Marvis TTS は 100ms 未満で音声を生成。 Claude Code を MLX Audio に向ければ、 10 分で Whisperflow が vibe coding できる」 (06:20)
- 「TurboQuant、 論文公開 30 分後に世界初の実装、 深夜 3 時のツイートが 70 万ビューに」 (21:30)
- 「1M コンテキストをオンデバイスで提供できる、 モデルサイズとハードウェア次第で」 (22:30)
- 「あなたの iPhone、 iPad、 Mac、 ロボットで動くエージェントを作れる、 今日から」 (16:30)
出典
Why MLX — AI Engineer 公式 (YouTube)
関連リソース:
用語集
- MLX
- Apple の研究チームが 2023 年に公開した、 Apple Silicon 用の機械学習フレームワーク。 PyTorch や TensorFlow に相当する役割を Apple Silicon で果たす。 Unified memory architecture (CPU/GPU 共有メモリ) を活用、 高効率に LLM 推論を実行。
- Neywa Labs
- Prince Canuma が共同創業のスタートアップ。 MLX エコシステム (MLX VLM、 MLX Audio、 MLX Video) の開発を主導。 Apple Silicon 上のオープンソース AI ツールの中心。
- Marvis TTS
- Neywa Labs が開発するカスタム音声合成モデル。 100ms 未満で音声を生成、 オンデバイス完結。 Whisperflow / Super Whisper と並ぶ、 音声入力ツールの自前実装基盤。
- TurboQuant
- 2026 年 3 月に発表された量子化研究。 LLM の KV キャッシュ (Key-Value、 推論時のメモリ使用量の主要部分) を 4 倍圧縮。 Prince Canuma が論文公開 30 分後に公開実装、 同日大規模に拡散。 これにより、 1M コンテキストをデバイス上で提供可能に。
- RFDETR (Roboflow)
- Roboflow が公開するリアルタイム物体検出モデル。 Prince の MLX デモで使用、 「私の顔と背景を検出、 背景をぼかす」 をオンデバイスでリアルタイムに実行。 Isaac Robinson の AI Engineer Europe 講演 でも詳しく解説
- Reachy Mini
- Hugging Face / Pollen Robotics 等が販売するオープンソース小型ロボット。 Prince が MLX Audio + MLX Vision を組み合わせて、 視覚 + 聴覚を持たせ、 Iron Man Jarvis 風の音声で対話できるロボットに改造