父親が失明した日に Apple Silicon が来た — MLX で構築するオンデバイス AI (Prince Canuma)

AI Engineer Code Summit (NYC) 2026/05/11

Prince Canuma / プリンス・カヌマ · 01:30 「2020 年、父が失明した。同じ年、 Apple がオンデバイス推論で最も強力なチップ (M1) をリリースした。私は父に言った、『どうにかして読書に戻してあげる』 — その時から、オンデバイス AI が私の未来になった」

AI Engineer Code Summit (NYC、 2026/05 開催)。約 22 分。 Neywa Labs 共同創業者の Prince Canuma が、個人的動機 (父の失明) から始まったオンデバイス AI への旅と、 MLX エコシステムの現在地を語る

他のセッションと一線を画す個人的動機から始まる技術論。 Prince の父はアフリカに住み、 2020 年に視力を失った。父はインターネット接続が不安定な環境にいて、「クラウド AI」は彼には届かない。「オンデバイス AI こそ未来」という Prince の信念は、ここから始まる。同年、 Apple が M1 を発表。偶然の交差。

3 年後 (2023)、 Prince は GitHub で MLX を発見、コントリビューターになった。「3 年後、 1.5M ダウンロード、 4,000+ モデルが移植され、 Frontier ラボとの day zero サポート関係」 (03:00)。 MLX エコシステムの中心人物として、オンデバイスでの AI 実装の最前線を 22 分で見せる。

MEMEX 編集視点で重要なのは、これが MEMEX の他の vibe coding / エージェント系列と異なる、「オンデバイス推論」の論点を初めて立体化すること。 Karpathy/Boris/Schluntz はクラウド推論 (Claude API、 GPT API) を前提、 Mehedi/Eric (Granola/Trigger.dev) も同様、一方 Prince は「全部ローカルで動かす」こと自体を哲学にしてる。アクセシビリティ、主権、プライバシー — クラウド前提では拾えない論点を補強する。

着眼点

個人史 — 父の失明と Apple Silicon の偶然 (01:00 - 02:30)

Prince の出発点。 2020 年、父が失明。「父は私が知る最も貪欲な読書家」。「私は父に言った、どうにかして読書に戻してあげる」 (01:30)。同年、 Apple が M1 を発表。

技術選択の理由が個人的かつ構造的: 「父はアフリカに住んでる、そこではここのようにインターネットがすぐ使えない、サブスクプランも本当に酷い。だからオンデバイスが未来や」 (02:30)。 Karpathy や Boris が「クラウド AI を前提」にして語る vibe coding と対比すると、 AI のアクセシビリティの地理的不平等を Prince が直接に問題化してる。これは Hinton/Sejnowski の DWC 講演での「タバコ・アスベスト先例 (Global South が被害者)」と並ぶ、業界の構造的問題への直接の応答。

MLX エコシステムの現状 — 1.5M ダウンロード、 4,000 モデル (03:00)

MLX 自体は Apple が 2023 年に発表した Apple Silicon 用 ML フレームワーク。 Prince はこれを早期に発見し、コミュニティ拡張を主導してる。

Neywa Labs が提供する MLX 拡張:

MLX VLM: Vision-Language モデル (画像理解 + テキスト生成)。 LM Studio、 Liquid AI モデル等の基盤として採用
MLX Audio: 音声認識 (Whisper 系)、音声合成 (Marvis TTS、 100ms 未満生成)
MLX Video: ビデオ生成。 16GB RAM の MacBook で動く
MLX Omni 系: 画像 + 音声 + テキストの統合モデル (Gemma 4 E 版、 QAN 3 Omni 30B 等)

Day Zero サポートの意味: 「Gemma 4 が先週リリース、我々はリリース日から MLX で動くようサポートを準備してた」 (03:00)。これは Frontier ラボとの公式な事前協力関係を示す。オープンソース MLX が、 Apple/Google/Meta の最新モデルと同じ速度でアップデートされる体制。

iPhone で Gemma 4 26B が動く時代 (04:42 - 05:30)

技術的ハイライト。「数百億パラメータのモデルが、 M1 MacBook で動く。さらに iPhone で Gemma 4 26B が動く、ストレージを使えば」 (05:00)。「合理的な速度で」という条件付き。

これは Karpathy が AI Ascent 2026 で語った「Software 3.0」の物理的な可能性を、デバイス側から保証する話。「LLM がコンピューター」という Karpathy のパラダイムが、「ローカルマシンで LLM が動く」という現実によって成立する。 Apple Silicon の Unified Memory アーキテクチャ (GPU/CPU 共有メモリ) が、これを物理的に可能にした。

Marvis TTS と 100ms 未満生成 (06:00)

Neywa Labs が公開する Marvis カスタム音声生成モデル。「100ms 未満で音声を生成」。これにより、リアルタイム対話システムが実用化される。「Whisperflow や Super Whisper を使ってる人? — それを 10 分で vibe coding できる、 Claude Code か Codex を MLX Audio に向けて指示すれば」 (06:20)。

これは Schluntz の「葉ノード戦略」の最適例 — 完全にローカル動作する音声 I/O ライブラリの完成度 + Claude Code による組み立てで、個人が 10 分で TTS アプリを作れる世界。 MEMEX の他の記事で扱う「クラウド AI を Claude Code で組み合わせる」 vibe coding を、「ローカル AI を Claude Code で組み合わせる」という別次元に拡張する。

TurboQuant — Prince の研究貢献 (21:00 - 22:30)

質疑応答での重要なエピソード。「私は TurboQuant を論文公開 30 分後に公開実装した、世界で最初に。深夜 3 時のツイートが 70 万ビューになった」 (21:30)。

実用効果: 「フルモデルが KV キャッシュ / RAM で約 1GB 使う、 TurboQuant で 4 倍削減。同等品質。 30 万コンテキストでは、スループットがほぼ倍増」 (22:00)。そして決定的: 「これで、デバイス上で 1M コンテキストを提供できる、モデルサイズとハードウェア次第で」 (22:30)。

これは Arize の階層メモリや Trigger.dev の snapshot/restore の議論と並ぶ、「LLM のスケール問題への 3 つの異なる解決策」として読める。 Arize はソフトウェア層 (コンテキスト戦略)、 Trigger.dev はインフラ層 (state management)、 Prince はモデル層 (量子化) で、同じ「大きすぎる問題」に異なる角度から取り組んでる。

Reachy Mini ロボット — Iron Man Jarvis 音声クローン (15:45 - 16:30)

動画のクロージング。 Prince が Reachy Mini ロボットを取得、 MLX Audio + MLX Vision で「視覚 + 聴覚」を持たせた。「Iron Man の Jarvis 音声をリアルタイムでクローン」。「私の iPhone、 iPad、 Mac、ロボットで動くエージェントを作れる、今日から」 (16:30)。

この未来観 — エージェントが個人のデバイスで動き、形状 (phone、 robot) を問わない — は、 Karpathy の「LLM は新しいコンピュータ」や Boris Cherny の「電話でコードを書く」と同じ景色を、ハードウェア多様性の文脈で見ている。 Phone、 Tablet、 Mac、 Robot、すべてが「LLM ホストデバイス」になる時代。

関連記事

Karpathy: Software 3.0 — 「LLM は新しいコンピュータ」概念、ローカル実行の可能性を保証する
Hinton: 国連 DWC — Global South とアクセシビリティの構造的問題
Trigger.dev: 耐久エージェント — スケール問題のインフラ層解決
Arize: 階層メモリ — スケール問題のソフトウェア層解決
Samuel Humeau / Mistral: TTS — クラウド側 TTS の対比

重要な引用

「2020 年、父が失明した。同じ年、 Apple がオンデバイス推論で最も強力なチップ (M1) をリリースした」 (01:30)
「父はアフリカに住んでる、インターネットがすぐ使えない。だからオンデバイスが未来や」 (02:30)
「3 年間で MLX は 1.5M ダウンロード、 4,000+ モデル、 Frontier ラボとの day zero サポート」 (03:00)
「iPhone で Gemma 4 26B が動く、ストレージを使えば。合理的な速度で」 (05:00)
「Marvis TTS は 100ms 未満で音声を生成。 Claude Code を MLX Audio に向ければ、 10 分で Whisperflow が vibe coding できる」 (06:20)
「TurboQuant、論文公開 30 分後に世界初の実装、深夜 3 時のツイートが 70 万ビューに」 (21:30)
「1M コンテキストをオンデバイスで提供できる、モデルサイズとハードウェア次第で」 (22:30)
「あなたの iPhone、 iPad、 Mac、ロボットで動くエージェントを作れる、今日から」 (16:30)

出典

Why MLX — AI Engineer 公式 (YouTube)

関連リソース:

プリンス・カヌマ

Prince Canuma

Neywa Labs 共同創業 / MLX エコシステム中心人物 / Apple Silicon オンデバイス AI のリード

用語集

MLX: Apple の研究チームが 2023 年に公開した、 Apple Silicon 用の機械学習フレームワーク。 PyTorch や TensorFlow に相当する役割を Apple Silicon で果たす。 Unified memory architecture (CPU/GPU 共有メモリ) を活用、高効率に LLM 推論を実行。
Neywa Labs: Prince Canuma が共同創業のスタートアップ。 MLX エコシステム (MLX VLM、 MLX Audio、 MLX Video) の開発を主導。 Apple Silicon 上のオープンソース AI ツールの中心。
Marvis TTS: Neywa Labs が開発するカスタム音声合成モデル。 100ms 未満で音声を生成、オンデバイス完結。 Whisperflow / Super Whisper と並ぶ、音声入力ツールの自前実装基盤。
TurboQuant: 2026 年 3 月に発表された量子化研究。 LLM の KV キャッシュ (Key-Value、推論時のメモリ使用量の主要部分) を 4 倍圧縮。 Prince Canuma が論文公開 30 分後に公開実装、同日大規模に拡散。これにより、 1M コンテキストをデバイス上で提供可能に。
RFDETR (Roboflow): Roboflow が公開するリアルタイム物体検出モデル。 Prince の MLX デモで使用、「私の顔と背景を検出、背景をぼかす」をオンデバイスでリアルタイムに実行。 Isaac Robinson の AI Engineer Europe 講演でも詳しく解説
Reachy Mini: Hugging Face / Pollen Robotics 等が販売するオープンソース小型ロボット。 Prince が MLX Audio + MLX Vision を組み合わせて、視覚 + 聴覚を持たせ、 Iron Man Jarvis 風の音声で対話できるロボットに改造

comment is stripped from the HTML output. */}