TOPIC · 技術領域
マルチモーダル
このトピックの情報を持つ記事 10
← トピック一覧-
GenMedia 全体戦略を Google DeepMind が公開 — Guillaume Vernade が見せる 「5 日に 1 ship」 のリリース速度
「DeepMind 全体で平均 5 日に 1 つ新しいものを ship している。 GenMedia だけ見ても 1 ヶ月に 1 つ以上」
-
LLM はチェスが下手 — だから翻訳だけさせる (Take Take Take の AI Chess Coach)
「LLM の仕事は翻訳だけや。 計算は Stockfish、 人間視点は Maia、 検出は detector 群」
-
エージェントがモデルを訓練する時代 (Merve Noyan / Hugging Face)
「Qwen2-VL を LLaVA-Instruct-Mix で fine-tune して、 と言うだけ。 6 年 ML やってきた私から見たらこれは SF や」
-
父親が失明した日に Apple Silicon が来た — MLX で構築するオンデバイス AI
「2020 年、 父が失明した。 同じ年、 Apple がオンデバイス推論で最も強力なチップ (M1) をリリースした」
-
トランスフォーマーが、 ついにビジョンを食べた
「私たちはある意味勝った」
-
FLUX、 オープン研究、 ビジュアル AI の未来
「外部エンコーダーは、 まさにフランケンシュタインの設定」
-
TTS モデルが LLM に似てきた理由
「先史時代は、 SNCF (フランス国鉄) のように話された言葉を縫い合わせていた」
-
音声 AI、 「Her」 の瞬間はいつ来るか
「音声 AI のデモのほとんどが、 静かな部屋で撮影されている」
-
チャット エージェントに声を与える
「これらのチャット エージェントはいずれ死ぬ」
-
Android で AI を作る 3 つの選択肢 — Florina Muntenescu × Oli Gaymond (Google DeepMind) AMA
「これ (= フラグシップ級 on-device モデル) は全アプリで必要な訳じゃない。 動作を遅くするし、 高価でもある」