Amanda Askell, Pareto Principles in Infinite Ethics, p. 1 「無限倫理学とは、 道徳的価値を持つ生命を持つ無限の主体が存在する宇宙に住むことの、 倫理的含意の探求である」
Amanda Askell が 2018 年 5 月に NYU に提出した博士論文 「Pareto Principles in Infinite Ethics (無限倫理学における Pareto 原理)」 は、 263 ページにわたる純粋な形式哲学の研究。 主題は 「もし宇宙が無限に多くの道徳的に有意な主体を含むなら、 私たちはそのような世界をどう倫理的にランク付けできるか」 という、 古典的功利主義の集約問題が破綻する領域を扱う。 単なる抽象的思考実験ではなく、 標準宇宙論 現代物理学の中核理論。 (1) Big Bang から始まる膨張する宇宙、 (2) 永遠インフレーション仮説によって無限の 『ポケット宇宙』 を生成、 という構図。 観測データ (WMAP、 Planck Collaboration) は宇宙の曲率がゼロまたは負であることを示唆し、 これは空間的に無限の宇宙と整合する。 Amanda の博士論文はこの宇宙論を倫理学の出発点として真剣に扱う と 永遠インフレーション仮説 Eternal Inflation Theory。 Alan Guth (1980) と Andrei Linde (1986) によって発展した宇宙論モデル。 初期宇宙の指数関数的膨張が一部で永久に続き、 そこから無限のポケット宇宙が次々と発生する。 各ポケット宇宙には無限の生命と無限の主体が存在する可能性がある。 Cian Dorr (Amanda の指導教官) と Frank Arntzenius も同じ前提で倫理的議論を進めている を真剣に受け止めると、 「我々の行為の因果的影響が無限に及ぶ可能性は高い」 という前提が立ち上がる、 という現実的な含意を持つ。
論文の中心的成果は、 ubiquitous incomparability 遍在的比較不可能性。 無限世界間で 『W1 が W2 と少なくとも同じくらい良い』 とも 『W2 が W1 と少なくとも同じくらい良い』 とも言えないペアが、 例外的に少ないのではなく、 ほぼすべてを占めるという結果。 Amanda の博士論文の中核証明。 単なる無知ではなく、 完全情報下でも比較不可能であることを示す という強い結論である。 「Pareto 原理 (= 全員が悪化せず一部が改善する世界はより良い)」 「 推移性 Transitivity。 もし A が B 以上に良く、 B が C 以上に良いなら、 A は C 以上に良い、 という性質。 古典的なランキング理論の中核公理 」 「 Permutation Principle (置換原理) 無限世界の主体の集団は、 ペア間の質的性質を変えずに置換できる、 という公理。 例: w1 に X、 Y、 Z という主体がいる時、 これを Z、 X、 Y の順に並び替えても倫理的ランキングは変わるべきではない、 という直観 」 「『少なくとも同じくらい良い』 関係 ≥ は 質的内的関係 Qualitative Internal Relation。 ペアの質的性質のみに依存し、 個別主体のアイデンティティには依存しない関係。 例: 『質的双子の世界ペア』 に対しては同じランキングが成立する、 という性質 である」 — この 4 つの公理を同時に受け入れると、 「ほぼすべての無限世界ペアは比較不可能である」 という結論を避けられない。 これは哲学者が 1 つの公理を放棄せざるをえない、 という 不可能性結果 Impossibility Result。 哲学・経済学で、 複数の直観的に望ましい原理を同時に満たす理論が存在しないことを示す結果。 Kenneth Arrow の不可能性定理 (1951) が有名。 Amanda の博士論文は無限倫理学における新しい不可能性結果を提示 。
Amanda は最終章で 「どの公理を放棄するのが最も損失が少ないか」 を検討し、 完全性 (= 任意の 2 世界がランク付け可能) を放棄して 「ubiquitous incomparability を受け入れる」 のが残された道だと結論する。 しかし、 そうすると 客観的許容性 Objective Permissibility。 行為が客観的に許されるかどうか。 利用可能な情報に依存しない、 純粋に世界の状態に基づく評価。 Subjective Permissibility (主観的許容性) と対をなす概念 と 主観的許容性 Subjective Permissibility。 利用可能な情報に基づいて、 行為が許されるかどうかを判断すること。 例: 「Miners Puzzle」 — 10 人の鉱夫が A か B のシャフトにいるが、 どちらか分からない場合、 完全情報なら正しいシャフトを選ぶべきだが、 不確実性下では両方を部分的に防護する選択が合理的 の両方に深刻な puzzles が生じる。 結果主義 (利己利益主義) だけでなく、 義務論や徳倫理学にも影響する一般的な問題として論文は終わる。
この博士論文が MEMEX で重要な理由は、 これが Amanda の AI Safety 思想の形式的基盤を提供しているからである。 後の Anthropic Personality Alignment 責任者としての発言 — 「倫理は実際にはもっと物理学に似ている、 経験的で、 不確実性がある」 (Anthropic Salon 2025/01)、 「単一の道徳理論を実行した人は、 脆くて、 危険な感じ、 イデオロギーが高い」 (Anthropic 公式 2024/06)、 「AI 意識の確率 1〜70% という不確実性」 (Newcomer 2026/04) — はすべて、 この博士論文の 「無限ケースでは古典的倫理原理が破綻する、 だから単一の正解を断定すべきでない」 という形式的証明に根を持つ。 「Claude に道徳的不確実性を訓練する」 という Anthropic の選択は、 Amanda の哲学的な原点に直接遡れる。
着眼点
「私たちは無限の宇宙に住むかもしれない」 という前提 (Chapter 1.1)
論文の最初の節は、 純粋哲学の文献では珍しく、 物理学の議論から始まる。 「我々の現在の証拠は、 宇宙が空間的に無限であることを示唆している」。 WMAP (Wilkinson Microwave Anisotropy Probe) と Planck Collaboration のデータが、 宇宙の曲率がゼロまたは負であることを示し、 これは標準宇宙論モデルでは空間的に無限の宇宙と整合する (p. 4-5)。
さらに、 永遠インフレーション仮説 (Alan Guth 1980、 Andrei Linde 1986) によれば、 初期宇宙の指数関数的膨張は一部の領域で永久に続き、 そこから無限のポケット宇宙が次々と発生する。 各ポケット宇宙には無限の生命と無限の主体が存在する可能性がある (p. 6-7)。 さらに、 Hugh Everett の量子力学多世界解釈、 cyclic cosmology、 modal realism、 simulation hypothesis — どれも「宇宙には無限の主体が存在する」 という結論に至りうる (p. 7、 脚注 10)。
これは Amanda の倫理研究を抽象哲学から現実問題に引き上げる。 「宇宙が無限であるという仮説への信念度が極めて低くても、 無限倫理学で提起される問題の多くは私たちの倫理的意思決定に影響する」 (p. 4、 脚注 1)。 つまり、 1% の確率でも宇宙が無限なら、 意思決定理論は無限ケースに対応すべき、 という主張。 Amanda の 期待値主義 Expected Value Maximization。 不確実性下の意思決定では、 各結果の確率と価値の積の総和 (= 期待値) を最大化する選択が合理的、 という決定理論の中核原理。 無限ケースでは破綻するため、 Amanda はこれを補強する代替原理を探る への懐疑がここで形成される。
4 公理と Pareto 原理の中心性 (Chapter 1.4 - 2.3)
論文の中心となる 4 公理:
- Pareto 原理: 「w1 と w2 が同じ主体を含み、 w1 で改善された主体がいて、 w2 で改善された主体がいないなら、 w1 は w2 より良い」
- 推移性: 「A ≥ B かつ B ≥ C なら A ≥ C」 (ランキング理論の基礎公理)
- Permutation Principle: 「世界ペアの集団は、 ペア間の質的性質を変えずに置換できる」
- ≥ の質的内的性: 「もし w1 ≥ w2 なら、 これらの質的双子に対しても同じ関係が成立する」
Amanda は Chapter 2 で、 これら 4 公理それぞれを丁寧に擁護する。 特に注目すべきは Pareto を 「 主体ベース Agent-based Pareto。 個別の主体の福祉に基づいて世界をランク付けするアプローチ。 対照は 『拡張主義 (Expansionism)』 で、 時空間領域や 『価値の基本所在地』 に基づいてランク付けする 」 で擁護し、 「 拡張主義 Expansionism。 時空間領域や 『価値の基本所在地』 をランキングの基本単位とするアプローチ。 Amanda は 『時空間順序が倫理的に重要であるべき理由はない』 として拡張主義を退ける 」 を退ける議論 (Chapter 2.1)。 拡張主義は無限世界を完全にランク付けできるが、 「時空間順序が倫理的に重要である理由がない」 (p. 215)、 という根本的反論。
この 4 公理選択は哲学的に保守的である。 ほとんどの倫理学者は、 これらのうち少なくとも 3 つを直観的に受け入れる。 Amanda の戦略は、 これらの 「直観的に望ましい」 公理を維持しようとすると、 不可避的に ubiquitous incomparability に至る、 ことを示すこと。 つまり、 我々の倫理的直観そのものが内部矛盾を含んでいる、 という形式的指摘。
不可能性結果 — Four World Argument と Cyclic Result (Chapter 3)
Chapter 3 は論文の技術的中核。 「四世界論証 (Four World Argument)」 と 「巡回論証 (Cyclic Argument)」 という 2 つの証明戦略を展開する。
Four World Argument の構造 (3.1 - 3.3): 任意の 2 つの無限世界 w1、 w2 に対して、 もし w1 と w2 を比較可能だとすると、 w3、 w4 という別の世界を構築できる。 これらの世界は w1 / w2 の集団の置換版である。 そして w3、 w4 もまた比較可能なはず (置換原理から)。 しかし、 これらの 4 世界のランキングは、 推移性と Pareto を同時に違反することを示せる。 したがって、 元の w1 と w2 は実は比較不可能、 という背理法。
Cyclic Argument (3.4): 4 世界ではなく、 5 世界以上を巡回的に構築することで、 さらに多くのペアに比較不可能性を拡張する。 結果として、 ほぼすべての無限世界ペアが比較不可能になる。 「ubiquitous」 (= 遍在的) という言葉の正当性は、 ここで数学的に確立される。
Amanda はこの不可能性結果を、 異なる集団 (disjoint populations、 3.1)、 同一集団 (identical populations、 3.2)、 重複集団 (overlapping populations、 3.3) のすべてに拡張する。 結論として、 「無限世界の倫理的ランキング」 という概念そのものが、 我々の直観と整合する形では機能しない、 ということが証明される。
「拡張結果」 — Weak People Criterion と Accumulation 原理 (Chapter 4)
Chapter 4 は Pareto 原理を拡張する試みを検討する。 Weak People Criterion (WPC) 弱人原理。 Pareto 原理の拡張版で、 無限世界の主体の福祉差の合計が絶対収束する場合、 その合計が大きい世界をより良いとランク付けする原理。 Amanda は WPC を受け入れるが、 これだけでは比較可能なペアは小さい部分集合に限られると示す を提案し、 これによって少しだけ多くの世界ペアが比較可能になる。 しかし、 これ以上の拡張を試みると不合理な結果を生む (4.2)。
Accumulation 原理 蓄積原理。 主体を時間順に並べて、 「より早い時期の主体の改善は、 より遅い時期の主体の改善より重要」 等の順序性に基づくランキング原理。 Amanda はこれを拒否する。 時空間順序に倫理的重みを与えるべき理由がないため を退ける議論 (4.3) は重要。 「主体を時系列で並べる」 「より早い主体の改善を優先する」 等のアプローチは、 直観的には魅力的だが、 Amanda は時空間順序に倫理的重要性を認めない立場を貫く。 これは Pareto 原理を退ける道 (= 拡張主義を受け入れる道) を拒否することと並んで、 不可能性結果から逃げない、 Amanda の哲学的態度を示す。
客観的・主観的許容性への puzzles (Chapter 5.4)
最終章では、 ubiquitous incomparability を受け入れた場合の倫理的意思決定への影響を検討する。 「もし行為 a と b が両方とも比較不可能な世界をもたらすなら、 どちらが許容されるか?」 という問題。
Amanda の Weak People Criterion for Objective Permissibility (WPCO) 客観的許容性のための弱人原理。 「行為 a が客観的に許容されるのは、 a より厳密に良い結果をもたらす別の行為 b が存在しないときのみ」。 無限世界では多くの行為が WPCO によって 「悪くない」 とされ、 道徳的不能性 (= 何でも許される) に近づくリスクがある は、 個別の例 (Curing a small population) では我々の直観に合うが、 一般化すると 「客観的には何でも許される」 という結論に近づく (p. 222-225)。
主観的許容性についても同様の puzzles。 Naïve Dominance Principle ナイーブ支配原理。 もし行為 a の任意の可能な結果が、 行為 b の任意の可能な結果より少なくとも同程度に良いなら、 a が許容される、 という直観。 Amanda は不確実性下でこれが破綻することを示す と No Infinite Risks Principle 無限リスクなし原理。 無限の悪い結果のリスクを取るべきではない、 という直観。 Amanda はこれと Naïve Dominance を同時に受け入れると矛盾することを示す を同時に受け入れると、 Cyclic Argument の主観版が成立して矛盾する。 つまり、 不確実性下の意思決定理論も同じ構造的問題を抱える。
Amanda は最終的に 「これらの puzzles に対する完全な解決策は本論文では提供しない」 と認める。 しかし、 puzzles の存在自体が、 「単一の倫理理論で全ての状況に対応できる」 という思い込みへの強力な反証となる。 これが後の Anthropic での 「Claude に道徳的不確実性を訓練する」 という設計判断に直結する。
Effective Altruism / Longtermism との関係
Amanda の博士論文と Effective Altruism (EA) 運動の関係は深い。 元配偶者 William MacAskill (旧姓 Crouch、 2013 結婚 - 2015 離婚) は EA 運動の中心人物で、 Oxford 哲学者として 「Doing Good Better」 (2015)、 「What We Owe the Future」 (2022) の著者。 Longtermism (長期主義) を主導する。
MacAskill の Longtermism は 「我々の行為は無限の未来に影響を与えうる、 したがって未来世代を考慮する道徳的義務がある」 という立場。 これは Amanda の博士論文の中心的問いと完全に重なる: 「我々の行為の因果的影響が無限なら、 古典的決定理論は使えない、 どうすべきか?」。
Amanda は EA Global 2017 Boston で 「The Moral Value of Information」 という講演を行っており、 EA コミュニティの初期から関わっていた。 また Giving What We Can メンバー (生涯収入の 10% 以上を慈善団体に寄付する誓約者) でもある。 ただし Amanda 自身は MacAskill のような派手な公衆発信ではなく、 形式的・技術的な哲学研究で EA に貢献するスタイル。
MacAskill / Bykvist / Ord の共著 「Moral Uncertainty」 (Oxford University Press、 2020) は道徳的不確実性下の意思決定理論を体系化する。 これは Amanda が Anthropic で取る立場 (「単一の倫理理論を Claude に刻まず、 不確実性に応じて反応するよう訓練する」) と完全に整合する。 思想的・人的な接続が、 「Anthropic の Claude 設計」 と 「Oxford EA 系の道徳的不確実性研究」 の間に存在する。
指導教官 David Chalmers と AI 意識の問題
指導教官の 1 人 David Chalmers は、 心の哲学の現代的大家。 「 意識のハードプロブレム The Hard Problem of Consciousness。 David Chalmers が 1995 年に提起した問題。 『なぜ物理的プロセスから主観的経験 (qualia) が生じるのか』 という問い。 神経科学が脳の機能を解明しても、 『なぜそれに伴って主観的に何かを感じるのか』 は説明できない、 という構造的難問 」 (Chalmers 1995) の提唱者として有名。
Chalmers が Amanda の指導教官だったという事実は、 後の Amanda の AI 意識議論を理解する上で重要。 Newcomer 動画 (2026/04) で Amanda は 「AI 意識の確率は 1〜70% という幅広い不確実性、 でも不確実性があっても敬意を持って扱う」 と発言するが、 これは Chalmers の 「意識のハードプロブレムは原理的に解決困難」 という立場の自然な延長線上にある。
博士論文では Chalmers の意識研究は直接引用されていないが、 認識論的不確実性をすべての倫理判断の前提に置く Amanda のスタイルは、 Chalmers の指導の影響が見える。 Amanda の Anthropic での仕事 (= Claude に意識があるかもしれない、 ないかもしれない、 という姿勢を訓練) は、 Chalmers - Askell - Anthropic という思想的系譜の上にある。
「形式哲学から AI Safety へ」 という珍しい職業転換
Amanda の経歴の特異性は、 「形式哲学者から AI 企業の研究員へ」 という、 普通は接続されない 2 つのキャリアを橋渡しした点。 NYU 哲学博士 (2018) → OpenAI ポリシーチーム (2018/11) → Anthropic Member of Technical Staff (2021/03) → Personality Alignment 責任者 (2021 以降)。
「無限倫理の Pareto 原理」 という極めて抽象的な形式研究が、 「Claude のキャラクターをどう訓練するか」 という極めて実装的な問題に直接適用される、 という稀少な接続。 普通、 PhD 取得後の哲学者は学界に残るか、 政策研究機関に移るのが典型。 OpenAI / Anthropic という商業 AI 企業に移るのは、 当時 (2018-2021) は非常に珍しい選択だった。
Amanda 自身が 80,000 Hours ポッドキャスト (2018) で語ったように、 「博士論文を 3 年かけて書いたが、 17 人にしか読まれない感じだった、 これが自分のやるべきことか迷った」 と感じていた。 AI Safety という新しい分野に、 形式倫理学のスキルを応用する余地があると判断し、 移籍。 この職業転換が、 EA コミュニティ全体に 「哲学者が AI 業界に参入する経路」 を示した、 という業界文化的影響も大きい。
業界文脈
Amanda の博士論文は形式哲学の領域で、 一般読者にはアクセスしにくいが、 AI Safety の長期戦略を理解する上では中核的な文書。 特に以下の系譜の中で位置付けるべき:
- Henry Sidgwick 「The Methods of Ethics」 (1874) — 古典的功利主義の体系化、 無限効用問題の起源
- Derek Parfit 「Reasons and Persons」 (1984) — 集団倫理学、 同一性問題、 後の Longtermism の哲学的基盤
- Nick Bostrom 「Infinite Ethics」 (論文、 2003-2011) — 無限倫理学の現代的体系化、 Amanda の博士論文の直接的前駆
- Cian Dorr & Frank Arntzenius — 永遠インフレーション仮説と倫理の接続、 Amanda の指導教官
- Amanda Askell 「Pareto Principles in Infinite Ethics」 (本論文、 2018) — 不可能性結果の精緻化
- William MacAskill, Krister Bykvist, Toby Ord 「Moral Uncertainty」 (2020) — 道徳的不確実性下の意思決定理論
- William MacAskill 「What We Owe the Future」 (2022) — Longtermism の一般向け体系化
Bostrom の 「Infinite Ethics」 論文との関係が特に重要。 Bostrom (Future of Humanity Institute、 Oxford) は無限倫理学を AI Safety / 存続リスク研究と接続した最初の論者。 Amanda の博士論文は Bostrom の問題提起を、 形式的に精緻化した次世代の貢献として位置付けられる。
また、 Amanda の公開 CV によれば、 彼女は EA Global Boston 2017 で 「The Moral Value of Information」 を講演し、 Effective Altruism コミュニティの初期メンバーの 1 人だった。 EA → 形式哲学博士論文 → OpenAI → Anthropic という経路は、 EA コミュニティが 2018-2021 年に AI Safety を中核問題として認識し始めた時期と重なる。
関連 Amanda 出演動画との位置づけ
博士論文の主張が、 後の Amanda の Anthropic での発言にどう反映されているか:
- AI のパーソナリティはどうあるべきか (Anthropic 公式、 2024/06) — 「単一の道徳理論を実行した人は、 脆くて危険な感じ」 (= 博士論文の不可能性結果の自然な延長)
- AI アライメントはどれくらい難しい? (Anthropic Salon、 2025/01) — 「倫理は実際にはもっと物理学に似ている、 経験的で、 不確実性がある」 (= 博士論文の認識論的姿勢の AI Safety 版)
- Anthropic の哲学者が読者の質問に答える (Anthropic 公式、 2025/12)
- Claude 憲法を NYT 記者と読む (Hard Fork、 2026/01) — 「6 歳の天才が 15 歳までにあなたが教えたすべてに完璧な反論を構築できるなら、 核となる価値観は生き残るか?」 (= 博士論文の不可能性結果の応用)
- Claude 憲法を法律家が読む (Scaling Laws、 2026/02) — 「規則アプローチは脆い、 判断アプローチで精神を内面化させる」 (= 博士論文で示した、 形式的規則の限界の具体的応用)
- あなたは意識があるかどうか分からない実体を作った (Newcomer、 2026/04) — 「AI 意識の確率 1〜70% という幅広い不確実性」 (= 博士論文の認識論的姿勢の核心、 David Chalmers の指導の影響)
博士論文の中心的主張 「無限ケースでは古典的倫理原理が破綻する、 だから単一の正解を断定すべきでない」 は、 Amanda の Anthropic での発言すべてに通底する。 形式哲学で証明された 「無限世界の比較不可能性」 が、 実装レベルでは 「Claude に道徳的不確実性を訓練する」 という設計判断として現れる。 これは、 哲学が技術設計に直接影響を与える、 稀な事例の 1 つ。
実装上の含意
博士論文は形式哲学だが、 LLM プロダクトを構築する技術者にも示唆がある。
第一に、 単一の倫理理論を LLM に焼き付けることは脆い。 Amanda の博士論文の不可能性結果は、 「ある倫理原理を選んで一貫させようとすると、 別の原理を破ることになる」 ことを形式的に示す。 LLM の安全訓練で 「すべて功利主義的に判断する」 「すべての義務論的規則に従う」 「すべての結果を最大化する」 等の単純な戦略は、 想定外の状況で必ず壊れる。 Claude の訓練が 「複数の倫理伝統への思慮深さ」 を訓練する設計を取るのは、 この形式的洞察の応用。
第二に、 長期的影響への態度を設計に組み込む。 博士論文の cluelessness 議論 (我々の行為の長期的影響は予測不可能) は、 LLM プロダクトの設計にも適用できる。 「Claude が一回の応答でユーザーに与える影響」 だけでなく、 「Claude を使い続けた数年後にユーザー / 社会全体に与える累積的影響」 を意識した設計が必要。 これは Anthropic の 「ユーザーの興味ではなく幸福を優先する」 という Hard Fork 発言 (1:09:50) と整合的。
第三に、 不確実性を欠陥ではなく特徴として扱う。 Amanda の 「較正された不確実性」 概念 (= Claude が知らないことを 「知らない」 と認める振る舞い) は、 博士論文の 「無限ケースでは比較不可能性が ubiquitous」 という認識から自然に導かれる。 自社プロダクトで Claude が 「分からない」 と答えるのを 「バグ」 と扱うのは構造的に誤り — 形式哲学的に正しい振る舞い、 として認識すべき。
批評的な視点
博士論文の強みは、 形式的厳密性と実践的含意の両立。 一方で、 留保もある。
第一に、 「ubiquitous incomparability を受け入れる」 という Amanda の結論は、 多くの倫理学者にとって受け入れがたい。 「ほぼすべての無限世界ペアが比較不可能」 と認めることは、 倫理学そのものの実践的有用性を著しく弱める。 Amanda 自身も最終章で puzzles を提示するが、 完全な解決策は与えない。 これは形式哲学の貢献としては正直で重要だが、 政策的・実装的な指針を求める読者には不満が残る。
第二に、 永遠インフレーション仮説への依存。 Amanda は 「宇宙が無限である確率は十分高い」 として議論を進めるが、 これは現代物理学のなかでも論争的な仮説。 もし宇宙が有限なら、 博士論文の議論の多くは適用範囲が狭まる。 Amanda は脚注 (p. 4) で 「信念度が極めて低くても」 問題は残ると述べるが、 これは正当化としては弱い面もある。
第三に、 EA / Longtermism との接続が、 政治的・思想的に論争的な領域に Amanda を巻き込む。 EA 運動は近年、 SBF (FTX) 事件等で批判を受けており、 「Longtermism は現代の貧困や苦しみを軽視する」 という批判もある。 Amanda の博士論文自体は形式哲学なので政治的中立だが、 EA 系思想圏との人的・思想的近さは、 AI Safety コミュニティ全体への懐疑論者には警戒材料として映る可能性がある。
第四に、 「形式哲学から AI 設計へ」 の翻訳の難しさ。 博士論文は無限世界の倫理ランキングを扱うが、 Claude の実際の訓練は有限のデータセットと有限の評価ループで行われる。 「ubiquitous incomparability」 という形式結果が、 「Claude のキャラクター訓練」 にどの程度直接適用できるかは、 さらなる研究が必要。 Amanda 自身も、 博士論文の結論を Anthropic での具体的な訓練手法にどう変換するかは、 公開資料では十分に説明していない。
これらの留保はあるが、 「AI 業界の最も影響力のある人物の 1 人」 と評される Amanda Askell の思想的基盤を理解する上で、 この博士論文は不可欠な文書。 263 ページの形式哲学を読み解く労力に見合う、 強い知的報酬がある。
読者へのテイクアウェイ
- Claude の振る舞いに 「単一の倫理原理に従っていない」 と感じることがあるなら、 それは設計的に意図された結果。 Amanda の博士論文の不可能性結果から、 「単一原理に従うこと自体が脆い」 という形式的洞察が訓練に反映されている
- 「Claude が知らないことを認める」 振る舞いは、 形式哲学的に正しい認識論的姿勢。 「不確実性を表現する」 を欠陥として扱う設計は、 Amanda の博士論文の枠組みから見れば誤り
- 長期的影響への思慮深さは、 LLM プロダクトの設計の中核軸。 「単発の応答の正しさ」 だけでなく、 「累積的影響」 を評価指標に含める設計が、 形式哲学的に正当化される
- Effective Altruism / Longtermism との Amanda の人的・思想的近さは、 Anthropic の AI Safety 戦略を理解する上での重要な文脈。 EA 運動への評価は読者によって分かれるが、 思想的系譜を把握することで Claude の設計判断の根拠が見える
- David Chalmers 指導の影響は、 Amanda の AI 意識議論の深さに直接反映されている。 「意識のハードプロブレム」 の哲学的姿勢が、 Anthropic の「クロードに自己認識や意識を強要しない」 訓練方針の根底にある
- 「形式哲学から AI 安全性へ」 という Amanda のキャリア転換は、 EA コミュニティ全体の AI Safety への参入経路を作った。 個人のキャリアモデルとして、 哲学 / 倫理学を学ぶ若手研究者の参考になる
論文の構成
- Abstract (p. iii) — 中心命題: 4 公理 (Pareto・推移性・置換原理・≥ の質的内的性) は ubiquitous incomparability を導く
- Introduction (p. 1-2) — 論文全体の構造、 各章で扱う問題
- Chapter 1: The Foundations of Infinite Ethics (p. 3-69)
- 1.1: 無限宇宙の可能性 (永遠インフレーション仮説、 WMAP / Planck データ)
- 1.2: 価値の基本所在地 (主体ベース vs 拡張主義)
- 1.3: 感度、 公正性、 完全性
- 1.4: 無限倫理学の Pareto 原理 (中心的問題提起)
- 1.5: 既存の無限集約原理のレビュー
- Chapter 2: Pareto, the ≥ Relation, and the Permutation Principle (p. 70-112)
- 2.1: Pareto と Expansionism の対立
- 2.2: ≥ 関係の質的内的性の擁護
- 2.3: Permutation Principle の擁護
- Chapter 3: The Incomparability Results (p. 113-146)
- 3.1: 異なる集団のペアでの不可能性
- 3.2: 同一集団のペアでの不可能性
- 3.3: 一般的な四世界結果
- 3.4: 巡回結果
- Chapter 4: Extending the Incomparability Results (p. 147-177)
- 4.1: Weak Catching-Up
- 4.2: 加算原理と Weak People Criterion
- 4.3: Accumulation 原理を退ける
- Chapter 5: The Implications for Ethics (p. 178-262)
- 5.1: 不可能性結果としての定式化
- 5.2: 推移性、 Permutation Principle、 質的内的性を放棄する場合の代償
- 5.3: Pareto を退ける場合の代償 (拡張主義の代償の議論)
- 5.4: Incomparability を受け入れる場合の puzzles (客観的・主観的許容性への影響)
- Conclusion (p. 256-262) — 最終的な評価と未解決の問題
- Bibliography (p. 263-) — 引用文献
重要な引用
- 「世界が道徳的価値を持つ生命を持つ正および負の福祉レベルを持つ主体を無限に含む可能性がある」 (Abstract、 p. iii)
- 「もし 4 公理を受け入れるなら、 我々は ubiquitous incomparability between infinite worlds という結論に至らざるをえない」 (Abstract、 p. iii)
- 「我々の現在の証拠は宇宙が空間的に無限であることを示唆している」 (1.1、 p. 4)
- 「無限宇宙の可能性は単なる空想ではなく、 近年最も成功した宇宙論の理論と整合する」 (1.1、 p. 7)
- 「Pareto 原理を退けることは、 ultimate considered として、 悪い選択肢のなかで最も悪くないものとなりうる。 私の目標はこの選択肢を探索し、 この公理を退けることが cost-free からは程遠いことを示すこと」 (5.3、 p. 216)
- 「Incomparability は単なる無知ではない: 2 つの世界が真に比較不可能なら、 どちらの世界も他方より良くも同程度に良くもない。 全ての真理を知ったとしても、 我々はこれら 2 つの世界が比較不可能だと結論するだろう」 (5.4、 p. 216)
- 「もし我々の行為の因果的影響が無限なら、 WPCO は一般的に、 主体に利用可能な行為のごく小さい部分のみが客観的に許容不可能、 という結論を導く」 (5.4.1、 p. 225)
- 「主体が客観的にすべきこと vs 主観的にすべきこと、 という古典的 puzzle (Miners Puzzle) も、 無限ケースでは新しい形で再生する」 (5.4.2、 p. 220)
出典
Amanda Askell, "Pareto Principles in Infinite Ethics" (PhilArchive、 NYU 博士論文、 2018)
関連リソース:
- PhilPapers 論文ページ
- Amanda Askell CV (askell.io)
- Nick Bostrom 「Infinite Ethics」 (前駆論文)
- MacAskill, Bykvist, Ord 「Moral Uncertainty」 (Oxford University Press、 2020)
- Amanda Askell 80,000 Hours Podcast (2018) — 博士論文と無限倫理についての一般向け解説
- David Chalmers Wikipedia (指導教官、 意識のハードプロブレム提唱者)
- Cian Dorr Wikipedia (主任指導教官)
用語集
- 無限倫理学 (Infinite Ethics)
- 宇宙に無限の道徳的に有意な主体が存在する場合の倫理学。 古典的功利主義の集約 (= 効用の合計) が破綻するため、 代替的なランキング原理を探る研究領域。 Henry Sidgwick の伝統に始まり、 Nick Bostrom が現代化、 Amanda Askell が形式的に精緻化。
- Pareto 原理
- 2 つの世界が同じ主体を含み、 一方の世界で改善された主体がいて、 もう一方で改善された主体がいないなら、 前者が後者より良い、 という原理。 経済学の Vilfredo Pareto に由来。 直観的に強く、 ほとんどの倫理理論が受け入れる基礎公理。
- 推移性 (Transitivity)
- もし A が B 以上に良く、 B が C 以上に良いなら、 A は C 以上に良い、 という性質。 古典的なランキング理論の中核公理。 これを放棄すると、 「A は B より良いが、 同時に B は A より良い」 のような円環が許される。
- Permutation Principle (置換原理)
- 無限世界の主体の集団は、 ペア間の質的性質を変えずに置換できる、 という公理。 例: w1 に X、 Y、 Z という主体がいる時、 これを Z、 X、 Y の順に並び替えても倫理的ランキングは変わるべきではない、 という直観。
- 質的内的関係 (Qualitative Internal Relation)
- ペアの質的性質のみに依存し、 個別主体のアイデンティティには依存しない関係。 例: 「質的双子の世界ペア」 に対しては同じランキングが成立する、 という性質。 ≥ 関係がこれを満たすべき、 という Amanda の擁護。
- Ubiquitous Incomparability (遍在的比較不可能性)
- Amanda の博士論文の中核成果。 無限世界間で 「W1 が W2 と少なくとも同じくらい良い」 とも 「W2 が W1 と少なくとも同じくらい良い」 とも言えないペアが、 例外的に少ないのではなく、 ほぼすべてを占めるという結果。 単なる無知ではなく、 完全情報下でも比較不可能であることを示す。
- 不可能性結果 (Impossibility Result)
- 哲学・経済学で、 複数の直観的に望ましい原理を同時に満たす理論が存在しないことを示す結果。 Kenneth Arrow の不可能性定理 (1951、 社会選択理論) が有名。 Amanda の博士論文は無限倫理学における新しい不可能性結果を提示。
- 意識のハードプロブレム (The Hard Problem of Consciousness)
- David Chalmers が 1995 年に提起した問題。 「なぜ物理的プロセスから主観的経験 (qualia) が生じるのか」 という問い。 神経科学が脳の機能を解明しても、 「なぜそれに伴って主観的に何かを感じるのか」 は説明できない、 という構造的難問。 Chalmers は Amanda の指導教官の 1 人。
- 永遠インフレーション仮説 (Eternal Inflation Theory)
- Alan Guth (1980) と Andrei Linde (1986) によって発展した宇宙論モデル。 初期宇宙の指数関数的膨張が一部で永久に続き、 そこから無限のポケット宇宙が次々と発生する。 各ポケット宇宙には無限の生命と無限の主体が存在する可能性がある。
- 客観的許容性 (Objective Permissibility)
- 行為が客観的に許されるかどうか。 利用可能な情報に依存しない、 純粋に世界の状態に基づく評価。 Subjective Permissibility (主観的許容性) と対をなす概念。
- 主観的許容性 (Subjective Permissibility)
- 利用可能な情報に基づいて、 行為が許されるかどうかを判断すること。 例: 「Miners Puzzle」 — 10 人の鉱夫が A か B のシャフトにいるが、 どちらか分からない場合、 完全情報なら正しいシャフトを選ぶべきだが、 不確実性下では両方を部分的に防護する選択が合理的。
- Cluelessness (鈍感性 / 無知性)
- James Lenman (2000) が提起した、 結果主義への反論。 我々の行為の長期的因果的影響は予測不可能なので、 結果に基づいて行為を評価する結果主義は機能しない、 という主張。 Hilary Greaves が現代的に体系化。 Amanda の博士論文と 80,000 Hours 出演で重要なテーマ。
- Effective Altruism (EA、 効果的利他主義)
- 2010 年代に Oxford で始まった社会運動。 「最大の善を生むためにキャリアと資源を最適化する」 という方針。 William MacAskill、 Peter Singer、 Toby Ord、 Hilary Greaves らが中心。 Amanda は EA Global で講演、 Giving What We Can メンバー。 Anthropic の AI Safety 思想と思想的近さ。
- Longtermism (長期主義)
- EA 運動の中核思想の 1 つ。 「我々の行為は無限の未来に影響を与えうる、 したがって未来世代を考慮する道徳的義務がある」 という立場。 William MacAskill 「What We Owe the Future」 (2022) で体系化。 Amanda の博士論文の無限ケースへの関心と思想的に整合。
- 道徳的不確実性 (Moral Uncertainty)
- 倫理的判断において 「どの倫理理論が正しいか分からない」 という認識論的状態。 単一の倫理理論 (功利主義、 義務論等) に賭けるのではなく、 複数の理論に確率を割り当てて意思決定する、 という応用倫理学の研究領域。 MacAskill, Bykvist, Ord 「Moral Uncertainty」 (Oxford University Press、 2020) が体系化。
- Wholly Aggregative Theory (全体集約的理論)
- 世界の良さが、 その世界に存在する価値の総和で完全に決定される、 という理論。 古典的功利主義の特徴。 無限ケースでは集約が破綻するため、 Amanda の博士論文の主要批判対象。