AppleのSoC(A/Mシリーズ)は、同世代の競合と比較して一貫した特徴を持つ。非常に高いシングルスレッドIPC(Instructions Per Cycle)を持つPコアを少数配置し、大量のコアで並列性を稼ぐアプローチを取らないという設計思想である。
iPhone 16 ProのA18 Proは2P+4Eの計6コア、MacBook AirのM4でも4P+6Eの10コアに過ぎない。一方、Armのリファレンスコアを採用するSnapdragon 8s Gen 3はCortex-X4×1+Cortex-A720×4+Cortex-A520×3の計8コアを1+4+3構成で搭載し、Intelのデスクトップ向けCore Ultra 200S(Arrow Lake)は最大でLion Cove 8P+Skymont 16E=24コアを詰め込む。モバイルSoCもPC向けCPUも、中〜小規模のコアを多数並べてスループットを稼ぐ設計の採用例が多かったのに対し、Appleはコアあたりのマイクロアーキテクチャの「太さ」で圧倒するアプローチを一貫して取っている。
本レポートでは、Appleがこの「太く少ないコア」戦略を商業的に成立させている構造的理由を、マイクロアーキテクチャ・ISA・ビジネスモデル・製造戦略の4つの軸から分析する。
CPUコアの「太さ」を定量的に比較する最も直接的な指標は、デコード幅(1サイクルに何命令をフェッチ・デコードできるか)とROB(Re-Order Buffer、アウトオブオーダー実行窓)のサイズである。
| コア名 | 採用SoC | デコード幅 | ROB | 整数ALU | L1 I-Cache | L1 D-Cache | ISA |
|---|---|---|---|---|---|---|---|
| Everest (3rd gen) | A18 Pro / M4 | 8-wide | ~630+ | 6+ | 192KB | 128KB | ARMv9.2相当 |
| Oryon (Gen 1) | Snapdragon X Elite | 8-wide | 680 | 6 | 192KB | 96KB | ARMv8.7 |
| Cortex-X925 | Dimensity 9400等 | 10-wide | 未公開 | 6+ | 64KB | 64KB | ARMv9.2 |
| Lion Cove | Arrow Lake / Lunar Lake | 8-wide | 576 | 6 | 64KB (+µOPキャッシュ) | 48KB L0 + 192KB L1 | x86-64 |
| Zen 5 | Ryzen 9000 | 2×4-wide | ~448 | 6 | 32KB (+OPキャッシュ) | 48KB | x86-64 |
Apple Firestorm(2020年、M1/A14世代)は、2020年時点で既に8-wideデコード・ROB 630超という構成を実現していた。同時期のIntel Willow Coveは6-wide/352 ROB、AMD Zen 3は4-wide/256 ROBである。Appleは競合に対して4〜5年先行していたと言える。
2024年世代になって、Intel Lion Coveが8-wide/576 ROBに到達し、Qualcomm Oryonが8-wide/680 ROBを実現した。Oryonの設計者は元Apple社員であり、Appleの設計思想を直接引き継いでいる点は示唆的である。
ポラックの法則は、「CPUコアのダイ面積を2倍にしても、シングルスレッド性能は√2倍(約41%増)にしかならない」という経験則である。つまり、コアを太くする戦略は面積効率が極めて悪い。マルチコア化で同じダイ面積を使えば、スループットは2倍近く向上する。
この法則は「なぜIntelもAMDもArmも、ある程度の太さで止まるのか」を説明する。面積効率の観点では、中程度の太さのコアを多数並べる方が合理的だからである。にもかかわらず、Appleは高IPCの太いコアを志向し、ポラックの法則に正面から挑戦している。
Appleがこの挑戦を商業的に成立させている理由は、以下の5つの構造的条件が同時に成立しているためである。
Apple Pコアが8-wideデコードを実現できる最大の技術的理由は、AArch64(Arm64)ISAの固定長命令である。
ただし、ここには重要な前史がある。Arm64以前のARM ISAは、純粋なRISCとは言い難い設計だった。ARMv7以前の32ビット実行モード(AArch32)では、ARM命令(32ビット固定長)に加えて、Thumb命令(16ビット固定長)およびThumb-2命令(16/32ビット混在の可変長)が併存していた。さらにARM命令自体も、ほぼ全命令に条件実行フィールド(4ビット)を持ち、バレルシフタ付きオペランドやロード/ストアマルチプル命令など、古典的なRISCの簡潔さからは逸脱した設計を多数含んでいた。Thumb-2の可変長命令はデコーダに対してx86と類似した命令境界判定の負担を生じさせる。
この状況を一変させたのが、ARMv8で導入された64ビット実行モードAArch64である。AArch64ではThumb/Thumb-2モードが完全に廃止され、全命令が32ビット固定長に統一された。条件実行フィールドも大半の命令から除去され、条件分岐と条件選択命令に整理された。結果として、AArch64は命令境界が完全に自明な、デコーダにとって理想的なISAとなった。8命令を並列にデコードするには256ビット(32バイト)を読み出して等幅に8分割するだけでよく、命令長を判定する前段処理が一切不要である。
一方、x86は可変長命令(1バイト〜15バイト)を持つ。命令の境界が先頭バイトを解析するまで確定しないため、N番目の命令のデコード開始位置はN-1番目の命令長に依存する。この直列的な依存関係がワイドデコーダ設計の根本的な障壁となる。Intel/AMDはこの問題をµOPキャッシュ(Op Cache)で迂回している。一度デコードした命令をマイクロオペレーション形式でキャッシュし、2回目以降はデコーダをバイパスして直接パイプラインに投入する。Lion Coveのµ-opキャッシュは5,250エントリで12µop/cycle出力が可能であり、ループ実行時にはフロントエンドのボトルネックを実質的に解消する。しかし、初回実行パスやキャッシュに収まらないコードではデコーダの幅が性能上限となる。
AArch64固定長命令により、Appleの8-wideデコーダの面積コストはx86比で大幅に低い。節約したトランジスタ予算をROB拡大(630+エントリ)、実行ポート増設、キャッシュ増量などIPC向上に直結する部分に再投資できる。これはポラックの法則に挑む上での出発点となる技術的優位である。
AArch64の策定にAppleが何らかの形で関与した可能性は、状況証拠から示唆される。Apple初の64ビットコアCyclone(A7、2013年)はArm社の自社コア(Cortex-A53/A57)よりも先に市場に投入されており、ISA策定段階から深い情報を得ていたか、設計に関与していた可能性が高い。AArch64がThumb-2を廃止し固定長命令に統一した判断にAppleのワイドデコーダ構想が影響したかどうかは公式には不明だが、仮にそうであった場合、ISAがコア設計を可能にしたのではなく、コア設計構想がISAの設計を方向付けたという順序関係が成り立つことになる。
IntelやAMDはCPUチップ単体を外販するため、ダイ面積の増大は直接的な製品原価上昇となり、ポラックの法則はビジネス上の制約としても強く作用する。Appleはチップを外販せず、SoCは10万円超のiPhoneやMacの一部品に過ぎない。ダイコストが数十ドル増えても製品粗利率(40%超)への影響は限定的であり、「面積効率」ではなく「1コアの絶対性能がユーザー体験にもたらす価値」で設計を最適化できる。
AppleはTSMCの最新プロセスの最大顧客であり、N5(A14/M1)、N3(A17 Pro/M3)、N3E(A18 Pro/M4)をいずれも業界最速で投入してきた。最先端ノードによりトランジスタ密度が高いため、巨大コアでもダイサイズを許容範囲に抑えられる。A18 Proの推定200億トランジスタが105mm²に収まるのはN3Eあってこそであり、年間2億台超のiPhone出荷と大量のウェーハ購入がこの優先アクセスを支えている。
Appleは自社コンパイラ(LLVM/Clang)、OS(XNUカーネル)、フレームワーク(Metal, Core ML等)を全てコントロールしている。ブランチプレディクタやプリフェッチャの挙動を自社ソフトウェアの実際のアクセスパターンに最適化でき、巨大L1キャッシュ(192KB I-Cache)の投資対効果をWebKitなどのホットパスサイズから正確に見積もれる。汎用CPUベンダーはこの確信を持てないため、キャッシュ増量やROB拡大の判断はより保守的にならざるを得ない。
カスタムCPUコアの設計は数百人規模のチームと数年の開発を要し、1世代あたり数億ドル規模のR&Dコストがかかる。Appleはこのコア設計IPをiPhone(年間2億台超)・iPad・Macの全製品に展開するため、1デバイスあたりの設計コスト償却が極めて薄い。「太いコアを少数」という面積効率の悪い戦略でも、製品ポートフォリオ全体でのトータル経済合理性が成立する。
Armのリファレンスコアは近年急速に太くなっており、Cortex-X925では10-wideデコードに到達している。しかしArmはライセンスビジネスとして多様な顧客のTDP・コスト要件に対応する必要がある。コアを太くしすぎると、下位SKUやIoT向け製品に流用しにくくなるという事業構造上の制約がある。また、Armコアを採用するMediaTekやSamsungは自社でソフトウェアスタックをコントロールしていないため、巨大キャッシュへの投資対効果をAppleほど正確に見積もれない。
Samsung Exynosの自社設計コア(Mongoose/M系列)は6-wideまで到達したが、より狭いArm Cortex-A76(4-wide)にすら実効IPCで劣るという結果に終わり、M6で開発中止となった。コアの「太さ」は必要条件であり、十分条件ではないことを示す教訓的事例である。
OryonはNuvia(元Apple CPUチームメンバーが設立)の設計を引き継いでおり、8-wide/680 ROBという構成はApple Firestormときわめて近い。192KB L1 I-Cache、96KB L1 D-Cacheという巨大キャッシュも同じ思想の産物である。LLVM上でのスケジューラ構成やベクタ命令のスループット・レイテンシもFirestormと類似しており、設計哲学の直接的な継承が見て取れる。
ただし、Qualcommは①ソフトウェアスタック(Windows/Android)を自社でコントロールしていない、②出荷規模でAppleに及ばずR&D償却効率が低い、③Armとのライセンス紛争というリスクを抱えている、という3点でAppleの構造的条件を完全には再現できていない。
Intel Lion Coveは8-wideデコードを実現したが、前述の通りx86の可変長命令がデコーダ設計を複雑にしている。µOPキャッシュによるバイパスは有効だが、初回実行パスや大規模コードでの限界は残る。また、IntelもAMDもCPUチップの外販が主業であり、ダイ面積のコスト感覚がAppleとは根本的に異なる。Lion CoveのROBは576エントリで、AppleのFirestorm(630+)に対しまだ差がある。
AMDのZen 5は2×4-wideのクラスタードデコーダを採用し、サイクルあたり8命令のフェッチを狙うが、デコード幅としてはAppleの直接的な8-wideとは設計思想が異なる。Zen 5のROBは約448エントリと推定され、Apple Firestormの3分の2程度に留まる。
| 条件 | Apple | Qualcomm | Arm (Cortex) | Intel | AMD |
|---|---|---|---|---|---|
| 固定長ISA | ○ | ○ | ○ | × | × |
| チップ非外販 | ○ | ×(SoC外販が主業) | ×(IPライセンス) | × | × |
| 最先端ノード優先 | ○(TSMC最優先顧客) | △(Samsung/TSMC併用) | —(自社製造せず) | △(自社+TSMC) | △(TSMC) |
| SW垂直統合 | ○(OS/コンパイラ/FW) | × | × | △(oneAPI等) | × |
| 年間出荷規模 | 3億台超(全製品) | △ | — | ○ | △ |
これらの条件は個別には他社も部分的に保有しているが、全てを同時に満たしているのは現時点でAppleのみであり、「なぜAppleだけがこの太さのPコアを商業的に成立させられるのか」の構造的な答えとなる。
AppleのSoC設計には、一貫した設計原理が読み取れる。まず1コアあたりのIPC(性能密度)を極限まで高め、必要なマルチスレッド性能はコア数の調整で対応するというアプローチである。
この思想はA-series(iPhone向け)からM-series(Mac向け)へのスケーリングに明確に表れている。A18 ProとM4は同世代のEverestコアを共有しており、Pコアの設計は同一である。製品ティアごとの主な違いはPコア数であり、Eコアはバックグラウンド処理に必要な最低限の数に留められている。
| SoC | Pコア | Eコア | 合計 |
|---|---|---|---|
| A18 Pro | 2 | 4 | 6 |
| M4 | 最大4 | 6 | 最大10 |
| M4 Pro | 最大10 | 4 | 最大14 |
| M4 Max | 最大12 | 4 | 最大16 |
| M4 Ultra | 最大24 | 8 | 最大32 |
M4 ProからMaxへの拡張ではPコアが10→12に増加する一方、Eコアは4のまま据え置かれている。M4 Ultraは2基のM4 MaxをUltraFusionインターコネクトで接続した構成であり、Pコア・Eコアともに単純に倍増する。つまりUltraは新規設計ではなく、Maxダイの物理的な2枚貼りによってコア数・メモリ帯域・GPU規模を倍増させたものである。性能スケーリングの主軸は一貫してPコア数の増減であり、Eコアはあくまで補助的な位置づけに徹している。
この「質の高い1コアをタイルのように並べる」戦略は、以下のメリットをもたらす。
ユーザーが体感するレスポンス(アプリ起動、スクロール、コンパイル初動など)の大部分はシングルスレッド性能に支配される。特にiOSのように1つのフォアグラウンドアプリに集中するモバイルOSでは、コア数よりもコアの質が直接UXに影響する。
同じ処理を半分の時間で完了できれば、残りの時間はコアをスリープさせられる(race-to-sleep)。高IPCコアは高クロックに依存せず性能を出せるため、電圧を下げた状態で動作可能であり、消費電力の3乗則(P ∝ V² × f ≈ f³)の恩恵を最大限に受けられる。
1つのPコア設計で、iPhone(2P)からMac Studio/Mac Pro(M4 Ultra: Maxダイ2枚接続で最大24P)まで全カテゴリをカバーできる。コア設計が1世代あたりPコア・Eコア各1種類で済むため、R&D効率が極めて高い。
AppleのEコア(Icestorm→Blizzard→Sawtooth)は、Pコアの「太さ」との対比で注目すべき特徴がある。Eコアの絶対性能は決して低くないが、Pコアとの性能差・面積差が他社のbig.LITTLE的構成と比べて際立って大きい。この極端な非対称性こそが、「まずコアの質、数は後」という設計思想のもう一つの表れである。
| Eコア | 実行方式 | デコード幅 | 整数ALU | FP/SIMDパイプ | 位置づけ |
|---|---|---|---|---|---|
| Sawtooth (Apple) | OoO | ~3-wide | 3 | 2 | バックグラウンド専用 |
| Cortex-A520 (Arm) | インオーダー | 2-issue | 3 (2発行) | 共有可 | LITTLE / バックグラウンド |
| Cortex-A720 (Arm) | OoO | 4-wide | 4+ | 2 | ミドル / 持続性能 |
| Skymont (Intel) | OoO | 8-wide (3×3) | 8 | 4 | 前世代P相当の性能 |
Apple Icestorm(M1世代)はアウトオブオーダー実行・3-wide・3整数ALU・2 FP/SIMDパイプという構成で、AnandTechのテストではCortex-A76(当時のbigコア)相当の性能を、Pコアの約10%の消費電力で実現していた。Eコアとしては十分に高い絶対性能である。しかし、同じSoC内のFirestorm(8-wide・ROB 630+)との「差」は圧倒的であり、デコード幅で約2.7倍、ROBサイズで数倍の開きがある。Pコアが極端に太いために、結果としてEコアとの性能比が非常に大きくなっている。
これに対し、他社はPコアとEコアの性能差を縮める方向に進化している。Intel Skymontは8-wide・8 ALUという構成で、2世代前のP-core(Raptor Cove)に匹敵する性能を持ち、同世代のLion Cove Pコアとの性能差は比較的小さい。Arm陣営もCortex-A720(4-wide OoO)を「ミドルコア」として配置し、Pコア・ミドルコア・LITTLEコアの3階層構成を標準とすることで、性能の段差をなだらかにしている。つまり、他社はEコアの太さを増やし、P-E間の性能差を圧縮することでマルチスレッドのスループットも同時に改善する戦略を取っている。
Appleは性能投資をPコアに集中し、Eコアは「Pコアが休んでいる間にバックグラウンドタスクを最小電力で処理する」役割に徹底的に絞っている。macOS/iOSのQoS(Quality of Service)スケジューラがこれを支えており、低優先度タスクはEコアに固定的に割り振られる。結果として、Apple SoCのP-E性能比は他社を大きく上回る。
一方、Intel/Armの設計思想では、Eコアもマルチスレッド性能の積極的な担い手であり、P+Eの合計スループットを最大化することが目標となる。Arrow Lakeの8P+16E=24コアという構成は、この思想の典型的な表現である。P-Eの性能差が小さいほど、Eコアのスレッドもスループット全体に効率よく寄与できる。
どちらが優れているかは用途による。しかしAppleのアプローチは、Eコアに投じるはずのトランジスタ予算をPコアの太さに回すという設計資源の配分判断として一貫しており、「太く少ないPコア」戦略の裏面として理解すべきである。
AppleがSoCに「太いコア」を採用することを可能にしているのは、単一の技術的要因ではなく、ISA・製造・ビジネスモデル・ソフトウェアの4層にわたる構造的優位の同時成立である。
そしてAppleがこの戦略を選ぶ動機は明確である。アプリの起動、画面遷移、スクロールといったユーザーの「速い」「気持ちいい」という体感に最も直結するのはシングルスレッド性能であり、高IPCの太いコアはこの体験品質において直接的かつ測定可能な差を生み出す。
AArch64固定長ISAがワイドデコーダの面積コストを下げ、TSMC最先端ノードの優先確保が競合より多くのトランジスタを同一面積に搭載する余裕を与え、チップ非外販モデルがダイ面積制約を緩和し、垂直統合が巨大キャッシュ・巨大ROBの投資対効果を保証し、年間3億台超の出荷がR&Dコストを吸収する。
QualcommのOryonは、元Apple技術者の設計思想を直接引き継ぐことでマイクロアーキテクチャレベルではAppleに迫っているが、ソフトウェア垂直統合と出荷規模でのR&D償却において同等の条件を揃えるには至っていない。IntelとAMDはx86可変長命令という根本的な制約を抱えつつも、µOPキャッシュやクラスタードデコーダで対抗しているが、デコーダの根本的な面積効率差は残り続ける。
重要なのは、この構造的優位が一朝一夕に模倣できるものではない点である。2013年のCycloneで「desktop-class」と宣言してから10年以上にわたり、同一の設計哲学を一貫して深化させてきた蓄積が、現在の圧倒的なIPC優位の源泉となっている。