硬體配置
- 晶片:Apple M3 Ultra
- CPU:32 核心(24 效能 + 8 節能)
- GPU:80 核心
- 神經網路引擎:32 核心
- 統一記憶體:512GB
- 記憶體頻寬:819 GB/s
- SSD:8TB
512GB 統一記憶體的實際意義
傳統架構 CPU 和 GPU 各自有獨立記憶體,資料需要在兩者之間複製。Apple 統一記憶體架構意味著 CPU 和 GPU 共享同一塊 512GB。
這對 AI 工作負載意味著:
同時運行多個 LLM
當前常駐模型(全部同時在內存中):
├── DeepSeek R1 671B Q4 ~380GB (通過 llama.cpp)
├── Qwen 2.5 72B Q4 ~40GB
├── Llama 3.1 70B Q4 ~40GB
├── Mistral 8x22B Q4 ~45GB
└── CodeLlama 34B Q4 ~20GB
─────
剩餘可用: ~0GB (剛好塞滿)
實務上不會同時跑這麼多大模型。通常 2-3 個常駐即可,其餘給 Agent 框架和操作系統。
Agent 框架記憶體使用
Hermes Agent ~500MB (Node.js runtime)
OpenClaw ~800MB (Node.js + Skills)
Claude Code ~1GB (per session × 3 max)
操作系統 + 工具 ~8GB
─────────────────────────
總計 ~12GB
圖像/影片生成
ComfyUI + SDXL ~16GB (MPS)
Wan2.2 影片生成 ~24GB (MPS)
─────────────────────────────
總計 ~40GB
結論:一台 M3 Ultra 512GB 可以同時跑 2-3 個 Agent 框架 + 1-2 個本地 LLM + 圖像生成,全部不需要 swap。
與其他方案的對比
| 方案 | 記憶體 | 成本 | 噪音 | 適合 | |------|--------|------|------|------| | M3 Ultra 512GB | 512GB 統一 | ~$8,000 | 無風扇 | 個人終極方案 | | M2 Ultra 192GB | 192GB 統一 | ~$5,000 | 無風扇 | 進階個人方案 | | RTX 4090 × 4 | 96GB VRAM × 4 | ~$8,000 | 大 | 訓練/叢集 | | MacBook Pro M3 Max | 128GB | ~$4,000 | 無 | 移動方案 | | 雲端 A100 | 80GB | ~$1/hr | N/A | 彈性方案 |
實際工作場景
場景 1:日常開發
運行中:
Ollama (Qwen 2.5 32B) ~18GB
OpenClaw + Hermes ~2GB
VS Code + 終端 ~4GB
Claude Code (1 session) ~1GB
─────────────────────────────────
總計 ~25GB / 512GB — 只用 5%
完全無感,還有大量餘裕。
場景 2:全負載壓力測試
運行中:
Ollama (DeepSeek R1 70B) ~40GB
Ollama (Qwen 72B) ~40GB
ComfyUI + SDXL ~16GB
Wan2.2 影片生成 ~24GB
OpenClaw + Hermes ~2GB
Claude Code (3 sessions) ~3GB
macOS + 工具 ~8GB
─────────────────────────────────
總計 ~133GB / 512GB — 只用 26%
記憶體完全不是瓶頸,GPU 使用率才是。
不足之處
- GPU 核心數有限:80 核心 GPU 在大型批次訓練中不如多張 RTX 4090
- MPS 生態不夠成熟:部分 PyTorch 操作不支援 MPS,需要 CPU fallback
- 價格:512GB 版本價格不菲,對個人開發者是筆不小的投資
- CUDA 不可用:部分框架(如 bitsandbytes)只能在 CUDA 上運行
結論
M3 Ultra 512GB 是運行多 Agent 框架的極佳選擇:
- 統一記憶體讓 LLM 推理不受 VRAM 限制
- 零噪音適合長時間運行
- 功耗極低(對比 x86 + GPU 方案)
- 足夠同時運行整個三層 Agent 框架 + 多個本地 LLM
如果你認真對待本地 AI 開發,這台機器可以說是目前的終極選項。