Local LLM Performance on Apple Silicon — All Models

SmolLM3 3B

3B • up to 168 tok/s

5 chips

M5 Max 168 tok/s 64GB M4 Pro 115 tok/s 24GB M3 92 tok/s 16GB M2 78 tok/s 8GB M1 65 tok/s 8GB

Gemma 4 E2B

2.3B • up to 158 tok/s

4 chips

M5 Max 158 tok/s 128GB M4 Pro 95 tok/s 24GB M3 82 tok/s 16GB M1 58 tok/s 8GB

Qwen 3.5 4B

4B • up to 148 tok/s

2 chips

M5 Max 148 tok/s 64GB M4 92 tok/s 16GB

Phi-5 Mini

4B • up to 145 tok/s

6 chips

M5 Max 145 tok/s 128GB M4 Pro 110 tok/s 24GB M5 Pro 95 tok/s 24GB M3 88 tok/s 16GB M2 68 tok/s 8GB M1 50 tok/s 8GB

Phi-4 Mini

3.8B • up to 142 tok/s

6 chips

M5 Max 142 tok/s 64GB M4 Max 125 tok/s 48GB M4 Pro 108 tok/s 24GB M3 95 tok/s 16GB M2 72 tok/s 8GB M1 58 tok/s 16GB

Llama 3.1 8B

8B • up to 138 tok/s

5 chips

M5 Max 138 tok/s 128GB M4 75 tok/s 16GB M3 Pro 62 tok/s 18GB M2 48 tok/s 8GB M1 40 tok/s 16GB

Qwen 3 4B

4B • up to 135 tok/s

3 chips

M5 Max 135 tok/s 64GB M4 Pro 118 tok/s 24GB M2 52 tok/s 8GB

Qwen 4 4B

4B • up to 135 tok/s

5 chips

M5 Max 135 tok/s 128GB M4 Pro 108 tok/s 24GB M3 85 tok/s 16GB M2 62 tok/s 8GB M1 45 tok/s 8GB

Gemma 3 4B

4B • up to 132 tok/s

4 chips

M5 Max 132 tok/s 64GB M4 Pro 95 tok/s 24GB M3 Pro 88 tok/s 18GB M1 48 tok/s 8GB

Gemma 4 E4B

4B • up to 128 tok/s

5 chips

M5 Max 128 tok/s 128GB M5 Pro 92 tok/s 24GB M4 Pro 78 tok/s 24GB M3 62 tok/s 16GB M1 42 tok/s 8GB

Mistral 7B

7B • up to 122 tok/s

4 chips

M5 Max 122 tok/s 64GB M4 Pro 98 tok/s 24GB M3 62 tok/s 16GB M1 42 tok/s 16GB

Llama 5 8B

8B • up to 112 tok/s

5 chips

M5 Max 112 tok/s 128GB M4 Pro 78 tok/s 24GB M5 Pro 72 tok/s 24GB M3 58 tok/s 16GB M2 42 tok/s 16GB

Qwen 3.5 9B

9B • up to 105 tok/s

5 chips

M5 Max 105 tok/s 64GB M4 Pro 92 tok/s 24GB M4 72 tok/s 16GB M3 58 tok/s 16GB M1 35 tok/s 16GB

Qwen 3 8B

8B • up to 98 tok/s

4 chips

M5 Max 98 tok/s 128GB M4 Pro 82 tok/s 24GB M2 55 tok/s 16GB M1 38 tok/s 16GB

Ministral 8B

8B • up to 98 tok/s

3 chips

M5 Max 98 tok/s 64GB M4 72 tok/s 16GB M3 55 tok/s 16GB

DeepSeek R1 8B

8B • up to 97 tok/s

4 chips

M5 Max 97 tok/s 64GB M4 78 tok/s 16GB M2 58 tok/s 16GB M1 38 tok/s 16GB

Qwen 4.1 32B-A3B

32B • up to 82 tok/s

6 chips

M5 Max 82 tok/s 128GB M4 Max 64 tok/s 128GB M4 Pro 62 tok/s 24GB M5 Pro 56 tok/s 64GB M3 Max 48 tok/s 64GB M3 Pro 34 tok/s 18GB

Qwen 4

32B • up to 80 tok/s

6 chips

M5 Max 80 tok/s 128GB M4 Max 62 tok/s 128GB M4 Pro 60 tok/s 24GB M5 Pro 55 tok/s 64GB M3 Max 47 tok/s 64GB M3 Pro 33 tok/s 18GB

Qwen 4 Preview 32B-A3B

32B • up to 78 tok/s

6 chips

M5 Max 78 tok/s 128GB M4 Max 60 tok/s 128GB M4 Pro 58 tok/s 24GB M5 Pro 52 tok/s 64GB M3 Max 45 tok/s 64GB M3 Pro 32 tok/s 18GB

Qwen 4 Coder

32B • up to 78 tok/s

4 chips

M5 Max 78 tok/s 128GB M4 Max 62 tok/s 48GB M4 Pro 58 tok/s 24GB M3 Max 45 tok/s 64GB

Gemma 4.5 12B

12B • up to 75 tok/s

5 chips

M5 Max 75 tok/s 128GB M4 Pro 58 tok/s 24GB M5 Pro 52 tok/s 24GB M3 42 tok/s 16GB M2 35 tok/s 16GB

Gemma 3 12B

12B • up to 68 tok/s

4 chips

M5 Max 68 tok/s 64GB M4 Pro 52 tok/s 24GB M3 38 tok/s 16GB M2 32 tok/s 16GB

Phi-5 Medium 14B

14B • up to 65 tok/s

4 chips

M5 Max 65 tok/s 128GB M4 Pro 48 tok/s 24GB M3 32 tok/s 16GB M2 24 tok/s 16GB

Phi-4 14B

14B • up to 62 tok/s

3 chips

M5 Max 62 tok/s 64GB M4 38 tok/s 16GB M2 28 tok/s 16GB

Qwen 3 30B-A3B

30B • up to 62 tok/s

4 chips

M5 Max 62 tok/s 64GB M4 Max 42 tok/s 48GB M4 Pro 35 tok/s 24GB M3 Max 28 tok/s 36GB

Qwen 3 14B

14B • up to 58 tok/s

3 chips

M5 Max 58 tok/s 64GB M4 Pro 38 tok/s 24GB M3 30 tok/s 16GB

Ministral 14B

14B • up to 58 tok/s

3 chips

M5 Max 58 tok/s 64GB M4 Pro 40 tok/s 24GB M3 30 tok/s 16GB

Qwen 3.6-35B-A3B

35B • up to 55 tok/s

3 chips

M5 Max 55 tok/s 128GB M4 Max 42 tok/s 48GB M4 Pro 32 tok/s 24GB

Qwen 3.5 35B

35B • up to 52 tok/s

3 chips

M5 Max 52 tok/s 64GB M4 Max 34 tok/s 48GB M3 Max 22 tok/s 96GB

Gemma 4 26B-A4B

26B • up to 50 tok/s

4 chips

M5 Max 50 tok/s 128GB M4 Max 40 tok/s 48GB M5 Pro 35 tok/s 24GB M4 Pro 28 tok/s 24GB

Llama 5 Scout

109B • up to 50 tok/s

3 chips

M4 Ultra 50 tok/s 192GB M5 Max 42 tok/s 128GB M4 Max 35 tok/s 128GB

Mistral Medium 4

41B • up to 48 tok/s

3 chips

M5 Max 48 tok/s 128GB M4 Max 38 tok/s 48GB M3 Max 30 tok/s 64GB

Mistral Small 4

119B • up to 45 tok/s

2 chips

M4 Ultra 45 tok/s 192GB M5 Max 38 tok/s 128GB

Mistral Voyage 24B

24B • up to 45 tok/s

3 chips

M5 Max 45 tok/s 128GB M4 Max 38 tok/s 48GB M4 Pro 28 tok/s 32GB

Devstral Small 24B

24B • up to 45 tok/s

3 chips

M5 Max 45 tok/s 128GB M4 Max 35 tok/s 48GB M4 Pro 26 tok/s 32GB

Gemma 3 27B

27B • up to 42 tok/s

4 chips

M5 Max 42 tok/s 64GB M4 Max 35 tok/s 48GB M3 Max 28 tok/s 96GB M4 Pro 25 tok/s 24GB

Gemma 4.5 27B

27B • up to 42 tok/s

5 chips

M5 Max 42 tok/s 128GB M4 Max 36 tok/s 48GB M3 Max 32 tok/s 64GB M5 Pro 30 tok/s 32GB M4 Pro 26 tok/s 32GB

Grok 4 Open

100B • up to 40 tok/s

2 chips

M4 Ultra 40 tok/s 192GB M5 Max 32 tok/s 128GB

GLM 5.2 Air

106B • up to 38 tok/s

3 chips

M4 Ultra 38 tok/s 192GB M5 Max 34 tok/s 128GB M4 Max 26 tok/s 128GB

Phi-5 Large 28B

28B • up to 38 tok/s

3 chips

M5 Max 38 tok/s 128GB M4 Pro 28 tok/s 32GB M3 Max 26 tok/s 64GB

Nemotron Cascade 2

30B • up to 35 tok/s

3 chips

M5 Max 35 tok/s 64GB M4 Max 28 tok/s 48GB M4 Pro 22 tok/s 24GB

Qwen 3 32B

32B • up to 32 tok/s

4 chips

M4 Ultra 32 tok/s 192GB M5 Max 28 tok/s 128GB M4 Max 22 tok/s 64GB M4 Pro 15 tok/s 32GB

Llama 4 Scout

109B • up to 30 tok/s

2 chips

M4 Ultra 30 tok/s 192GB M5 Max 22 tok/s 128GB

Command R+ 2

104B • up to 30 tok/s

2 chips

M5 Max 30 tok/s 128GB M4 Max 24 tok/s 128GB

DeepSeek R1 32B

32B • up to 27 tok/s

3 chips

M5 Max 27 tok/s 64GB M4 Max 18 tok/s 48GB M3 Max 14 tok/s 36GB

Gemma 4 31B

31B • up to 26 tok/s

3 chips

M5 Max 26 tok/s 128GB M4 Max 18 tok/s 48GB M4 Pro 14 tok/s 24GB

Qwen3-235B-A22B

235B • up to 22 tok/s

2 chips

M4 Ultra 22 tok/s 192GB M5 Max 15 tok/s 128GB

Llama 5 70B

70B • up to 22 tok/s

3 chips

M4 Ultra 22 tok/s 192GB M5 Max 18 tok/s 128GB M4 Max 15 tok/s 128GB

Mistral Voyage Pro 70B

70B • up to 20 tok/s

3 chips

M4 Ultra 20 tok/s 192GB M5 Max 16 tok/s 128GB M4 Max 13 tok/s 128GB

Llama 3.3 70B

70B • up to 18 tok/s

2 chips

M4 Ultra 18 tok/s 192GB M5 Max 12 tok/s 128GB

Hermes 4 70B

70B • up to 18 tok/s

3 chips

M4 Ultra 18 tok/s 192GB M5 Max 16 tok/s 128GB M4 Max 13 tok/s 128GB

DeepSeek R1 70B

70B • up to 16 tok/s

2 chips

M4 Ultra 16 tok/s 192GB M5 Max 11 tok/s 128GB

Qwen 2.5 72B

72B • up to 15 tok/s

2 chips

M4 Ultra 15 tok/s 192GB M5 Max 10 tok/s 128GB

DeepSeek R2

671B • up to 12 tok/s

2 chips

M4 Ultra 12 tok/s 192GB M5 Max 8 tok/s 128GB

GPT-oss 120B

120B • up to 10 tok/s

2 chips

M4 Ultra 10 tok/s 192GB M5 Max 7 tok/s 128GB

Llama 5 405B

405B • up to 5 tok/s

2 chips

M4 Ultra 5 tok/s 192GB M5 Max 4 tok/s 128GB