2025年4月

在今年的大模型落地背景下,敏感信息不和共有模型交互。我们分别评测了 A100 8卡、4090、H800、H20,动辄百万级,在前期探索阶段很难拿到产出数据支撑。
梳理需求后发现,90%场景是推理,只有AI部门涉及训练任务。推理性能和性价比成为重点。

此时注意到,Mac Studio在M2 Ultra芯片上采用了统一内存架构(内存≈显存),可用于推理大型模型。油管也已有博主实测运行 deepseek-R1:671b。

最终选择购入最新的M3 Ultra Mac Studio

  • CPU&GPU:Apple M3 Ultra 芯片 (32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)
  • MEM:512G统一内存

价格不到7万。实测默认参数下,可以运行 deepseek-R1:671b,30个并发响应轻松,推理速度可接受。
20250428144653.jpg
m3ultra.JPG
Mac Studio并不是为全天候服务器设计

虽然推理能力超出预期,但Mac Studio天生不适合全天候服务器,主要存在以下问题:

  1. 重启后需本地登录。即使启用远程登录(SSH)和屏幕共享(VNC),每次重启后,必须在本机物理登录一次,远程连接功能才能恢复。这使得无人值守场景下,稳定性有损失。
  2. 服务部署与Linux不同。在Mac上安装、配置守护进程,与Linux系统差异较大,需要额外适配工作。例如,Ollama绑定地址、环境变量设置,都需要用 launchctl 手动配置。

稳定运行的必要设置

为了最大化稳定性,必须手动关闭系统的各种休眠机制:

# 防止系统进入睡眠
sudo systemsetup -setcomputersleep Never

# 防止显示器睡眠
sudo systemsetup -setdisplaysleep Never

# 防止硬盘休眠
sudo systemsetup -setharddisksleep Never

# 验证配置
systemsetup -getcomputersleep
systemsetup -getdisplaysleep
systemsetup -getharddisksleep

# 设置Ollama监听所有IP地址
launchctl setenv OLLAMA_HOST "0.0.0.0"

# 调整GPU共享内存限制,必选!否则大尺寸模型跑不起来
sudo sysctl iogpu.wired_limit_mb=491520

在 deepseek-r1:32b 中小尺寸模型下,A100 单卡可提供 1.8QPS,单问题 7 秒内完成响应。 对于小团队够用。 单卡推理比4090弱

2025-04-11T03:24:11.png

  • 服务器硬件配置:
    ○ CPU:Intel(R) Xeon(R) Platinum 8336C CPU @ 2.30GHz * 2
    ○ GPU:NVIDIA A100-SXM4-80GB * 8
    ○ MEM:1960G
  • 网络:本机
  • 测试工具:Apache Benchmark (ab)
  • 模型:deepseek-r1:32b
ab -n 1000 -c 10 -s 30000 -T "application/json" -p payload.json -v 4 http://1.1.1.1:11434/v1/completions > ab_detailed_log01.txt 2>&1

# payload.json
{
  "model": "deepseek-r1:32b",
  "prompt": "你好,你是谁?"
}

2025-04-11T03:26:27.png

并发数总请求数成功请求数失败请求数吞吐率 (请求/秒)平均响应时间 (毫秒)95% 响应时间 (毫秒)最长响应时间 (毫秒)
101000100001.825504.49570018423
501000100001.8227520.9912950632275
1001000100001.8354613.0305713258628
1501000100001.8182645.2948717090249
2001000100001.82110118.858113820117009
4001000100001.82220315.946222405224113
8001000100001.24644384.462688739698507

8卡A100,可运行deepseek-r1:671b(671b-q4_K_M 404GB),响应较慢
2025-04-11T03:23:50.png