2025年4月

在 deepseek-r1:32b 中小尺寸模型下,A100 单卡可提供 1.8QPS,单问题 7 秒内完成响应。 对于小团队够用。 单卡推理比4090弱

2025-04-11T03:24:11.png

  • 服务器硬件配置:
    ○ CPU:Intel(R) Xeon(R) Platinum 8336C CPU @ 2.30GHz * 2
    ○ GPU:NVIDIA A100-SXM4-80GB * 8
    ○ MEM:1960G
  • 网络:本机
  • 测试工具:Apache Benchmark (ab)
  • 模型:deepseek-r1:32b
ab -n 1000 -c 10 -s 30000 -T "application/json" -p payload.json -v 4 http://1.1.1.1:11434/v1/completions > ab_detailed_log01.txt 2>&1

# payload.json
{
  "model": "deepseek-r1:32b",
  "prompt": "你好,你是谁?"
}

2025-04-11T03:26:27.png

并发数总请求数成功请求数失败请求数吞吐率 (请求/秒)平均响应时间 (毫秒)95% 响应时间 (毫秒)最长响应时间 (毫秒)
101000100001.825504.49570018423
501000100001.8227520.9912950632275
1001000100001.8354613.0305713258628
1501000100001.8182645.2948717090249
2001000100001.82110118.858113820117009
4001000100001.82220315.946222405224113
8001000100001.24644384.462688739698507

8卡A100,可运行deepseek-r1:671b(671b-q4_K_M 404GB),响应较慢
2025-04-11T03:23:50.png