Nvidia 8卡A100简易性能测试
在 deepseek-r1:32b 中小尺寸模型下,A100 单卡可提供 1.8QPS,单问题 7 秒内完成响应。 对于小团队够用。 单卡推理比4090弱
- 服务器硬件配置:
○ CPU:Intel(R) Xeon(R) Platinum 8336C CPU @ 2.30GHz * 2
○ GPU:NVIDIA A100-SXM4-80GB * 8
○ MEM:1960G - 网络:本机
- 测试工具:Apache Benchmark (ab)
- 模型:deepseek-r1:32b
ab -n 1000 -c 10 -s 30000 -T "application/json" -p payload.json -v 4 http://1.1.1.1:11434/v1/completions > ab_detailed_log01.txt 2>&1
# payload.json
{
"model": "deepseek-r1:32b",
"prompt": "你好,你是谁?"
}
并发数 | 总请求数 | 成功请求数 | 失败请求数 | 吞吐率 (请求/秒) | 平均响应时间 (毫秒) | 95% 响应时间 (毫秒) | 最长响应时间 (毫秒) |
---|---|---|---|---|---|---|---|
10 | 1000 | 1000 | 0 | 1.82 | 5504.495 | 7001 | 8423 |
50 | 1000 | 1000 | 0 | 1.82 | 27520.991 | 29506 | 32275 |
100 | 1000 | 1000 | 0 | 1.83 | 54613.030 | 57132 | 58628 |
150 | 1000 | 1000 | 0 | 1.81 | 82645.294 | 87170 | 90249 |
200 | 1000 | 1000 | 0 | 1.82 | 110118.858 | 113820 | 117009 |
400 | 1000 | 1000 | 0 | 1.82 | 220315.946 | 222405 | 224113 |
800 | 1000 | 1000 | 0 | 1.24 | 644384.462 | 688739 | 698507 |
8卡A100,可运行deepseek-r1:671b(671b-q4_K_M 404GB),响应较慢