使用sglang在两个H200上推理速度非常慢
#4
by
taozi555
- opened
python3 -m sglang.launch_server
--model meituan-longcat/LongCat-Flash-Lite
--port 6006
--host 0.0.0.0
--mem-fraction-static 0.9
--max-running-requests 64
--trust-remote-code
--skip-server-warmup
--attention-backend flashinfer
--ep 2
--tp 2
--disable-cuda-graph
使用此命令,大约12tk/s
我们是 DeployPad。
我们注意到使用 sglang 在 2× H200 上运行 LongCat 只有约 12 tok/s,这一性能明显偏低。
👉DeployPad 推理栈将于本周末正式上线
👉 上线即支持 LongCat:单张 H200 可达约 60–80 tok/s,同时支持 RTX Pro 6000
👉 将向 LongCat 社区开放支持
我们的目标是充分发挥 H200 的性能,在无需复杂调参的情况下实现更高吞吐。
周末见。