如何提高推理响应时间？

环境：
8张昆仑芯P800(96GB显存)
执行参数如下：
python -m fastdeploy.entrypoints.openai.api_server \
  --model /Work/deepseek32b \
  --port 8188 \
  --metrics-port 8181 \
  --engine-worker-queue-port 8182 \
  --tensor-parallel-size 8 \
  --max-model-len 16384 \
  --max-num-seqs 64 \
  --max-num-batched-tokens 16384 \
  --kv-cache-ratio 0.8 \
  --enable-chunked-prefill \
  --gpu-memory-utilization 0.85 \
  --graph-optimization-config '{"use_cudagraph":true,"graph_opt_level":1}' \
  --reasoning-parser qwen3


性能详见附件，平均端到端响应速度需要143秒，这速度太慢了。
调整什么参数能提高响应速度。


[性能分析报告.xlsx](https://github.com/user-attachments/files/21676339/default.xlsx)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

如何提高推理响应时间？ #3269

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

如何提高推理响应时间？ #3269

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions