Skip to content

如何提高推理响应时间? #3269

@xiangvictory

Description

@xiangvictory

环境:
8张昆仑芯P800(96GB显存)
执行参数如下:
python -m fastdeploy.entrypoints.openai.api_server
--model /Work/deepseek32b
--port 8188
--metrics-port 8181
--engine-worker-queue-port 8182
--tensor-parallel-size 8
--max-model-len 16384
--max-num-seqs 64
--max-num-batched-tokens 16384
--kv-cache-ratio 0.8
--enable-chunked-prefill
--gpu-memory-utilization 0.85
--graph-optimization-config '{"use_cudagraph":true,"graph_opt_level":1}'
--reasoning-parser qwen3

性能详见附件,平均端到端响应速度需要143秒,这速度太慢了。
调整什么参数能提高响应速度。

性能分析报告.xlsx

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions