[doc] best practice for eb45 text models #3002

zoooo0820 · 2025-07-24T06:08:05Z

Best practice for eb45 text models

paddle-bot · 2025-07-24T06:08:10Z

Thanks for your contribution!

qingqing01 · 2025-07-29T06:23:53Z

docs/zh/optimal_deployment/ERNIE-4.5-0.3B-Paddle.md

+
+- 模型下载，**请注意使用Fastdeploy部署需要Paddle后缀的模型**：
+  - 执行时直接指定模型名（如`baidu/ERNIE-4.5-0.3B-Paddle`）即可自动下载，默认下载路径为 `~/`(即用户主目录)，也可以通过配置环境变量 `FD_MODEL_CACHE`修改默认下载的路径
+  - 如受到网络或其他因素影响，也可以通过[huggingface](https://huggingface.co/)、[modelscope](https://www.modelscope.cn/home)等下载模型，并在启动时指定模型路径


和安装文档里一样的话，直接链接到对应的中、英文档即可。

Done，已修改

qingqing01 · 2025-07-29T06:26:18Z

docs/zh/optimal_deployment/ERNIE-4.5-0.3B-Paddle.md

+  - 执行时直接指定模型名（如`baidu/ERNIE-4.5-0.3B-Paddle`）即可自动下载，默认下载路径为 `~/`(即用户主目录)，也可以通过配置环境变量 `FD_MODEL_CACHE`修改默认下载的路径
+  - 如受到网络或其他因素影响，也可以通过[huggingface](https://huggingface.co/)、[modelscope](https://www.modelscope.cn/home)等下载模型，并在启动时指定模型路径
+
+## 二、启动服务


标题和 https://github.com/PaddlePaddle/FastDeploy/pull/2768/files 保持一致吧

Done，已修改

qingqing01 · 2025-07-29T06:38:13Z

docs/zh/optimal_deployment/ERNIE-4.5-0.3B-Paddle.md

+其中：
+- `--quantization`: 表示模型采用的量化策略。不同量化策略，模型的性能和精度也会不同。
+- `--max-model-len`：表示当前部署的服务所支持的最长Token数量。设置得越大，模型可支持的上下文长度也越大，但相应占用的显存也越多，可能影响并发数。
+- `--kv-cache-ratio`: 表示KVCache块按kv_cache_ratio比例分给Prefill阶段和Decode阶段。设置不合理会导致某个阶段的KVCache块不足，从而影响性能。如果开启服务管理全局Block功能，可以不用设置。


kv-cache-ratio和最新的用法保持一致吧，可以不设置这个参数了

已经移除--kv-cache-ratio，建议用户开启全局管理的FLAG

qingqing01 · 2025-07-29T06:57:34Z

docs/zh/optimal_deployment/ERNIE-4.5-21B-A3B-Paddle.md

+       --max-num-seqs 128
+```
+其中：
+- `--quantization`: 表示模型采用的量化策略。不同量化策略，模型的性能和精度也会不同。


可以写下都支持哪些量化类型，包括Hopper架构也可以跑FP8

qingqing01 · 2025-07-29T07:10:24Z

docs/zh/optimal_deployment/ERNIE-4.5-21B-A3B-Paddle.md

+启动前增加下列环境变量
+```
+export FD_SAMPLING_CLASS=rejection
+```


Lite 模型也支持 PD 分离，后续可以补充下

A3B 已经补充PD分离部分

qingqing01 · 2025-07-29T07:11:11Z

docs/zh/optimal_deployment/ERNIE-4.5-300B-A47B-Paddle.md

+       --quantization wint4 \
+       --innode-prefill-ports 8182 \
+       --splitwise-role "decode"
+```


后续也再补充下PD+EP分离部署

好的，后续验证EP后补充

zoooo0820 force-pushed the best_practice branch from 35383f6 to 0747136 Compare July 24, 2025 07:05

[doc] best practice for eb45 text models

6c48f95

zoooo0820 force-pushed the best_practice branch from 0747136 to 6c48f95 Compare July 24, 2025 07:14

qingqing01 reviewed Jul 29, 2025

View reviewed changes

zoooo0820 force-pushed the best_practice branch from a42ea04 to a325b65 Compare July 29, 2025 10:01

fix docs

9fa3da4

zoooo0820 force-pushed the best_practice branch from a325b65 to 9fa3da4 Compare July 29, 2025 11:23

qingqing01 approved these changes Jul 31, 2025

View reviewed changes

Jiang-Jia-Jun merged commit 1ef38b1 into PaddlePaddle:develop Jul 31, 2025
13 of 19 checks passed

zoooo0820 deleted the best_practice branch July 31, 2025 09:23

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[doc] best practice for eb45 text models #3002

[doc] best practice for eb45 text models #3002

Uh oh!

zoooo0820 commented Jul 24, 2025

Uh oh!

paddle-bot bot commented Jul 24, 2025

Uh oh!

qingqing01 Jul 29, 2025

Uh oh!

zoooo0820 Jul 29, 2025

Uh oh!

qingqing01 Jul 29, 2025

Uh oh!

zoooo0820 Jul 29, 2025

Uh oh!

qingqing01 Jul 29, 2025

Uh oh!

zoooo0820 Jul 29, 2025

Uh oh!

qingqing01 Jul 29, 2025

Uh oh!

zoooo0820 Jul 29, 2025

Uh oh!

qingqing01 Jul 29, 2025

Uh oh!

zoooo0820 Jul 29, 2025

Uh oh!

qingqing01 Jul 29, 2025

Uh oh!

zoooo0820 Jul 29, 2025

Uh oh!

Uh oh!

Uh oh!

[doc] best practice for eb45 text models #3002

[doc] best practice for eb45 text models #3002

Uh oh!

Conversation

zoooo0820 commented Jul 24, 2025

Uh oh!

paddle-bot bot commented Jul 24, 2025

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!