Support TP2&TP4 Wint2 Inference

chang-wenbin · chang-wenbin · commit fc3b8ed93261 · 2025-07-01T16:47:20.000+08:00
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_wint2_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_wint2_backend.py
@@ -20,6 +20,7 @@
 import fastdeploy
 from fastdeploy.distributed.communication_op import \
     tensor_model_parallel_all_reduce
+
 from ..quantization.quant_base import QuantMethodBase
 from ..utils import create_and_set_parameter, get_tensor
 
@@ -223,7 +224,6 @@ def apply(
         )
 
         from fastdeploy.model_executor.ops.gpu import moe_expert_reduce
-
         fused_moe_out = moe_expert_reduce(
             ffn_out,
             topk_weights,