fix code style

Wanglongzhi2001 · Wanglongzhi2001 · commit 34ebf2a9ec3a · 2025-07-24T18:01:51.000+08:00
diff --git a/fastdeploy/config.py b/fastdeploy/config.py
@@ -18,7 +18,6 @@
 
 import os
 from dataclasses import dataclass, field
-from enum import Enum
 from typing import Literal, Optional
 
 from paddleformers.transformers.configuration_utils import PretrainedConfig
@@ -34,6 +33,7 @@ class MoEPhase:
     """
     The generation phase of the moe.
     """
+
     def __init__(self, phase="prefill"):
         self._phase = phase
 
diff --git a/fastdeploy/model_executor/layers/moe/ep.py b/fastdeploy/model_executor/layers/moe/ep.py
@@ -74,7 +74,7 @@ def __init__(
         self.ep_config = Config(24, 6, 256)
         self.num_max_dispatch_tokens_per_rank = num_max_dispatch_tokens_per_rank
 
-        # In mixed EP mode on a single node, we dynamically switch between 
+        # In mixed EP mode on a single node, we dynamically switch between
         # high throughput and low latency modes.
         if splitwise_role == "mixed":
             # decode engine
@@ -88,7 +88,7 @@ def __init__(
                 low_latency_mode=False,
                 num_qps_per_rank=1,
             )
-        # In disaggregated mode on mutiple nodes, we either use 
+        # In disaggregated mode on mutiple nodes, we either use
         # high throughput mode or low latency mode.
         else:
             if moe_phase.phase == "decode":
@@ -105,7 +105,6 @@ def __init__(
             else:
                 raise ValueError(f"Unknown generation phase {moe_phase}")
 
-
     def get_low_latency_buffer(self):
         """
         Get the DeepEP buffer.
@@ -194,7 +193,7 @@ def low_latency_combine(
         Return:
             combined_hidden_states: [num_tokens, hidden]
         """
-        # TODO(@wufeisheng): Delete them when deepep in PaddlePaddle is fixed 
+        # TODO(@wufeisheng): Delete them when deepep in PaddlePaddle is fixed
         (
             src_info,
             layout_range,
@@ -208,7 +207,7 @@ def low_latency_combine(
             None,
             num_experts,
         )
-        
+
         combined_hidden_states, _, combine_hook = self.decode_deepep_engine.low_latency_combine(
             hidden_states,
             topk_idx,
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
@@ -19,8 +19,6 @@
 import paddle
 from paddle import nn
 
-from fastdeploy.config import MoEPhase
-
 from ..quantization.quant_base import QuantMethodBase
 
 
@@ -46,11 +44,16 @@ def init_ep(self, layer: nn.Layer) -> None:
         """
         if layer.ep_size > 1:
             if layer.fd_config.parallel_config.splitwise_role == "mixed":
-                from .ep import EPPrefillRunner, EPDecoderRunner
+                from .ep import EPDecoderRunner, EPPrefillRunner
+
                 self.ep_prefill_runner = EPPrefillRunner(
-                    layer.top_k, layer.hidden_size, layer.num_experts,
+                    layer.top_k,
+                    layer.hidden_size,
+                    layer.num_experts,
                     layer.fd_config.parallel_config.splitwise_role,
-                    layer.ep_size, layer.ep_rank)
+                    layer.ep_size,
+                    layer.ep_rank,
+                )
                 self.ep_decoder_runner = EPDecoderRunner(
                     layer.top_k,
                     layer.hidden_size,
@@ -63,17 +66,27 @@ def init_ep(self, layer: nn.Layer) -> None:
             else:
                 if layer.fd_config.parallel_config.moe_phase == "prefill":
                     from .ep import EPPrefillRunner
+
                     self.ep_prefill_runner = EPPrefillRunner(
-                        layer.top_k, layer.hidden_size, layer.num_experts,
+                        layer.top_k,
+                        layer.hidden_size,
+                        layer.num_experts,
                         layer.fd_config.parallel_config.splitwise_role,
-                        layer.ep_size, layer.ep_rank)
+                        layer.ep_size,
+                        layer.ep_rank,
+                    )
                 else:
                     from .ep import EPDecoderRunner
+
                     self.ep_decoder_runner = EPDecoderRunner(
-                        layer.top_k, layer.hidden_size, layer.num_experts,
+                        layer.top_k,
+                        layer.hidden_size,
+                        layer.num_experts,
                         layer.moe_config.num_max_dispatch_tokens_per_rank,
                         layer.fd_config.parallel_config.splitwise_role,
-                        layer.ep_size, layer.ep_rank)
+                        layer.ep_size,
+                        layer.ep_rank,
+                    )
 
     def process_loaded_weights(self, layer, weights) -> None:
         """
@@ -149,10 +162,7 @@ def apply(
         if layer.ep_size > 1:
             if layer.fd_config.parallel_config.moe_phase.phase == "prefill":
                 return self.apply_ep_prefill(layer, x, gate_out)
-            elif layer.fd_config.parallel_config.moe_phase.phase == "decode":
-                return self.apply_ep_decode(layer, x, gate_out)
             else:
-                logger.error(
-                    f"invalid value of moe_phase={layer.fd_config.parallel_config.moe_phase.phase}")
+                return self.apply_ep_decode(layer, x, gate_out)
         else:
             return self.apply_tp(layer, x, gate_out)
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -794,16 +794,16 @@ def initialize_forward_meta(self):
         # Update Batch type for cuda graph
         # TODO(gongshaotian): Use seq_lens_encoder to set is_decode_batch
         is_decode_batch = not ((self.share_inputs["seq_lens_this_time"] > 1).sum() > 0)
-        
+
         # mix ep in single node
         if self.fd_config.parallel_config.use_ep and self.fd_config.parallel_config.splitwise_role == "mixed":
             is_decode_batch_list = []
             paddle.distributed.all_gather_object(is_decode_batch_list, is_decode_batch)
             is_decode_batch = all(is_decode_batch_list)
             self.fd_config.parallel_config.moe_phase.phase = "decode" if is_decode_batch else "prefill"
-        
+
         self.forward_meta.step_use_cudagraph = self.use_cudagraph and is_decode_batch
-        
+
         # Initialzie attention meta data
         for attn_backend in self.attn_backends:
             attn_backend.init_attention_metadata(self.forward_meta)