PaddlePaddle
diff --git a/‎.gitignore
Lines changed: 1 addition & 1 deletion b/‎.gitignore
Lines changed: 1 addition & 1 deletion
diff --git a/‎custom_ops/gpu_ops/wfp8afp8_sparse_gemm/kernel_traits.h
Lines changed: 12 additions & 12 deletions b/‎custom_ops/gpu_ops/wfp8afp8_sparse_gemm/kernel_traits.h
Lines changed: 12 additions & 12 deletions
diff --git a/‎custom_ops/gpu_ops/wfp8afp8_sparse_gemm/mainloop_fwd.h
Lines changed: 30 additions & 31 deletions b/‎custom_ops/gpu_ops/wfp8afp8_sparse_gemm/mainloop_fwd.h
Lines changed: 30 additions & 31 deletions
diff --git a/‎custom_ops/gpu_ops/wfp8afp8_sparse_gemm/utils.hpp
Lines changed: 3 additions & 3 deletions b/‎custom_ops/gpu_ops/wfp8afp8_sparse_gemm/utils.hpp
Lines changed: 3 additions & 3 deletions
@@ -172,4 +172,4 @@ custom_ops/gpu_ops/w4afp8_gemm/w4afp8_gemm_*.cu
 custom_ops/gpu_ops/w4afp8_gemm/w4afp8_gemm_template.h
 
 custom_ops/gpu_ops/wfp8afp8_sparse_gemm/wfp8Afp8_sparse_gemm_*.cu
-/custom_ops/gpu_ops/wfp8afp8_sparse_gemm/wfp8Afp8_sparse_gemm_template.h
+custom_ops/gpu_ops/wfp8afp8_sparse_gemm/wfp8Afp8_sparse_gemm_template.h
@@ -35,8 +35,8 @@ struct SharedStorage {
         };
         cute::array_aligned<OutputType, cute::cosize_v<SmemLayoutC>> smem_c;
     };
-  
-  struct {    
+
+  struct {
     typename cutlass::PipelineTmaAsync<kStages>::SharedStorage pipeline;
   };
 };
@@ -46,7 +46,7 @@ template<int kBlockM_, int kBlockN_, int kBlockK_,
         int kTiles_, int M_,
         int TokenPackSize_,
         int TAIL_N_ = 0,
-        int kClusterM_ = 1, 
+        int kClusterM_ = 1,
         typename elem_type=cutlass::float_e4m3_t,
         typename OutputType = cutlass::bfloat16_t>
 struct Kernel_traits {
@@ -78,7 +78,7 @@ struct Kernel_traits {
     static constexpr int kStages = kStages_;
     static_assert(kStages > 1);
 
-    using AtomLayoutMNK = Layout<Shape<Int<kBlockM / 64>, _1, _1>>;    
+    using AtomLayoutMNK = Layout<Shape<Int<kBlockM / 64>, _1, _1>>;
 
     using TiledMma = decltype(cute::make_tiled_mma(
         cute::GMMA::ss_op_selector<Element, Element, ElementAccum, TileShape_MNK>(),
@@ -98,7 +98,7 @@ struct Kernel_traits {
 
     using SmemLayoutAtomB = decltype(
         cutlass::gemm::collective::detail::ss_smem_selector<
-            GMMA::Major::K, Element, decltype(cute::get<1>(TileShape_MNK{})), 
+            GMMA::Major::K, Element, decltype(cute::get<1>(TileShape_MNK{})),
             decltype(cute::get<2>(TileShape_MNK{}))>());
 
     using SmemLayoutB = decltype(
@@ -107,20 +107,20 @@ struct Kernel_traits {
 
     using SmemLayoutAtomB_TAIL = decltype(
         cutlass::gemm::collective::detail::rs_smem_selector<
-            GMMA::Major::K, Element, decltype(cute::get<1>(TileShape_MNK_TAIL{})), 
+            GMMA::Major::K, Element, decltype(cute::get<1>(TileShape_MNK_TAIL{})),
             decltype(cute::get<2>(TileShape_MNK_TAIL{}))>());
-            
+
     using SmemLayoutB_TAIL = decltype(
         tile_to_shape(SmemLayoutAtomB_TAIL{},
             make_shape(
-                shape<1>(TileShape_MNK_TAIL{}), 
-                shape<2>(TileShape_MNK_TAIL{}), 
+                shape<1>(TileShape_MNK_TAIL{}),
+                shape<2>(TileShape_MNK_TAIL{}),
                 Int<kStages>{})
             ));
     using SmemLayoutAtomC = decltype(
         cutlass::gemm::collective::detail::ss_smem_selector<
         GMMA::Major::K, ElementOutput,
-        decltype(cute::get<0>(TileShape_MNK{})), 
+        decltype(cute::get<0>(TileShape_MNK{})),
         decltype(cute::get<1>(TileShape_MNK{}))>());
 
     using SmemLayoutC = decltype(tile_to_shape(SmemLayoutAtomC{}, select<0, 1>(TileShape_MNK{})));
@@ -132,7 +132,7 @@ struct Kernel_traits {
 
     using MainloopPipeline = typename cutlass::PipelineTmaAsync<kStages>;
     using PipelineState = typename cutlass::PipelineState<kStages>;
-    
+
     static constexpr int kNumVecElem = ceil_div(128, sizeof_bits_v<OutputType>);
     static constexpr int kNumThreadsPerRow = kBlockN / kNumVecElem;
     static constexpr int kNumRows = NumMmaThreads / kNumThreadsPerRow;
@@ -148,4 +148,4 @@ struct Kernel_traits {
         TiledCopyCThrLayout{}, // Thr layout
         TiledCopyCValLayout{} // Val layout
     ));
-};
+};
@@ -40,7 +40,7 @@ struct CollectiveMainloopFwd {
     static constexpr int kBlockM = Ktraits::kBlockM;
     static constexpr int kBlockN = Ktraits::kBlockN;
     static constexpr int kBlockK = Ktraits::kBlockK;
-    static constexpr int NumCopyThreads = cutlass::NumThreadsPerWarpGroup;  
+    static constexpr int NumCopyThreads = cutlass::NumThreadsPerWarpGroup;
     static constexpr int kTiles = Ktraits::kTiles;
     static constexpr int NumMmaThreads = size(typename Ktraits::TiledMma{});
     static constexpr int TokenPackSize = Ktraits::TokenPackSize;
@@ -71,8 +71,8 @@ struct CollectiveMainloopFwd {
     using TMA_A = decltype(make_tma_copy(
         GmemTiledCopy{},
         make_tensor(
-            make_gmem_ptr(static_cast<Element const*>(nullptr)), 
-            WShapeT{}, 
+            make_gmem_ptr(static_cast<Element const*>(nullptr)),
+            WShapeT{},
             WStrideT{}
         ),
         SmemLayoutA{}(_, _, _0{}),
@@ -82,8 +82,8 @@ struct CollectiveMainloopFwd {
     using TMA_B = decltype(make_tma_copy(
         GmemTiledCopy{},
         make_tensor(
-            make_gmem_ptr(static_cast<Element const*>(nullptr)), 
-            ShapeT{}, 
+            make_gmem_ptr(static_cast<Element const*>(nullptr)),
+            ShapeT{},
             StrideT{}
         ),
         take<0, 2>(SmemLayoutB{}),
@@ -93,8 +93,8 @@ struct CollectiveMainloopFwd {
     using TMA_E = decltype(make_tma_copy(
         GmemTiledCopy{},
         make_tensor(
-            make_gmem_ptr(static_cast<uint32_t const*>(nullptr)), 
-            EShapeT{}, 
+            make_gmem_ptr(static_cast<uint32_t const*>(nullptr)),
+            EShapeT{},
             EStrideT{}
         ),
         SmemLayoutE{}(_, _, _0{}),
@@ -108,7 +108,7 @@ struct CollectiveMainloopFwd {
     static constexpr uint32_t TmaTransactionBytesA = static_cast<uint32_t>(size(take<0, 2>(SmemLayoutA{})) * cutlass::sizeof_bits_v<Element> / 8);
     static constexpr uint32_t TmaTransactionBytesB = static_cast<uint32_t>(size(take<0, 2>(SmemLayoutB{})) * cutlass::sizeof_bits_v<Element> / 8);
     static constexpr uint32_t TmaTransactionBytesE = static_cast<uint32_t>(size(take<0, 2>(SmemLayoutE{})) * cutlass::sizeof_bits_v<int> / 8);
-    
+
     struct Arguments {
         Element const* ptr_A;
         WLayoutT layout_A;
@@ -126,8 +126,8 @@ struct CollectiveMainloopFwd {
         WLayoutT layout_A;
         ELayoutT layout_E;
         LayoutT layout_B;
-        TMA_A tma_load_A; 
-        TMA_E tma_load_E;           
+        TMA_A tma_load_A;
+        TMA_E tma_load_E;
         TMA_B tma_load_B;
         const int *tokens;
         const float *weight_scale;
@@ -160,7 +160,7 @@ struct CollectiveMainloopFwd {
             size<0>(ClusterShape{}));
 
         return {args.layout_A, args.layout_E, args.layout_B,
-            tma_load_A, tma_load_E, tma_load_B, 
+            tma_load_A, tma_load_E, tma_load_B,
             args.tokens, args.weight_scale, args.ptr_C};
     }
 
@@ -200,7 +200,7 @@ struct CollectiveMainloopFwd {
         uint16_t *smem_c = reinterpret_cast<uint16_t *>(shared_storage.smem_c.data());
 
         uint32_t * reg_data = reinterpret_cast<uint32_t*>(tOrO_out.data());
-        
+
         cutlass::arch::NamedBarrier::sync(NumMmaThreads, 0);
 
         constexpr int k_copy_times = CUR_N / 16;
@@ -210,13 +210,13 @@ struct CollectiveMainloopFwd {
             uint32_t smem_ptr = cast_smem_ptr_to_uint(reinterpret_cast<uint128_t*>(smem_c + i * 16 * 128) + tidx);
             asm volatile (
                 "stmatrix.sync.aligned.x4.trans.m8n8.shared.b16 [%0], {%1, %2, %3, %4};\n"
-                :: "r"(smem_ptr), "r"(reg_data[4 * i + 0]), "r"(reg_data[4 * i + 2]), "r"(reg_data[4 * i + 1]), "r"(reg_data[4 * i + 3]));                  
+                :: "r"(smem_ptr), "r"(reg_data[4 * i + 0]), "r"(reg_data[4 * i + 2]), "r"(reg_data[4 * i + 1]), "r"(reg_data[4 * i + 3]));
         }
 
         cutlass::arch::NamedBarrier::sync(NumMmaThreads, 0);
         const int batch_idx = TokenPackSize == 0 ? pre_fix_tokens * M : bidb * M * TokenPackSize;
         ElementOutput * store_c = mainloop_params.ptr_C + batch_idx + bidn * (M * kBlockN) + bidm * kBlockM;
-        
+
         const int reamin_tokens = tokens - bidn * kBlockN;
 
         const int col = tidx % 2;
@@ -241,35 +241,35 @@ struct CollectiveMainloopFwd {
 
     template <typename MTensor>
     CUTLASS_DEVICE auto get_local_packed_tensor(
-        const MTensor &mB, 
+        const MTensor &mB,
         const int tokens,
         const int bidn) const {
 
         auto mB_this_batch = make_tensor(
-            mB.data(), 
+            mB.data(),
             make_layout(
-                cute::make_shape(tokens, size<1>(mB)), 
+                cute::make_shape(tokens, size<1>(mB)),
                 mB.stride()
             ));
         return local_tile(mB_this_batch, select<1, 2>(TileShape_MNK{}), make_coord(bidn, _));
     }
 
     template <typename MTensor>
     CUTLASS_DEVICE auto get_local_no_packed_tensor(
-        const MTensor &mB, 
+        const MTensor &mB,
         const int pre_fix_token,
         const int actual_token,
         const int bidn) const {
 
         auto g_offset = local_tile(
-            mB(_, _, 0), 
-            cute::make_shape(1, size<1>(mB)), 
+            mB(_, _, 0),
+            cute::make_shape(1, size<1>(mB)),
             make_coord(pre_fix_token, _0{}));
 
         auto g_tensor = make_tensor(
-            g_offset.data(), 
+            g_offset.data(),
             make_layout(
-                cute::make_shape(actual_token, size<1>(mB)), 
+                cute::make_shape(actual_token, size<1>(mB)),
                 g_offset.stride()
             ));
 
@@ -291,15 +291,15 @@ struct CollectiveMainloopFwd {
          const int bidn,
          const int bidb,
          const int tidx) {
-            
+
         Tensor sA = make_tensor(make_smem_ptr(shared_storage.smem_a.data()), SmemLayoutA{});
         Tensor sB = make_tensor(make_smem_ptr(shared_storage.smem_b.data()), SmemLayoutB{});
         Tensor sE = make_tensor(make_smem_ptr(shared_storage.smem_e.data()), SmemLayoutE{});
-    
+
         Tensor mA = mainloop_params.tma_load_A.get_tma_tensor(mainloop_params.layout_A.shape());
         Tensor mB = mainloop_params.tma_load_B.get_tma_tensor(mainloop_params.layout_B.shape());
         Tensor mE = mainloop_params.tma_load_E.get_tma_tensor(mainloop_params.layout_E.shape());
-        
+
         Tensor gA = local_tile(mA(_, _, _, bidm, bidb), select<0, 1>(Shape<Int<kBlockM / 2>, Int<kBlockK>>{}), make_coord(0,0,_));
 
         Tensor gE = local_tile(mE(_, _, _, bidm, bidb), select<0, 1>(Shape<Int<NumMmaThreads>, Int<kBlockK / 64>>{}), make_coord(0, 0));
@@ -313,7 +313,7 @@ struct CollectiveMainloopFwd {
 
         if constexpr (TokenPackSize == 0) {
             Tensor gB = get_local_no_packed_tensor(
-                mB, 
+                mB,
                 pre_fix_tokens,
                 tokens,
                 bidn);
@@ -351,9 +351,9 @@ struct CollectiveMainloopFwd {
             }
         } else {
             auto mB_this_batch = make_tensor(
-                mB(_, _, bidb).data(), 
+                mB(_, _, bidb).data(),
                 make_layout(
-                    cute::make_shape(tokens, size<1>(mB)), 
+                    cute::make_shape(tokens, size<1>(mB)),
                     mB.stride()
                 ));
             Tensor gB = local_tile(mB_this_batch, select<1, 2>(TileShape_MNK{}), make_coord(bidn, _));
@@ -396,11 +396,11 @@ struct CollectiveMainloopFwd {
     CUTLASS_DEVICE void
     mma(Params const& mainloop_params,
             MainloopPipeline pipeline,
-            PipelineState& smem_pipe_read,      
+            PipelineState& smem_pipe_read,
             SharedStorage& shared_storage,
             float *acc_s,
             const int tidx) {
-        
+
         using sMemBLayout = std::conditional_t<
             CUR_N == kBlockN,
             SmemLayoutB,
@@ -462,4 +462,3 @@ struct CollectiveMainloopFwd {
     }
 
 };
-
@@ -51,7 +51,7 @@ struct PackedHalf<cutlass::bfloat16_t> {
 
 template <class PointerType>
 __device__ GmmaDescriptor make_smem_desc(
-        PointerType smem_ptr, 
+        PointerType smem_ptr,
         int layout_type,
         int leading_byte_offset = 0,
         int stride_byte_offset = 1024) {
@@ -73,7 +73,7 @@ __forceinline__ __device__ static void gemm(uint64_t const& desc_a, uint64_t con
 
 template <typename Mma, int kBlockK, int NumMmaThreads, typename T>
 __forceinline__ __device__ void gemm(
-        const T * sA, 
+        const T * sA,
         const T * sB,
         float * acc_c,
         const uint32_t *E) {
@@ -97,4 +97,4 @@ __forceinline__ __device__ void gemm(
 
     warpgroup_commit_batch();
     warpgroup_wait<0>();
-}
+}