support mooncake store dp attention (sgl-project#9684)

huangtingwei9988 · web-flow · commit 55349e361d7a · 2025-08-28T12:31:31.000+08:00
diff --git a/python/sglang/srt/managers/cache_controller.py b/python/sglang/srt/managers/cache_controller.py
@@ -636,6 +636,7 @@ def _mooncake_page_get(self, operation, hash_values, host_indices):
         key_strs, buffer_ptrs, buffer_sizes = self.mem_pool_host.get_buffer_meta(
             hash_values,
             host_indices,
+            self.storage_config.tp_rank,
         )
         get_result = self.storage_backend.batch_get(
             key_strs,
@@ -838,6 +839,7 @@ def _mooncake_page_set(self, hash_values, host_indices) -> bool:
         key_strs, buffer_ptrs, buffer_sizes = self.mem_pool_host.get_buffer_meta(
             hash_values,
             host_indices,
+            self.storage_config.tp_rank,
         )
         success = self.storage_backend.batch_set(
             key_strs,
diff --git a/python/sglang/srt/mem_cache/memory_pool_host.py b/python/sglang/srt/mem_cache/memory_pool_host.py
@@ -7,7 +7,6 @@
 import psutil
 import torch
 
-from sglang.srt.distributed import get_tensor_model_parallel_rank
 from sglang.srt.mem_cache.memory_pool import KVCache, MHATokenToKVPool, MLATokenToKVPool
 from sglang.srt.utils import is_npu
 
@@ -464,8 +463,7 @@ def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
         else:
             raise ValueError(f"Unsupported layout: {self.layout}")
 
-    def get_buffer_meta(self, keys, indices):
-        local_rank = get_tensor_model_parallel_rank()
+    def get_buffer_meta(self, keys, indices, local_rank):
         ptr_list = []
         key_list = []
         kv_buffer_data_ptr = self.kv_buffer.data_ptr()
@@ -704,7 +702,7 @@ def set_from_flat_data_page(self, index: int, data_page: torch.Tensor) -> None:
         else:
             raise ValueError(f"Unsupported layout: {self.layout}")
 
-    def get_buffer_meta(self, keys, indices):
+    def get_buffer_meta(self, keys, indices, local_rank):
         ptr_list = []
         key_list = []
         kv_buffer_data_ptr = self.kv_buffer.data_ptr()