add offline

luukunn · luukunn · commit 2b6fe1bdf611 · 2025-08-12T03:02:44.000+08:00
diff --git a/fastdeploy/engine/request.py b/fastdeploy/engine/request.py
@@ -41,6 +41,25 @@ class RequestType(Enum):
     PREEMPTED = 2
 
 
+class ToolCall:
+    """
+    Tool call.
+    """
+
+    id: str = None
+    type: Literal["function"] = "function"
+    function: FunctionCall
+
+
+class DeltaFunctionCall:
+    """
+    Delta function call.
+    """
+
+    name: Optional[str] = None
+    arguments: Optional[str] = None
+
+
 @dataclass
 class Request:
     def __init__(
@@ -249,6 +268,7 @@ class CompletionOutput:
     draft_token_ids: list[int] = None
     text: Optional[str] = None
     reasoning_content: Optional[str] = None
+    tool_calls: Optional[ToolCall] = None
 
     def to_dict(self):
         """
diff --git a/fastdeploy/entrypoints/llm.py b/fastdeploy/entrypoints/llm.py
@@ -28,6 +28,7 @@
 from fastdeploy.engine.args_utils import EngineArgs
 from fastdeploy.engine.engine import LLMEngine
 from fastdeploy.engine.sampling_params import SamplingParams
+from fastdeploy.entrypoints.openai.tool_parsers import ToolParserManager
 from fastdeploy.plugins.model_register import load_model_register_plugins
 from fastdeploy.utils import (
     deprecated_kwargs_warning,
@@ -79,6 +80,9 @@ def __init__(
 
         load_model_register_plugins()
         model = retrive_model_from_server(model, revision)
+        tool_parser_plugin = kwargs.get("tool_parser_plugin")
+        if tool_parser_plugin:
+            ToolParserManager.import_tool_parser(args.tool_parser_plugin)
         engine_args = EngineArgs(
             model=model,
             tokenizer=tokenizer,
diff --git a/fastdeploy/entrypoints/openai/serving_chat.py b/fastdeploy/entrypoints/openai/serving_chat.py
@@ -125,6 +125,7 @@ async def chat_completion_stream_generator(
         previous_num_tokens = 0
         num_prompt_tokens = 0
         num_choices = 1
+        tool_called = False
         max_streaming_response_tokens = (
             request.max_streaming_response_tokens
             if request.max_streaming_response_tokens is not None
@@ -227,6 +228,7 @@ async def chat_completion_stream_generator(
                     output = res["outputs"]
                     delta_text = output["text"]
                     output_top_logprobs = output["top_logprobs"]
+                    previous_num_tokens += len(output["token_ids"])
                     logprobs_res: Optional[LogProbs] = None
                     if request.logprobs and output_top_logprobs is not None:
                         logprobs_res = self._create_chat_logprobs(
@@ -236,17 +238,17 @@ async def chat_completion_stream_generator(
                         tool_delta_message = output["tool_delta_message"]
                         if tool_delta_message is None:
                             continue
-                        else:
-                            delta_message = tool_delta_message
+                        delta_message = tool_delta_message
+                        delta_message.reasoning_content = output.get("reasoning_content")
+                        tool_called = True
                     else:
                         delta_message = DeltaMessage(
-                        content=delta_text,
-                        reasoning_content=output.get("reasoning_content"),
-                        prompt_token_ids=None,
-                        completion_token_ids=None,
-                        tool_calls=None,
-                    )
-                    previous_num_tokens += len(output["token_ids"])
+                            content=delta_text,
+                            reasoning_content=output.get("reasoning_content"),
+                            prompt_token_ids=None,
+                            completion_token_ids=None,
+                            tool_calls=None,
+                        )
 
                     choice = ChatCompletionResponseStreamChoice(
                         index=0,
@@ -263,10 +265,7 @@ async def chat_completion_stream_generator(
                         max_tokens = request.max_completion_tokens or request.max_tokens
                         if has_no_token_limit or previous_num_tokens != max_tokens:
                             choice.finish_reason = "stop"
-                            if (
-                                self.engine_client.reasoning_parser == "ernie_x1"
-                                and output.get("finish_reason", "") == "tool_calls"
-                            ):
+                            if tool_called:
                                 choice.finish_reason = "tool_calls"
                         else:
                             choice.finish_reason = "length"
diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -245,6 +245,7 @@ async def completion_stream_generator(
             output_tokens = [0] * num_choices
             inference_start_time = [0] * num_choices
             first_iteration = [True] * num_choices
+            tool_called = False
             max_streaming_response_tokens = (
                 request.max_streaming_response_tokens
                 if request.max_streaming_response_tokens is not None
@@ -311,32 +312,42 @@ async def completion_stream_generator(
                     logprobs_res: Optional[CompletionLogprobs] = None
                     if request.logprobs and output_top_logprobs is not None:
                         logprobs_res = self._create_completion_logprobs(output_top_logprobs, request.logprobs, 0)
-
-                    choices.append(
-                        CompletionResponseStreamChoice(
+                    output_tokens[idx] += 1
+                    if self.engine_client.data_processor.tool_parser and not res["finished"]:
+                        tool_delta_message = output["tool_delta_message"]
+                        if tool_delta_message is None:
+                            continue
+                        delta_message = CompletionResponseStreamChoice(
+                            index=idx,
+                            text=output["text"],
+                            completion_token_ids=output.get("token_ids") if request.return_token_ids else None,
+                            tool_calls=delta_message.tool_calls,
+                            reasoning_content=output.get("reasoning_content"),
+                            arrival_time=arrival_time,
+                            logprobs=logprobs_res,
+                        )
+                        tool_called = True
+                    else:
+                        delta_message = CompletionResponseStreamChoice(
                             index=idx,
                             text=output["text"],
                             prompt_token_ids=None,
                             completion_token_ids=output.get("token_ids") if request.return_token_ids else None,
-                            tool_calls=output.get("tool_call_content"),
+                            tool_calls=None,
                             reasoning_content=output.get("reasoning_content"),
                             arrival_time=arrival_time,
                             logprobs=logprobs_res,
                         )
-                    )
+
+                    choices.append(delta_message)
                     if res["finished"]:
                         if request.max_tokens is None or output_tokens[idx] + 1 != request.max_tokens:
                             chunk.choices[0].finish_reason = "stop"
-                            if (
-                                self.engine_client.reasoning_parser == "ernie_x1"
-                                and output.get("finish_reason", "") == "tool_calls"
-                            ):
+                            if tool_called:
                                 chunk.choices[0].finish_reason = "tool_calls"
                         else:
                             chunk.choices[0].finish_reason = "length"
 
-                    output_tokens[idx] += 1
-
                     if len(choices) == max_streaming_response_tokens or res["finished"]:
                         chunk = CompletionStreamResponse(
                             id=request_id,
@@ -428,7 +439,7 @@ def request_output_to_completion_response(
                 prompt_token_ids=prompt_token_ids if request.return_token_ids else None,
                 completion_token_ids=completion_token_ids if request.return_token_ids else None,
                 reasoning_content=output.get("reasoning_content"),
-                tool_calls=output.get("tool_call_content"),
+                tool_calls=output.get("tool_call"),
                 logprobs=aggregated_logprobs,
                 finish_reason=None,
             )
diff --git a/fastdeploy/input/ernie_processor.py b/fastdeploy/input/ernie_processor.py
@@ -62,9 +62,10 @@ def __init__(self, model_name_or_path, reasoning_parser_obj=None, tool_parser_ob
         self.eos_token_id_len = len(self.eos_token_ids)
         self.pad_token_id = self.get_pad_id()
         self.reasoning_parser = None
-        self.tool_parser = tool_parser_obj
+        self.tool_parser_obj = tool_parser_obj
         if reasoning_parser_obj:
             self.reasoning_parser = reasoning_parser_obj(self.tokenizer)
+
     def _init_config(self):
         self.use_hf_tokenizer = int(envs.FD_USE_HF_TOKENIZER) == 1
 
@@ -205,6 +206,12 @@ def process_response(self, response_dict, **kwargs):
             response_dict.outputs.reasoning_content = reasoning_content
         else:
             response_dict.outputs.text = full_text
+        if self.tool_parser_obj:
+            tool_parser = self.tool_parser_obj(self.tokenizer)
+            tool_call_info = tool_parser.extract_tool_calls(full_text, response_dict)
+            if tool_call_info.tools_called:
+                response_dict.outputs.tool_calls = tool_call_info.tool_calls
+                response_dict.outputs.text = tool_call_info.content
         data_processor_logger.info(f"req_id:{req_id}, token)ids: {token_ids}")
         if response_dict.outputs.text == "" and response_dict.outputs.reasoning_content == "":
             return None
@@ -251,10 +258,9 @@ def process_response_dict_normal(self, response_dict, **kwargs):
                 response_dict["outputs"]["reasoning_content"] = reasoning_content
             else:
                 response_dict["outputs"]["text"] = full_text
-            if self.tool_parser:
-                tool_parser = self.tool_parser(self.tokenizer)
-                tool_call_info = tool_parser.extract_tool_calls(
-                    full_text, response_dict)
+            if self.tool_parser_obj:
+                tool_parser = self.tool_parser_obj(self.tokenizer)
+                tool_call_info = tool_parser.extract_tool_calls(full_text, response_dict)
                 if tool_call_info.tools_called:
                     response_dict["outputs"]["tool_call"] = tool_call_info.tool_calls
                     response_dict["outputs"]["text"] = tool_call_info.content
@@ -276,7 +282,6 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
         is_end = response_dict["finished"]
         req_id = response_dict["request_id"]
         token_ids = response_dict["outputs"]["token_ids"]
-            
 
         if is_end and len(token_ids) > 0 and not kwargs.get("include_stop_str_in_output"):
             if token_ids[-1] == self.tokenizer.eos_token_id:
@@ -295,9 +300,9 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
             response_dict["outputs"]["reasoning_content"] = reasoning_content
         else:
             response_dict["outputs"]["text"] = delta_text
-        if self.tool_parser:
+        if self.tool_parser_obj:
             if req_id not in self.tool_parsers:
-                self.tool_parsers[req_id] = self.tool_parser(self.tokenizer)
+                self.tool_parsers[req_id] = self.tool_parser_obj(self.tokenizer)
             tool_parser = self.tool_parsers[req_id]
             tool_call = tool_parser.extract_tool_calls_streaming(
                 previous_texts,
@@ -306,7 +311,7 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 previous_token_ids,
                 previous_token_ids + token_ids,
                 token_ids,
-                response_dict
+                response_dict,
             )
             response_dict["outputs"]["tool_delta_message"] = tool_call
         if is_end:
diff --git a/fastdeploy/input/text_processor.py b/fastdeploy/input/text_processor.py
@@ -181,7 +181,7 @@ def __init__(self, model_name_or_path, reasoning_parser_obj=None, tool_parser_ob
         self.eos_token_id_len = len(self.eos_token_ids)
         self.pad_token_id = self.get_pad_id()
         self.reasoning_parser = None
-        self.tool_parser = tool_parser_obj
+        self.tool_parser_obj = tool_parser_obj
         if reasoning_parser_obj:
             self.reasoning_parser = reasoning_parser_obj(self.tokenizer)
         self.tokenizer.pad_token_id = self.pad_token_id
@@ -330,6 +330,12 @@ def process_response(self, response_dict, **kwargs):
         else:
             # 模型不支持思考,并且没单独设置enable_thinking为false
             response_dict.outputs.text = full_text
+        if self.tool_parser_obj:
+            tool_parser = self.tool_parser_obj(self.tokenizer)
+            tool_call_info = tool_parser.extract_tool_calls(full_text, response_dict)
+            if tool_call_info.tools_called:
+                response_dict.outputs.tool_calls = tool_call_info.tool_calls
+                response_dict.outputs.text = tool_call_info.content
         data_processor_logger.info(f"req_id:{req_id}, token)ids: {token_ids}")
 
         return response_dict
@@ -360,10 +366,9 @@ def process_response_dict_normal(self, response_dict, **kwargs):
                 response_dict["outputs"]["reasoning_content"] = reasoning_content
             else:
                 response_dict["outputs"]["text"] = full_text
-            if self.tool_parser:
-                tool_parser = self.tool_parser(self.tokenizer)
-                tool_call_info = tool_parser.extract_tool_calls(
-                    full_text, response_dict)
+            if self.tool_parser_obj:
+                tool_parser = self.tool_parser_obj(self.tokenizer)
+                tool_call_info = tool_parser.extract_tool_calls(full_text, response_dict)
                 if tool_call_info.tools_called:
                     response_dict["outputs"]["tool_call"] = tool_call_info.tool_calls
                     response_dict["outputs"]["text"] = tool_call_info.content
@@ -404,9 +409,9 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
             response_dict["outputs"]["reasoning_content"] = reasoning_content
         else:
             response_dict["outputs"]["text"] = delta_text
-        if self.tool_parser and not is_end:
+        if self.tool_parser_obj and not is_end:
             if req_id not in self.tool_parsers:
-                self.tool_parsers[req_id] = self.tool_parser(self.tokenizer)
+                self.tool_parsers[req_id] = self.tool_parser_obj(self.tokenizer)
             tool_parser = self.tool_parsers[req_id]
             tool_call = tool_parser.extract_tool_calls_streaming(
                 previous_texts,
@@ -415,7 +420,7 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 previous_token_ids,
                 previous_token_ids + token_ids,
                 token_ids,
-                response_dict
+                response_dict,
             )
             response_dict["outputs"]["tool_delta_message"] = tool_call
         if is_end: