JudgmentLabs · adivate2021 · May 20, 2025 · May 20, 2025 · May 20, 2025 · gemini-code-assist
diff --git a/src/demo/sequence_test.py b/src/demo/sequence_test.py
@@ -159,7 +159,7 @@ def generate_itinerary(destination, start_date, end_date):
     judgment.assert_test(
         project_name="travel_agent_demo",
         examples=[example],
-        scorers=[ToolOrderScorer(threshold=0.5)],
+        scorers=[ToolOrderScorer()],
         model="gpt-4.1-mini",
         function=generate_itinerary,
         tracer=tracer,

diff --git a/src/judgeval/data/example.py b/src/judgeval/data/example.py
@@ -8,6 +8,7 @@
 from pydantic import BaseModel, Field, field_validator
 from enum import Enum
 from datetime import datetime
+from judgeval.data.tool import Tool
 import time
 
 
@@ -31,7 +32,7 @@ class Example(BaseModel):
     retrieval_context: Optional[List[str]] = None
     additional_metadata: Optional[Dict[str, Any]] = None
     tools_called: Optional[List[str]] = None
-    expected_tools: Optional[List[Dict[str, Any]]] = None
+    expected_tools: Optional[List[Tool]] = None
     name: Optional[str] = None
     example_id: str = Field(default_factory=lambda: str(uuid4()))
     example_index: Optional[int] = None

diff --git a/src/judgeval/data/tool.py b/src/judgeval/data/tool.py
@@ -0,0 +1,19 @@
+from pydantic import BaseModel, field_validator
+from typing import Dict, Any, Optional
+import warnings
+
+class Tool(BaseModel):
+    tool_name: str
+    parameters: Optional[Dict[str, Any]] = None
+
+    @field_validator('tool_name')
+    def validate_tool_name(cls, v):
+        if not v:
+            warnings.warn("Tool name is empty or None", UserWarning)
+        return v
-    @field_validator('tool_name')
-    def validate_tool_name(cls, v):
-        if not v:
-            warnings.warn("Tool name is empty or None", UserWarning)
-        return v
+    @field_validator('tool_name')
+    def validate_tool_name(cls, v):
+        if not v:
+            raise ValueError("Tool name cannot be empty or None")
+        return v
-    @field_validator('tool_name')
-    def validate_tool_name(cls, v):
-        if not v:
-            warnings.warn("Tool name is empty or None", UserWarning)
-        return v
+    @field_validator('tool_name')
+    def validate_tool_name(cls, v):
+        if not v:
+            raise ValueError("Tool name cannot be empty or None")
+        return v
+
+    @field_validator('parameters')
+    def validate_parameters(cls, v):
+        if v is not None and not isinstance(v, dict):
+            warnings.warn(f"Parameters should be a dictionary, got {type(v)}", UserWarning)
+        return v
diff --git a/src/judgeval/data/trace.py b/src/judgeval/data/trace.py
@@ -1,6 +1,7 @@
 from pydantic import BaseModel
 from typing import Optional, Dict, Any, List
 from judgeval.evaluation_run import EvaluationRun
+from judgeval.data.tool import Tool
 import json
 from datetime import datetime, timezone
 
@@ -17,7 +18,7 @@ class TraceSpan(BaseModel):
     duration: Optional[float] = None
     annotation: Optional[List[Dict[str, Any]]] = None
     evaluation_runs: Optional[List[EvaluationRun]] = []
-    expected_tools: Optional[List[Dict[str, Any]]] = None
+    expected_tools: Optional[List[Tool]] = None
     additional_metadata: Optional[Dict[str, Any]] = None
 
     def model_dump(self, **kwargs):