Fixed imports in lkauto.py, changed one function in get_default_configuration_space.py to use Datasets

Max · Max · commit a11bb9293bbe · 2025-05-26T20:02:50.000+02:00
diff --git a/lkauto/lkauto.py b/lkauto/lkauto.py
@@ -3,13 +3,13 @@
 
 from ConfigSpace import ConfigurationSpace
 
-from utils.get_model_from_cs import get_model_from_cs
-from optimization_strategies.bayesian_optimization import bayesian_optimization
-from optimization_strategies.random_search import random_search
-from utils.filer import Filer
-from ensemble.ensemble_builder import build_ensemble
-from preprocessing.preprocessing import preprocess_data
-from utils.logging import get_logger
+from lkauto.utils.get_model_from_cs import get_model_from_cs
+from lkauto.optimization_strategies.bayesian_optimization import bayesian_optimization
+from lkauto.optimization_strategies.random_search import random_search
+from lkauto.utils.filer import Filer
+from lkauto.ensemble.ensemble_builder import build_ensemble
+from lkauto.preprocessing.preprocessing import preprocess_data
+from lkauto.utils.logging import get_logger
 
 from lenskit.metrics import RMSE
 from lenskit.metrics import NDCG
diff --git a/lkauto/utils/validation_split.py b/lkauto/utils/validation_split.py
@@ -1,8 +1,10 @@
+from typing import Iterator
+
 import pandas as pd
 import numpy as np
 # from lenskit.crossfold import partition_rows
-from lenskit.splitting import crossfold_records
-from lenskit.data import from_interactions_df
+from lenskit.splitting import crossfold_records, crossfold_users, SampleFrac, TTSplit
+from lenskit.data import from_interactions_df, Dataset
 
 
 def validation_split(data: pd.DataFrame, strategie: str = 'user_based', num_folds: int = 1,
@@ -99,7 +101,8 @@ def row_based_validation_split(data: pd.DataFrame, num_folds: int = 1, frac: flo
     return fold_indices
 
 
-def user_based_validation_split(data: pd.DataFrame, num_folds: int = 1, frac: float = 0.25, random_state=42) -> dict:
+def user_based_validation_split(data: Dataset, num_folds: int = 1, frac: float = 0.25, random_state=42) -> Iterator[
+    TTSplit]:
     """
     Returns a dictionary with the indices of the train and validation split for the given data.
     The dictionary has the following structure:
@@ -131,6 +134,8 @@ def user_based_validation_split(data: pd.DataFrame, num_folds: int = 1, frac: fl
     dict
         dictionary with the indices of the train and validation split for the given data.
     """
+
+    """
     # initialize a dictionary with the indices of the train and validation split for the given data
     fold_indices = {i: {"train": np.array([]), "validation": np.array([])} for i in
                     range(num_folds)}
@@ -150,6 +155,12 @@ def user_based_validation_split(data: pd.DataFrame, num_folds: int = 1, frac: fl
                                                                    num_folds=num_folds)
 
     return fold_indices
+    """
+
+    splits = crossfold_users(data=data, partitions=num_folds, method=SampleFrac(0.25))
+
+    return splits
+
 
 
 def __holdout_validation_split(fold_indices: dict, data: pd.DataFrame, frac: float, random_state=42):
diff --git a/setup.py b/setup.py
@@ -16,7 +16,7 @@
         "swig",
         "smac==2.3.1",
         "matplotlib~=3.6",
-        "lenskit==2025.2.0",
+        "lenskit==2025.1.1",
         "numpy>=2.0.0",
         "tables~=3.8",
         "typing~=3.5"