mytkom · werag55 · Mar 31, 2025 · Mar 31, 2025
diff --git a/notebooks/experiments/synthetic_data/synthetic_data.ipynb b/notebooks/experiments/synthetic_data/synthetic_data.ipynb
diff --git a/src/data/dataset_interface.py b/src/data/dataset_interface.py
@@ -55,8 +55,6 @@ def preprocess_data(self, missing_values_strategy='mean', ratio=0.5):
                 f"Added {num_dummy_features} dummy features."
             )
 
-        self.standardize_data()
-
         return self
 
     def reduce_samples(self, num_samples=1000):
@@ -158,10 +156,23 @@ def standardize_data(self):
         """
         Standardize the dataset (mean=0, variance=1).
         """
-        scaler = StandardScaler()
-        self.data.data = pd.DataFrame(
-            scaler.fit_transform(self.data.data), columns=self.data.data.columns
-        )
+
+        if self.train_data is not None:
+            scaler = StandardScaler()
+            scaler.fit(self.train_data.data)
+            self.train_data.data = scaler.transform(self.train_data.data)
+            self.data.data = pd.DataFrame(
+                scaler.transform(self.data.data), columns=self.data.data.columns
+            )
+            if self.val_data.data is not None:
+                self.val_data.data = pd.DataFrame(
+                    scaler.transform(self.val_data.data), columns=self.val_data.data.columns
+                )
+            if self.test_data.data is not None:
+                self.test_data.data = pd.DataFrame(
+                    scaler.transform(self.test_data.data), columns=self.test_data.data.columns
+                )
+
         return self
 
     def convert2binary(self, strategy='default', in_labels=None, reset_index=True):

diff --git a/tests/data/test_dataset_interface.py b/tests/data/test_dataset_interface.py
@@ -165,17 +165,19 @@ def test_standardize_data():
     """Test standardizing the dataset."""
     data_interface = DataInterface()
     data_interface.data.data = pd.DataFrame({
-        'feature1': [1, 2, 3, 4],
-        'feature2': [5, 6, 7, 8]
+        'feature1': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
+        'feature2': [5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
     })
+    data_interface.data.labels = pd.Series([0, 1, 0, 1, 0, 1, 0, 1, 0, 1])
+    data_interface.split_data(test_size=0.2, val_size=0.2)
 
     data_interface.standardize_data()
 
-    print(f'Mean of each column:\n{data_interface.data.data.mean()}')
-    print(f'Standard deviation of each column:\n{data_interface.data.data.std()}')
+    print(f'Mean of each column:\n{data_interface.train_data.data.mean()}')
+    print(f'Standard deviation of each column:\n{data_interface.train_data.data.std()}')
 
-    assert np.allclose(data_interface.data.data.mean(), 0, atol=1e-7)
-    assert np.allclose(data_interface.data.data.std(ddof=0), 1, atol=1e-7)
+    assert np.allclose(data_interface.train_data.data.mean(), 0, atol=1e-7)
+    assert np.allclose(data_interface.train_data.data.std(ddof=0), 1, atol=1e-7)
 
 def test_split_data():
     """Test splitting data into train, test, and validation sets."""