Merge pull request #170 from numerai/ndharasz/fix-ram-issues

ndharasz · web-flow · commit 96cf527c2d15 · 2025-04-15T11:27:28.000-07:00
decrease feature set sizes to work with google colab
diff --git a/example_model.ipynb b/example_model.ipynb
@@ -110,7 +110,10 @@
         "\n",
         "# Load data\n",
         "feature_metadata = json.load(open(f\"{DATA_VERSION}/features.json\"))\n",
-        "features = feature_metadata[\"feature_sets\"][\"medium\"] # use \"all\" for better performance. Requires more RAM.\n",
+        "features = feature_metadata[\"feature_sets\"][\"small\"]\n",
+        "# use \"medium\" or \"all\" for better performance. Requires more RAM.\n",
+        "# features = feature_metadata[\"feature_sets\"][\"medium\"]\n",
+        "# features = feature_metadata[\"feature_sets\"][\"all\"]\n",
         "train = pd.read_parquet(f\"{DATA_VERSION}/train.parquet\", columns=[\"era\"]+features+[\"target\"])\n",
         "\n",
         "# For better models, join train and validation data and train on all of it.\n",
diff --git a/feature_neutralization.ipynb b/feature_neutralization.ipynb
@@ -465,7 +465,7 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 3,
+      "execution_count": null,
       "metadata": {
         "colab": {
           "base_uri": "https://localhost:8080/"
@@ -484,8 +484,11 @@
       ],
       "source": [
         "# define the medium features and medium serenity features\n",
-        "medium_features = feature_sets[\"medium\"]\n",
-        "med_serenity_feats = list(subgroups[\"medium\"][\"serenity\"])\n",
+        "# use \"all\" for better performance. Requires more RAM.\n",
+        "feature_size = \"medium\"\n",
+        "# feature_size = \"all\"\n",
+        "medium_features = feature_sets[feature_size]\n",
+        "med_serenity_feats = list(subgroups[feature_size][\"serenity\"])\n",
         "\n",
         "# Download the training data and feature metadata\n",
         "napi.download_dataset(f\"{DATA_VERSION}/train.parquet\")\n",
diff --git a/hello_numerai.ipynb b/hello_numerai.ipynb
@@ -244,7 +244,7 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 5,
+      "execution_count": null,
       "metadata": {
         "colab": {
           "base_uri": "https://localhost:8080/"
@@ -265,7 +265,10 @@
         "import pandas as pd\n",
         "\n",
         "# Define our feature set\n",
-        "feature_set = feature_sets[\"medium\"]\n",
+        "feature_set = feature_sets[\"small\"]\n",
+        "# use \"medium\" or \"all\" for better performance. Requires more RAM.\n",
+        "# features = feature_metadata[\"feature_sets\"][\"medium\"]\n",
+        "# features = feature_metadata[\"feature_sets\"][\"all\"]\n",
         "\n",
         "# Download the training data - this will take a few minutes\n",
         "napi.download_dataset(f\"{DATA_VERSION}/train.parquet\")\n",
diff --git a/target_ensemble.ipynb b/target_ensemble.ipynb
@@ -61,7 +61,7 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 2,
+      "execution_count": null,
       "metadata": {
         "colab": {
           "base_uri": "https://localhost:8080/",
@@ -747,7 +747,10 @@
         "\n",
         "# Load data\n",
         "feature_metadata = json.load(open(f\"{DATA_VERSION}/features.json\"))\n",
-        "feature_cols = feature_metadata[\"feature_sets\"][\"medium\"]\n",
+        "feature_cols = feature_metadata[\"feature_sets\"][\"small\"]\n",
+        "# use \"medium\" or \"all\" for better performance. Requires more RAM.\n",
+        "# features = feature_metadata[\"feature_sets\"][\"medium\"]\n",
+        "# features = feature_metadata[\"feature_sets\"][\"all\"]\n",
         "target_cols = feature_metadata[\"targets\"]\n",
         "train = pd.read_parquet(\n",
         "    f\"{DATA_VERSION}/train.parquet\",\n",
diff --git a/utils.py b/utils.py
@@ -1,5 +1,5 @@
 #
-# This code is soft-deprecated. It is recommended that you use
+# This code is deprecated. It is recommended that you use
 # the numerai-tools package instead:
 # https://github.com/numerai/numerai-tools
 #
@@ -316,27 +316,27 @@ def validation_metrics(
                 lambda d: d[feature_cols].corrwith(d[pred_col]).abs().max()
             )
             max_feature_exposure = max_per_era.mean()
-            validation_stats.loc[
-                "max_feature_exposure", pred_col
-            ] = max_feature_exposure
+            validation_stats.loc["max_feature_exposure", pred_col] = (
+                max_feature_exposure
+            )
 
             # Check feature neutral mean
             feature_neutral_mean = get_feature_neutral_mean(
                 validation_data, pred_col, target_col, features_for_neutralization
             )
-            validation_stats.loc[
-                "feature_neutral_mean", pred_col
-            ] = feature_neutral_mean
+            validation_stats.loc["feature_neutral_mean", pred_col] = (
+                feature_neutral_mean
+            )
 
             # Check TB200 feature neutral mean
             tb200_feature_neutral_mean_era = validation_data.groupby(ERA_COL).apply(
                 lambda df: get_feature_neutral_mean_tb_era(
                     df, pred_col, target_col, 200, features_for_neutralization
                 )
             )
-            validation_stats.loc[
-                "tb200_feature_neutral_mean", pred_col
-            ] = tb200_feature_neutral_mean_era.mean()
+            validation_stats.loc["tb200_feature_neutral_mean", pred_col] = (
+                tb200_feature_neutral_mean_era.mean()
+            )
 
             # Check top and bottom 200 metrics (TB200)
             tb200_validation_correlations = fast_score_by_date(
@@ -372,9 +372,9 @@ def validation_metrics(
             lambda d: unif(d[pred_col]).corr(unif(d[example_col]))
         )
         corr_with_example_preds = per_era_corrs.mean()
-        validation_stats.loc[
-            "corr_with_example_preds", pred_col
-        ] = corr_with_example_preds
+        validation_stats.loc["corr_with_example_preds", pred_col] = (
+            corr_with_example_preds
+        )
 
         # Check exposure dissimilarity per era
         tdf = validation_data.groupby(ERA_COL).apply(