District Data to Dataframe

- Added the district data provided at the edbuild website - Added code in loading_data.py to load the district data provided at the edbuild website to get around paying for Cost of Living Index Adjustments
KVSRoyal · Mar 29, 2019 · 1a6725e · 1a6725e
1 parent 9f874b8
commit 1a6725e
Show file tree

Hide file tree

Showing 6 changed files with 53 additions and 37 deletions.
diff --git a/.idea/dictionaries/Koriann.xml b/.idea/dictionaries/Koriann.xml
diff --git a/.idea/workspace.xml b/.idea/workspace.xml
diff --git a/funding_analysis/loading_data.py b/funding_analysis/loading_data.py
@@ -57,4 +57,13 @@
 assert len(relevant_raw_data_df.index) == 14325
 assert len(relevant_raw_data_df.columns) == 66
 
+
+# Load the district data values given in the original analysis
+edbuild_district_data_workbook_path = workbooks_directory_path.parents[0] / 'edbuild_district_data.xlsx'
+edbuild_district_data = pandas.read_excel(edbuild_district_data_workbook_path)
+
+# Do some shallow testing to verify everything went well
+assert len(edbuild_district_data.index) == 12944
+assert len(edbuild_district_data.columns) == 21
+
 print('SUCCESS: Sheets parsed as expected.')
diff --git a/funding_analysis/sampling.py b/funding_analysis/sampling.py
@@ -9,7 +9,8 @@
 relevant_raw_data_workbook_path = workbooks_directory_path / 'relevant_raw_data.xls'
 relevant_raw_data_df = pandas.read_excel(relevant_raw_data_workbook_path)
 
-def sample_column(variable):
+
+def select_column(variable):
     """
     Returns a pandas dataframe of all data for this variable / data item tag
     :param variable: The type of data item for which all available data is being sampled
@@ -18,7 +19,7 @@ def sample_column(variable):
     return relevant_raw_data_df[variable].to_frame()
 
 
-def sample_columns(variables):
+def select_columns(variables):
     """
     Returns a pandas dataframe of all data for the given list of variables / data item tags
     :param variables: A list of data items for which all available data is being sampled
@@ -27,5 +28,5 @@ def sample_columns(variables):
     return relevant_raw_data_df[variables]
 
 
-print(str(sample_column('CONUM')) + '\n')
-print(str(sample_columns(['NAME', 'TOTALREV'])) + '\n')
+print(str(select_column('CONUM')) + '\n')
+print(str(select_columns(['NAME', 'TOTALREV'])) + '\n')
diff --git a/resources/datademo.xls b/resources/datademo.xls
diff --git a/resources/edbuild_district_data.xlsx b/resources/edbuild_district_data.xlsx