5 vuotta sitten · c495030ed5
--- a/cdplib/FlattenData.py
+++ b/cdplib/FlattenData.py
@@ -20,23 +20,35 @@ class FlattenData():
 
				     def __init__(self):
			
 
				         self._log = Log("Flatten data")
			
 
				     
			
 
				-    def flatten(self, data):
			
 
				+    def flatten(self, data) -> pd.DataFrame():
			
 
				         '''
			
 
				         :parm data: data given in either dictionary, list or dataframe format.
			
 
				         '''
			
 
				 
			
 
				-        assert(isinstance(data, (list, dict, pd.DataFrame))),\
			
 
				+        assert(isinstance(data, (list, dict, pd.DataFrame, pd.Series))),\
			
 
				             "Parameter 'data' either be of List, Dictionary or DataFrame type"
			
 
				-
			
 
				+        in_length=0
			
 
				         start = time.time()
			
 
				         if type(data) is pd.DataFrame:
			
 
				+            in_length = len(data.columns)
			
 
				+            return_data = self.flatten_dataframe(data)
			
 
				+        elif type(data) is pd.Series:
			
 
				+            data = pd.DataFrame(data)
			
 
				+            in_length = len(data.columns)
			
 
				             return_data = self.flatten_dataframe(data)
			
 
				-            self._log.info(('Data has been flattened, created {} columns in {} seconds').format(len(return_data.columns)- len(data.columns), time.time()-start))
			
 
				-            return return_data
			
 
				-        if type(data) is dict:
			
 
				-            return self.flatten_dict(data)
			
 
				-        if type(data) is list:
			
 
				-            return self.flatten_list(data)
			
 
				+        elif type(data) is dict:
			
 
				+            in_length = len(data)
			
 
				+            return_data = self.flatten_dict(data)
			
 
				+        elif type(data) is list:
			
 
				+            in_length = len(data)
			
 
				+            return_data =  self.flatten_list(data)
			
 
				+        else:
			
 
				+            self._log.log_and_raise_warning(("Input data type '{}' is not supported").format(type(data)))
			
 
				+            return None
			
 
				+
			
 
				+        result_dataframe = pd.DataFrame.from_dict(return_data, orient='index')
			
 
				+        self._log.info(('Data has been flattened, created {} columns in {} seconds').format(len(result_dataframe.columns)- in_length, time.time()-start))
			
 
				+        return result_dataframe
			
 
				 
			
 
				     def flatten_dataframe(self, dataframe: pd.DataFrame, incoming_key: str = None):
			
 
				         '''
			
@@ -68,8 +80,7 @@ class FlattenData():
 
				 
			
 
				             result_dict[index] = copy.deepcopy(temp_result_dict)
			
 
				 
			
 
				-        result_dataframe = pd.DataFrame.from_dict(result_dict, orient='index')
			
 
				-        return result_dataframe
			
 
				+        return result_dict
			
 
				 
			
 
				     def flatten_dict(self, dictionary: dict, incoming_key: str = None):
			
 
				         '''
			
@@ -122,9 +133,7 @@ class FlattenData():
 
				             key = incoming_key
			
 
				             if incoming_key is not None:
			
 
				                 # OEBB SPECIFIC IF STATEMENT
			
 
				-                if type(data_list[iteration]) is dict:
			
 
				-                    if 'stationsnummer' in data_list[iteration].keys() and 'stage' in data_list[iteration].keys() :
			
 
				-
			
 
				+                if type(data_list[iteration]) is dict and 'stationsnummer' in data_list[iteration].keys() and 'stage' in data_list[iteration].keys() :
			
 
				                         key = incoming_key + '_' + str(data_list[iteration]['stationsnummer']) + '_' + str(data_list[iteration]['stage'])
			
 
				                 else:
			
 
				                     key = incoming_key + '_' + str(iteration)
			
--- a/cdplib/db_handlers/MongodbHandler.py
+++ b/cdplib/db_handlers/MongodbHandler.py
@@ -22,10 +22,10 @@ import numpy as np
 
				 sys.path.append(os.getcwd())
			
 
				 from cdplib.log import Log
			
 
				 from cdplib.db_migration.ParseJsonSchema import ParseJsonSchema
			
 
				+from cdplib.Singleton_Threadsafe import SingletonThreadsafe
			
 
				 
			
 
				-
			
 
				-#class MongodbHandlerPool(metaclass=SingletonThreadsafe):
			
 
				-class MongodbHandlerPool():
			
 
				+class MongodbHandlerPool(metaclass=SingletonThreadsafe):
			
 
				+#class MongodbHandlerPool():
			
 
				     '''
			
 
				     '''
			
 
				 
			
@@ -84,6 +84,13 @@ class MongodbHandler:
 
				 
			
 
				         self._database_name = database_name
			
 
				 
			
 
				+    def __del__(self):
			
 
				+        try:
			
 
				+            self._client.close()
			
 
				+        except Exception as e:
			
 
				+            self._log.log_and_raise_error(('An error occured when trying to dispose the SQL engine. Error: {}').format(e))
			
 
				+    
			
 
				+
			
 
				     def set_database(self, database_name: str):
			
 
				         '''
			
 
				         :param str database_name: Name of the database.
			
@@ -95,7 +102,6 @@ class MongodbHandler:
 
				             self._log.info(('Database: {} didnt exist, it will be created for you once a collection is created in it').format(database_name))
			
 
				         self._database = self._client[database_name]
			
 
				 
			
 
				-
			
 
				     def drop_database(self):
			
 
				         '''
			
 
				         '''
			
@@ -134,7 +140,7 @@ class MongodbHandler:
 
				             "Parameter 'direction' must be a string type"
			
 
				             
			
 
				         self._database[collection_name].create_index([(key, direction)], name=key)
			
 
				-        #collection.create_index([('field_i_want_to_index', pymongo.TEXT)], name='search_index', default_language='english')
			
 
				+        
			
 
				 
			
 
				     def set_collection_schema(self, collection_name: str, schema_path: str,
			
 
				                               validation_level: str = 'moderate',validation_action: str = 'error'):
			
@@ -246,20 +252,23 @@ class MongodbHandler:
 
				         self.set_collection_schema(collection_name=collection_name, schema_path=schema_path)
			
 
				 
			
 
				     def query_data_and_generate_dataframe(self, collection_name: str, attribute: str = None,
			
 
				-                                          attribute_value: str = None, comparison_operator: str = '$eq', index = None):
			
 
				+                                          attribute_value: str = None, comparison_operator: str = '$eq',
			
 
				+                                          index = None, return_as_dataframe: bool = True, return_id: bool = False):
			
 
				         '''
			
 
				 
			
 
				         '''
			
 
				         try:
			
 
				             if attribute == None or attribute_value == None:
			
 
				-                data = self._database[collection_name].find()
			
 
				+                data = self._database[collection_name].find({},{'_id': return_id})
			
 
				             else:
			
 
				-                data = self._database[collection_name].find({attribute: {comparison_operator: attribute_value}})
			
 
				+                data = self._database[collection_name].find({attribute: {comparison_operator: attribute_value}}, {'_id': return_id})
			
 
				 
			
 
				         except Exception as error:
			
 
				-            self._log.log_and_raise_error(('An error occured trying to query data from {}, with query {}: {}:{}. \nError:{}').format(collection_name, attribute_value, comparison_operator, attribute_value, error))
			
 
				-
			
 
				-        return self.convert_mongo_data_into_dataframe(data, index, collection_name)
			
 
				+            self._log.log_and_raise_error(('An error occured trying to query data from {}, with query {}: {}:{}. \nError:{}').format(collection_name, attribute, comparison_operator, attribute_value, error))
			
 
				+        if return_as_dataframe:
			
 
				+            return self.convert_mongo_data_into_dataframe(data, index, collection_name)
			
 
				+        else:
			
 
				+            return data
			
 
				 
			
 
				     def aggregate_data_and_generate_dataframe(self, collection_name: str, aggregation_pipeline: list, index: str = None):
			
 
				 
			
--- a/cdplib/db_handlers/SQLHandler.py
+++ b/cdplib/db_handlers/SQLHandler.py
@@ -19,11 +19,10 @@ from cdplib.log import Log
 
				 from cdplib.Singleton_Threadsafe import SingletonThreadsafe
			
 
				 
			
 
				 class SQLHandlerPool(metaclass=SingletonThreadsafe):
			
 
				-#class SQLHandlerPool():
			
 
				     '''
			
 
				     '''
			
 
				 
			
 
				-    def __init__(self, size: int = 1):
			
 
				+    def __init__(self, size: int = 20):
			
 
				         self._size = size
			
 
				         self._log = Log(name='SQLHandlerPool')
			
 
				         self._sql_handlers = [SQLHandler() for _ in range(size)]
			
@@ -34,9 +33,10 @@ class SQLHandlerPool(metaclass=SingletonThreadsafe):
 
				             self._log.warning("Ran out of SQL handlers, 10 more have been added. Are you sure you've returned yours?")
			
 
				         return self._sql_handlers.pop()
			
 
				 
			
 
				-    def release(self, mongodb_handler):
			
 
				+    def release(self, sql_handler):
			
 
				+        sql_handler._engine.dispose()
			
 
				         if len(self._sql_handlers) < self._size:
			
 
				-            self._sql_handlers.append(mongodb_handler)
			
 
				+            self._sql_handlers.append(sql_handler)
			
 
				 
			
 
				 class SQLHandler:
			
 
				     '''
			
@@ -104,6 +104,10 @@ class SQLHandler:
 
				 
			
 
				         self._engine = engine
			
 
				 
			
 
				+
			
 
				+    def __del__(self):
			
 
				+        self.dispose_engine()
			
 
				+
			
 
				     @property
			
 
				     def _connection_params(self) -> dict:
			
 
				         '''
			
@@ -501,6 +505,7 @@ class SQLHandler:
 
				         :rtype: DataFrame
			
 
				         '''
			
 
				         try:
			
 
				+            
			
 
				             connection = self._engine.connect()
			
 
				 
			
 
				             data = pd.read_sql(sql=query,
			
@@ -508,6 +513,7 @@ class SQLHandler:
 
				                                **read_sql_kwargs)
			
 
				 
			
 
				             connection.close()
			
 
				+           
			
 
				             return data
			
 
				 
			
 
				         except Exception as e:
			
@@ -628,3 +634,9 @@ class SQLHandler:
 
				                             diagram_path,
			
 
				                             schema=schema,
			
 
				                             include_tables=include_tables)
			
 
				+
			
 
				+    def dispose_engine(self):
			
 
				+        try:
			
 
				+            self._engine.dispose()
			
 
				+        except Exception as e:
			
 
				+            self._log.log_and_raise_error(('An error occured when trying to dispose the SQL engine. Error: {}').format(e))
			
--- a/cdplib/db_migration/DataFrameToCollection.py
+++ b/cdplib/db_migration/DataFrameToCollection.py
@@ -10,8 +10,10 @@ Created on Mon Jul 22 11:05:47 2019
 
				 """
			
 
				 
			
 
				 import pandas as pd
			
 
				+import numpy as np
			
 
				 import os
			
 
				 import sys
			
 
				+import time
			
 
				 
			
 
				 sys.path.append(os.getcwd())
			
 
				 
			
@@ -67,6 +69,7 @@ class DataFrameToCollection():
 
				          grp_fields and reshape it accordingly, the result is a pandas Series.
			
 
				          In the end all the series are collected and concatenated.
			
 
				         '''
			
 
				+
			
 
				         from copy import deepcopy
			
 
				 
			
 
				         data = self._melt_duplicated_columns(data)
			
@@ -77,7 +80,7 @@ class DataFrameToCollection():
 
				             schema = self.schema
			
 
				 
			
 
				         for field in schema["properties"]:
			
 
				-            
			
 
				+
			
 
				             if field not in self._unroll_nested_names(data.columns):
			
 
				                 continue
			
 
				 
			
@@ -90,8 +93,8 @@ class DataFrameToCollection():
 
				 
			
 
				                 # check that there is only one possible value of this field
			
 
				                 n_distinct_values = data.groupby(grp_fields, sort=False)[field].nunique().max()
			
 
				-                
			
 
				-                #n_distinct_valus can be 0 if the column only contains NaN values
			
 
				+
			
 
				+                # n_distinct_valus can be 0 if the column only contains NaN values
			
 
				                 if n_distinct_values > 1:
			
 
				                     err = "Field {0} is not unique with respect to {1}"\
			
 
				                           .format(field, grp_fields)
			
@@ -112,33 +115,34 @@ class DataFrameToCollection():
 
				             elif field_type == "object":
			
 
				 
			
 
				                 sub_schema = deepcopy(schema["properties"][field])
			
 
				-            
			
 
				+
			
 
				                 # rename sub-schema properties to match with data column names
			
 
				                 sub_schema["properties"] =\
			
 
				                     {".".join([field, k]): v for k, v
			
 
				                      in sub_schema["properties"].items()}
			
 
				-                
			
 
				+
			
 
				                 sub_data = self.to_list_of_documents(
			
 
				                             data=data,
			
 
				                             schema=sub_schema,
			
 
				                             grp_fields=grp_fields,
			
 
				                             _final_step=False)
			
 
				-                
			
 
				+
			
 
				                 # Need to be checked since child elements can be empty
			
 
				                 if sub_data is not None:
			
 
				+
			
 
				                     reshaped_field = sub_data.apply(self._make_dict, axis=1)
			
 
				                     reshaped_field.name = field
			
 
				-    
			
 
				+
			
 
				                     reshaped_fields.append(reshaped_field)
			
 
				 
			
 
				             # if field is a list of dictionaries
			
 
				             elif field_type == "array":
			
 
				-             
			
 
				+
			
 
				 
			
 
				                 items_type = schema["properties"][field]["items"]["bsonType"]
			
 
				 
			
 
				                 if items_type == "object":
			
 
				-
			
 
				+                    array_object = time.time()
			
 
				                     sub_schema = deepcopy(schema["properties"][field]["items"])
			
 
				 
			
 
				                     # rename sub-schema properties to match data column names
			
@@ -158,7 +162,7 @@ class DataFrameToCollection():
 
				 
			
 
				                         self._log.error(err)
			
 
				                         raise Exception(err)
			
 
				-                        
			
 
				+
			
 
				                     # group and reshape sub-fields with complex types
			
 
				                     sub_data = self.to_list_of_documents(
			
 
				                                 data=data,
			
@@ -173,16 +177,17 @@ class DataFrameToCollection():
 
				 
			
 
				                         sub_data.name = field
			
 
				                         sub_data = sub_data.reset_index(grp_fields)
			
 
				-
			
 
				+                        ######################################################
			
 
				+                        ######## OPTIMIZATIONS MAY BE POSSIBLE HERE ##########
			
 
				                         reshaped_field =\
			
 
				                             sub_data.groupby(grp_fields, sort=False)[field]\
			
 
				                                     .apply(self._make_list_of_distinct)
			
 
				-
			
 
				+                        ######################################################
			
 
				                         reshaped_fields.append(reshaped_field)
			
 
				 
			
 
				+
			
 
				                 # if field is a list of values with simple type
			
 
				                 elif items_type == "array":
			
 
				-
			
 
				                     grp_fields = [c for c in grp_fields if c in data.columns]
			
 
				 
			
 
				                     if field in data.columns:
			
@@ -191,7 +196,6 @@ class DataFrameToCollection():
 
				                                              .apply(self._make_list_of_distinct)
			
 
				 
			
 
				                         reshaped_fields.append(reshaped_field)
			
 
				-
			
 
				                 else:
			
 
				 
			
 
				                     grp_fields = [c for c in grp_fields if c in data.columns]
			
@@ -268,10 +272,22 @@ class DataFrameToCollection():
 
				          entries are arbitrary objects
			
 
				          (pandas unique() method does not work if entries are of complex types)
			
 
				         '''
			
 
				-        uniques = pd.DataFrame({"temp": x.tolist()})\
			
 
				-                    .assign(temp_str=lambda y: y["temp"].astype(str))\
			
 
				-                    .drop_duplicates(subset=["temp_str"])\
			
 
				-                    .drop("temp_str", axis=1).iloc[:, 0].tolist()
			
 
				+
			
 
				+
			
 
				+        if x.size == 1:
			
 
				+            uniques = x.tolist()
			
 
				+            '''
			
 
				+            if return_value == [{}]:
			
 
				+                return []
			
 
				+            return return_value
			
 
				+            '''
			
 
				+        else:
			
 
				+
			
 
				+            uniques = pd.DataFrame({"temp": x.values})\
			
 
				+                        .assign(temp_str=lambda y: y["temp"].astype(np.str))\
			
 
				+                        .drop_duplicates(subset=["temp_str"])\
			
 
				+                        .drop("temp_str", axis=1).iloc[:, 0].tolist()
			
 
				+
			
 
				 
			
 
				         def is_empty(y):
			
 
				             is_empty_dict = (isinstance(y, dict) and (len(y) == 0))
			
@@ -397,11 +413,3 @@ if __name__ == "__main__":
 
				                     data=df,
			
 
				                     schema=schm,
			
 
				                     grp_fields=grp_fields)
			
 
				-
			
 
				-    
			
 
				-    
			
 
				-    
			
 
				-    
			
 
				-    
			
 
				-    
			
 
				-    
			
--- a/cdplib/db_migration/MigrationCleaning.py
+++ b/cdplib/db_migration/MigrationCleaning.py
@@ -58,8 +58,8 @@ class MigrationCleaning:
 
				         self._mapping_path = mapping_path
			
 
				         self._schema_paths = schema_paths
			
 
				 
			
 
				-        from cdplib.db_handlers.SQLHandler import SQLHandlerPool
			
 
				-        self._sql_db = SQLHandlerPool(20)
			
 
				+        from cdplib.db_handlers.SQLHandler import SQLHandler
			
 
				+        self._sql_db = SQLHandler()
			
 
				 
			
 
				     def _assert_dataframe_input(self, data: pd.DataFrame):
			
 
				         '''
			
@@ -221,13 +221,10 @@ class MigrationCleaning:
 
				 
			
 
				         data = data.copy(deep=True)
			
 
				 
			
 
				-        #db = self._sql_db.aquire()
			
 
				-        from cdplib.db_handlers.SQLHandler import SQLHandler
			
 
				-        db = SQLHandler()
			
 
				+        db = self._sql_db
			
 
				 
			
 
				         if invalid_mask.sum() == 0:
			
 
				 
			
 
				-            #self._sql_db.release(db)
			
 
				             return data
			
 
				 
			
 
				         data_inconsist = data.assign(reason=reason)\
			
--- a/cdplib/unit_tests/TestFlattenData.py
+++ b/cdplib/unit_tests/TestFlattenData.py
@@ -2,6 +2,7 @@ import unittest
 
				 import sys
			
 
				 import os
			
 
				 import pandas as pd
			
 
				+from pprint import pprint
			
 
				 sys.path.append(os.getcwd())
			
 
				 from cdplib.log import Log
			
 
				 from cdplib.FlattenData import FlattenData
			
@@ -34,10 +35,10 @@ class TestMongodbHandler(unittest.TestCase):
 
				 
			
 
				         flattened_dict = self.flattener.flatten(nested_data_dict)
			
 
				         flattened_list = self.flattener.flatten(nested_data_list)
			
 
				-        flattened_df = self.flattener.flatten(nested_data_df)
			
 
				+        flattened_df = self.flattener.flatten(nested_data_df['two_levels']) 
			
 
				 
			
 
				-        self.assertEqual(nested_data_dict["two_levels"]["one_level"], flattened_dict['two_levels_one_level'])
			
 
				-        self.assertEqual(nested_data_dict["two_levels"]["one_level"], flattened_list['0_two_levels_one_level'])
			
 
				+        self.assertEqual(nested_data_dict["two_levels"]["one_level"], flattened_dict.loc['two_levels_one_level', 0])
			
 
				+        self.assertEqual(nested_data_dict["two_levels"]["one_level"], flattened_list.loc['0_two_levels_one_level', 0])
			
 
				         self.assertEqual(nested_data_dict["two_levels"]["one_level"], flattened_df.loc[0 , 'two_levels_one_level'])
			
 
				         
			
 
				 if __name__ == '__main__':
			
--- a/cdplib/unit_tests/TestMongodbHandler.py
+++ b/cdplib/unit_tests/TestMongodbHandler.py
@@ -81,7 +81,7 @@ class TestMongodbHandler(unittest.TestCase):
 
				         Fetch data and confirms thats it is the same as was entered into the database
			
 
				         Do the same with more specific query
			
 
				         '''
			
 
				-        self.assertEqual(self.mongodb_handler.query_data_and_generate_dataframe(self.first_collection_name).to_dict()['test_value_double'][0], self.valid_input['test_value_double'])
			
 
				+        self.assertEqual(self.mongodb_handler.query_data_and_generate_dataframe(self.first_collection_name).to_dict()['test_value_double'][0], self.valid_input['test_value_double'])git 
			
 
				         self.assertEqual(self.mongodb_handler.query_data_and_generate_dataframe(self.first_collection_name, 'test_value_string', 'test_value').to_dict()['test_value_double'][0], self.valid_input['test_value_double'])
			
 
				     
			
 
				     def test_F_aggregate_data_and_generate_dataframe(self):