6 年之前 · 06500c09a2
--- a/dbscan_clustering.py
+++ b/dbscan_clustering.py
@@ -1,5 +1,7 @@
 
																 import numpy as np
															
 
																 import pandas
															
 
																+import csv
															
 
																+import order_bounding_boxes_in_each_block
															
 
																 from sklearn.cluster import DBSCAN
															
 
																 from sklearn import metrics
															
@@ -8,15 +10,15 @@ from sklearn.preprocessing import StandardScaler
 
																 def cluster(file_in, file_out):
															
 
																     # #############################################################################
															
 
																-    data_df = pandas.read_csv("values_fromhtml_GV12.csv", sep=",")
															
 
																+    data_df = pandas.read_csv("/home/bscheibel/PycharmProjects/dxf_reader/temporary/list_to_csv_with_avg_points.csv", sep=";")
															
 
																     data_df.head(3)
															
 
																-    data = data_df[["X1","Y1","X2","Y2"]]
															
 
																+    data = data_df[["xavg_elem","yavg_elem"]]
															
 
																     print(data)
															
 
																     data = StandardScaler().fit_transform(data)
															
 
																     # #############################################################################
															
 
																     # Compute DBSCAN
															
 
																-    db = DBSCAN(eps=0.2, min_samples=1).fit(data)
															
 
																+    db = DBSCAN(eps=0.1, min_samples=1).fit(data)
															
 
																     core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
															
 
																     core_samples_mask[db.core_sample_indices_] = True
															
 
																     labels = db.labels_
															
@@ -58,9 +60,37 @@ def cluster(file_in, file_out):
 
																     plt.title('Estimated number of clusters: %d' % n_clusters_)
															
 
																     plt.show()"""
															
 
																-    print(data_df.head(3))
															
 
																+    #print(data_df.head(3))
															
 
																     #data_df.to_csv("values_clusteredfromPDF_GV12.csv")
															
 
																-    data_df.groupby('cluster')['Text'].apply(' '.join).reset_index().to_csv("values_clusteredfromPDF_GV12.csv")
															
 
																+    data_df.groupby('cluster')['element'].apply(' '.join).reset_index().to_csv("values_clusteredfromHTML_layout_LH.csv", delimiter=";")
															
 
																+def get_average_xy(list_input):
															
 
																+    csv_name = "temporary/list_to_csv_with_avg_points.csv"
															
 
																+    new_list = []
															
 
																+    resultFile = open(csv_name, 'a')
															
 
																+    wr = csv.writer(resultFile, delimiter=";")
															
 
																+    wr.writerow(["element", "xavg_elem","yavg_elem"])
															
 
																+    for element in list_input:
															
 
																+        xavg_elem = 0
															
 
																+        yavg_elem = 0
															
 
																+        for blub in element:
															
 
																+            xavg_elem += (float(blub[0]) + float(blub[2]))/2
															
 
																+            yavg_elem += (float(blub[1]) + float(blub[3]))/2
															
 
																+        xavg_elem = xavg_elem/len(element)
															
 
																+        #print(xavg_elem)
															
 
																+        yavg_elem = yavg_elem/len(element)
															
 
																+        #element.extend([xavg_elem, yavg_elem])
															
 
																+        #print(element)
															
 
																+        #new_list.append(element)
															
 
																+        wr.writerow([element,xavg_elem,yavg_elem])
															
 
																+
															
 
																+    resultFile.close()
															
 
																+    #print(new_list)
															
 
																+    return csv_name
															
 
																+
															
 
																+
															
 
																+#cluster(33,33)
															
 
																+#result = order_bounding_boxes_in_each_block.get_bound_box()
															
 
																+#get_average_xy(result)
															
 
																 cluster(33,33)
															
--- a/drawings/5129275_Rev01-GV12.html
+++ b/drawings/5129275_Rev01-GV12.html
--- a/drawings/5152166_Rev04.html
+++ b/drawings/5152166_Rev04.html
--- a/order_bounding_boxes_in_each_block.py
+++ b/order_bounding_boxes_in_each_block.py
@@ -0,0 +1,50 @@
 
																+### FIRST READ EACH BLOCK IN AN ARRAY
															
 
																+
															
 
																+from bs4 import BeautifulSoup
															
 
																+
															
 
																+def get_bound_box():
															
 
																+    response = open('/home/bscheibel/PycharmProjects/dxf_reader/drawings/5152166_Rev04.html')
															
 
																+    html_doc = response.read()
															
 
																+    response.close()
															
 
																+    html_file = BeautifulSoup(html_doc, 'html.parser')
															
 
																+
															
 
																+    all_elements = []
															
 
																+    blocks = html_file.findAll('block')
															
 
																+    for block in blocks:
															
 
																+        list_elements = []
															
 
																+        words = block.findAll('word')
															
 
																+        for word in words:
															
 
																+            word_list = []
															
 
																+            word_list.append(word["xmin"])
															
 
																+            word_list.append(word["ymin"])
															
 
																+            word_list.append(word["xmax"])
															
 
																+            word_list.append(word["ymax"])
															
 
																+            word_list.append(word.string)
															
 
																+            list_elements.append(word_list)
															
 
																+        all_elements.append(list_elements)
															
 
																+
															
 
																+
															
 
																+    #### NEXT SORT ELEMENTS IN EACH BLOCK BY THEIR X AND Y COORDINATES
															
 
																+    #### FIRST TRYING XMIN und YMAX
															
 
																+    ###FIRST CHECKING IF THE ELEMENTS ARE VERTICAL, IF YES THEN NO SORTING
															
 
																+    new_all_elements = []
															
 
																+
															
 
																+    for element in all_elements:
															
 
																+        later_bigger = (float(element[-1][0])-(float(element[0][0]))) #check if xmin from first element is bigger than xmin from last element
															
 
																+        abstand_x = abs(float(element[-1][0])-(float(element[0][2])))
															
 
																+        abstand_y = abs(float(element[-1][3])-float(element[0][1]))
															
 
																+        if later_bigger >= -5:
															
 
																+            #print(abstand_x-abstand_y)
															
 
																+            new_all_elements.append(element)
															
 
																+        else:
															
 
																+            new_element = sorted(element, key=lambda k: [float(k[0])])
															
 
																+            new_all_elements.append(new_element)
															
 
																+
															
 
																+
															
 
																+    for element in new_all_elements:
															
 
																+        for blub in element:
															
 
																+            print(blub[4])
															
 
																+
															
 
																+        print("\n")
															
 
																+
															
 
																+    return new_all_elements
															
--- a/output.csv
+++ b/output.csv
--- a/read_from_clustered_merged.py
+++ b/read_from_clustered_merged.py
@@ -0,0 +1,7 @@
 
																+import csv
															
 
																+
															
 
																+
															
 
																+with open("/home/bscheibel/PycharmProjects/dxf_reader/values_clusteredfromHTML_layout_LH.csv", "r") as f:
															
 
																+    reader = csv.reader(f, delimiter=",")
															
 
																+    for row in reader:
															
 
																+        print(row[2])
															
--- a/temporary/list_to_csv_with_avg_points.csv
+++ b/temporary/list_to_csv_with_avg_points.csv
--- a/values_clusteredfromHTML_layout_LH.csv
+++ b/values_clusteredfromHTML_layout_LH.csv