Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης

Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση, διαχείριση, αποθήκευση περιβαλλοντικών δεδομένων μεγάλου όγκου και εξαγωγή συμπερασμάτων, στο περιβάλλον Apache Spark. Αρχικά επιλέχθηκε ένα σύνολο δεδομένων μεγάλου όγκου με δεδομένα ποιότητας του αέρα της Μαδρίτης σε περίοδο 18 ετών (01/20...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κοροβίλα, Χριστίνα
Άλλοι συγγραφείς: Korovila, Christina
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/24678
id nemertes-10889-24678
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Διαχείριση δεδομένων μεγάλου όγκου
Τεχνικές μηχανικής μάθησης
Big data management
Apache Spark
Machine learning
spellingShingle Διαχείριση δεδομένων μεγάλου όγκου
Τεχνικές μηχανικής μάθησης
Big data management
Apache Spark
Machine learning
Κοροβίλα, Χριστίνα
Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
description Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση, διαχείριση, αποθήκευση περιβαλλοντικών δεδομένων μεγάλου όγκου και εξαγωγή συμπερασμάτων, στο περιβάλλον Apache Spark. Αρχικά επιλέχθηκε ένα σύνολο δεδομένων μεγάλου όγκου με δεδομένα ποιότητας του αέρα της Μαδρίτης σε περίοδο 18 ετών (01/2001-04/2018). Το σύνολο αυτό περιλαμβάνει δεδομένα μόλυνσης που περιέχουν τα στοιχεία BEN, CO, EBE, MXY, NMHC, NO_2, NOx, OXY, O_3, PM_10, PM_2.5, PXY, SO_2, TCH, TOL, την συγκέντρωση των οποίων κατέγραφαν ανά ώρα διάφοροι σταθμοί. Στην συνέχεια αφού έγινε ο "καθαρισμός" του συνόλου δεδομένων (απόρριψη ή κάλυψη κενών τιμών,εξομάλυνση ακραίων τιμών κ.α), υπολογίστηκε ο δείκτης ποιότητας αέρα (Air Quality Index-AQI) με βάση τα όρια της συγκέντρωσης κάθε στοιχείου. Το AQI, ή δείκτης ποιότητας αέρα, είναι ένα τυποποιημένο σύστημα που χρησιμοποιείται για τη μέτρηση και την αναφορά του επιπέδου της ατμοσφαιρικής ρύπανσης σε μια δεδομένη τοποθεσία. ́Εχει σχεδιαστεί για να παρέχει πληροφορίες σχετικά με τους κινδύνους για την υγεία που συνδέονται με διαφορετικά επίπεδα ατμοσφαιρικής ρύπανσης και να βοηθά τους ανθρώπους να αναλάβουν δράση για την προστασία της υγείας τους όταν η ποιότητα του αέρα είναι κακή (μολυσμένος). H κλίμακα AQI χωρίζεται σε έξι κατηγορίες που κυμαίνονται από "καλό" έως "επικίνδυνο". ́Επειτα, ακολούθησε η εκπαίδευση τριών μοντέλων παλινδρόμησης σε ένα μέρος των δεδομένων (χρονιά 2018). Τα αποτελέσματα δεν ήταν ιδιαίτερα καλά, οπότε σχεδιάστηκε εκ νέου ο δείκτης AQI. Με ζύγισμα των στοιχείων υπολογίσαμε το AQI με μεγαλύτερη ακρίβεια και πιο ορθά. Στη συνέχεια, έγινε εκπαίδευση των μοντέλων από την αρχή χρησιμοποιώντας αυτή την φορά όλα τα δεδομένα (από το 2001 έως το 2018). Τα αποτελέσματα ήταν αρκέτα ενθαρρυντικά με αρκετή βελτίωση στις μετρικές και ιδίως στο R² που έφτασε ακόμη και 0,94. Συνεπώς οι τεχνικές μηχανικής μάθησης που ακολουθήθηκαν ήταν πολύ αποδοτικότερες σε ένα μεγάλο σύνολο δεδομένων (1GB) παρά σε ένα μέρος του. Τέλος, η παρούσα διπλωματική θα μπορούσε να επεκταθεί περισσότερο με τεχνικές δειγματοληψίας, οι οποίες θα μπορούσαν να κάνουν ακόμα γρηγορότερη και πιο αποτελεσματική τη διαδικασία εκπαίδευσης, παίρνοντας δείγματα μόνο από τις τιμές που επηρεάζουν το δείκτη ποιότητας αέρα. Η συνεχής έρευνα και ανάπτυξη στον τομέα της ποιότητας του αέρα είναι ζωτικής σημασίας για την προστασία της υγείας του ανθρώπινου πληθυσμού και του περιβάλλοντος.
author2 Korovila, Christina
author_facet Korovila, Christina
Κοροβίλα, Χριστίνα
author Κοροβίλα, Χριστίνα
author_sort Κοροβίλα, Χριστίνα
title Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_short Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_full Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_fullStr Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_full_unstemmed Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_sort ανάλυση περιβαλλοντικών δεδομένων σε apache spark με τεχνικές μηχανικής μάθησης
publishDate 2023
url https://hdl.handle.net/10889/24678
work_keys_str_mv AT korobilachristina analysēperiballontikōndedomenōnseapachesparkmetechnikesmēchanikēsmathēsēs
AT korobilachristina environmentaldataanalysiswithmachinelearningtechniquesonapachespark
_version_ 1771297164436176896
spelling nemertes-10889-246782023-03-07T04:35:33Z Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης Environmental data analysis with machine learning techniques on Apache Spark Κοροβίλα, Χριστίνα Korovila, Christina Διαχείριση δεδομένων μεγάλου όγκου Τεχνικές μηχανικής μάθησης Big data management Apache Spark Machine learning Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση, διαχείριση, αποθήκευση περιβαλλοντικών δεδομένων μεγάλου όγκου και εξαγωγή συμπερασμάτων, στο περιβάλλον Apache Spark. Αρχικά επιλέχθηκε ένα σύνολο δεδομένων μεγάλου όγκου με δεδομένα ποιότητας του αέρα της Μαδρίτης σε περίοδο 18 ετών (01/2001-04/2018). Το σύνολο αυτό περιλαμβάνει δεδομένα μόλυνσης που περιέχουν τα στοιχεία BEN, CO, EBE, MXY, NMHC, NO_2, NOx, OXY, O_3, PM_10, PM_2.5, PXY, SO_2, TCH, TOL, την συγκέντρωση των οποίων κατέγραφαν ανά ώρα διάφοροι σταθμοί. Στην συνέχεια αφού έγινε ο "καθαρισμός" του συνόλου δεδομένων (απόρριψη ή κάλυψη κενών τιμών,εξομάλυνση ακραίων τιμών κ.α), υπολογίστηκε ο δείκτης ποιότητας αέρα (Air Quality Index-AQI) με βάση τα όρια της συγκέντρωσης κάθε στοιχείου. Το AQI, ή δείκτης ποιότητας αέρα, είναι ένα τυποποιημένο σύστημα που χρησιμοποιείται για τη μέτρηση και την αναφορά του επιπέδου της ατμοσφαιρικής ρύπανσης σε μια δεδομένη τοποθεσία. ́Εχει σχεδιαστεί για να παρέχει πληροφορίες σχετικά με τους κινδύνους για την υγεία που συνδέονται με διαφορετικά επίπεδα ατμοσφαιρικής ρύπανσης και να βοηθά τους ανθρώπους να αναλάβουν δράση για την προστασία της υγείας τους όταν η ποιότητα του αέρα είναι κακή (μολυσμένος). H κλίμακα AQI χωρίζεται σε έξι κατηγορίες που κυμαίνονται από "καλό" έως "επικίνδυνο". ́Επειτα, ακολούθησε η εκπαίδευση τριών μοντέλων παλινδρόμησης σε ένα μέρος των δεδομένων (χρονιά 2018). Τα αποτελέσματα δεν ήταν ιδιαίτερα καλά, οπότε σχεδιάστηκε εκ νέου ο δείκτης AQI. Με ζύγισμα των στοιχείων υπολογίσαμε το AQI με μεγαλύτερη ακρίβεια και πιο ορθά. Στη συνέχεια, έγινε εκπαίδευση των μοντέλων από την αρχή χρησιμοποιώντας αυτή την φορά όλα τα δεδομένα (από το 2001 έως το 2018). Τα αποτελέσματα ήταν αρκέτα ενθαρρυντικά με αρκετή βελτίωση στις μετρικές και ιδίως στο R² που έφτασε ακόμη και 0,94. Συνεπώς οι τεχνικές μηχανικής μάθησης που ακολουθήθηκαν ήταν πολύ αποδοτικότερες σε ένα μεγάλο σύνολο δεδομένων (1GB) παρά σε ένα μέρος του. Τέλος, η παρούσα διπλωματική θα μπορούσε να επεκταθεί περισσότερο με τεχνικές δειγματοληψίας, οι οποίες θα μπορούσαν να κάνουν ακόμα γρηγορότερη και πιο αποτελεσματική τη διαδικασία εκπαίδευσης, παίρνοντας δείγματα μόνο από τις τιμές που επηρεάζουν το δείκτη ποιότητας αέρα. Η συνεχής έρευνα και ανάπτυξη στον τομέα της ποιότητας του αέρα είναι ζωτικής σημασίας για την προστασία της υγείας του ανθρώπινου πληθυσμού και του περιβάλλοντος. The purpose of this thesis is to analyze, manage, store and draw conclusions from large-scale environmental data in the Apache Spark environment. Initially, a large dataset containing air quality data from Madrid over a period of 18 years (01/2001-04/2018) was selected. This dataset includes pollution data that contains: BEN, CO, EBE, MXY, NMHC, NO_2, NOx, OXY, O_3, PM_10, PM_2.5, PXY, SO_2, TCH, and TOL concentrations recorded hourly by various stations. After pre-processing the dataset (rejecting or covering empty values, smoothing extreme values, etc.), the Air Quality Index (AQI) was calculated based on the concentration limits of each element. The AQI is a standardized system used to measure and report the level of atmospheric pollution at a given location. It is designed to provide information on health risks associated with different levels of atmospheric pollution and to help people take action to protect their health when the air is unhealthy. The AQI scale is divided into six categories ranging from "good" to "hazardous". Then followed the training of three regression models on a subset of the data (year 2018). The results were not particularly good, so the AQI was redesigned. By weighting the components, we calculated the AQI with greater accuracy and correctness. Next, models were retrained but this time all the data were used (from 2001 to 2018). The results were quite encouraging with significant improvement in the metrics, specifically in R² which reached as high as 0.94. Therefore, machine learning techniques were more efficient on the large dataset (1GB) than on a subset of it. Finally, this thesis could be further expanded with sampling techniques, which could make thetraining process even faster and more effective by taking samples only from the values that affect the air quality index. Continuous research and development in the field of air quality is vital for protecting human’s health and environment. 2023-03-06T08:44:48Z 2023-03-06T08:44:48Z 2023-03-06 https://hdl.handle.net/10889/24678 el CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ application/pdf