Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης

Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση, διαχείριση, αποθήκευση περιβαλλοντικών δεδομένων μεγάλου όγκου και εξαγωγή συμπερασμάτων, στο περιβάλλον Apache Spark. Αρχικά επιλέχθηκε ένα σύνολο δεδομένων μεγάλου όγκου με δεδομένα ποιότητας του αέρα της Μαδρίτης σε περίοδο 18 ετών (01/20...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κοροβίλα, Χριστίνα
Άλλοι συγγραφείς: Korovila, Christina
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/24678
Περιγραφή
Περίληψη:Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση, διαχείριση, αποθήκευση περιβαλλοντικών δεδομένων μεγάλου όγκου και εξαγωγή συμπερασμάτων, στο περιβάλλον Apache Spark. Αρχικά επιλέχθηκε ένα σύνολο δεδομένων μεγάλου όγκου με δεδομένα ποιότητας του αέρα της Μαδρίτης σε περίοδο 18 ετών (01/2001-04/2018). Το σύνολο αυτό περιλαμβάνει δεδομένα μόλυνσης που περιέχουν τα στοιχεία BEN, CO, EBE, MXY, NMHC, NO_2, NOx, OXY, O_3, PM_10, PM_2.5, PXY, SO_2, TCH, TOL, την συγκέντρωση των οποίων κατέγραφαν ανά ώρα διάφοροι σταθμοί. Στην συνέχεια αφού έγινε ο "καθαρισμός" του συνόλου δεδομένων (απόρριψη ή κάλυψη κενών τιμών,εξομάλυνση ακραίων τιμών κ.α), υπολογίστηκε ο δείκτης ποιότητας αέρα (Air Quality Index-AQI) με βάση τα όρια της συγκέντρωσης κάθε στοιχείου. Το AQI, ή δείκτης ποιότητας αέρα, είναι ένα τυποποιημένο σύστημα που χρησιμοποιείται για τη μέτρηση και την αναφορά του επιπέδου της ατμοσφαιρικής ρύπανσης σε μια δεδομένη τοποθεσία. ́Εχει σχεδιαστεί για να παρέχει πληροφορίες σχετικά με τους κινδύνους για την υγεία που συνδέονται με διαφορετικά επίπεδα ατμοσφαιρικής ρύπανσης και να βοηθά τους ανθρώπους να αναλάβουν δράση για την προστασία της υγείας τους όταν η ποιότητα του αέρα είναι κακή (μολυσμένος). H κλίμακα AQI χωρίζεται σε έξι κατηγορίες που κυμαίνονται από "καλό" έως "επικίνδυνο". ́Επειτα, ακολούθησε η εκπαίδευση τριών μοντέλων παλινδρόμησης σε ένα μέρος των δεδομένων (χρονιά 2018). Τα αποτελέσματα δεν ήταν ιδιαίτερα καλά, οπότε σχεδιάστηκε εκ νέου ο δείκτης AQI. Με ζύγισμα των στοιχείων υπολογίσαμε το AQI με μεγαλύτερη ακρίβεια και πιο ορθά. Στη συνέχεια, έγινε εκπαίδευση των μοντέλων από την αρχή χρησιμοποιώντας αυτή την φορά όλα τα δεδομένα (από το 2001 έως το 2018). Τα αποτελέσματα ήταν αρκέτα ενθαρρυντικά με αρκετή βελτίωση στις μετρικές και ιδίως στο R² που έφτασε ακόμη και 0,94. Συνεπώς οι τεχνικές μηχανικής μάθησης που ακολουθήθηκαν ήταν πολύ αποδοτικότερες σε ένα μεγάλο σύνολο δεδομένων (1GB) παρά σε ένα μέρος του. Τέλος, η παρούσα διπλωματική θα μπορούσε να επεκταθεί περισσότερο με τεχνικές δειγματοληψίας, οι οποίες θα μπορούσαν να κάνουν ακόμα γρηγορότερη και πιο αποτελεσματική τη διαδικασία εκπαίδευσης, παίρνοντας δείγματα μόνο από τις τιμές που επηρεάζουν το δείκτη ποιότητας αέρα. Η συνεχής έρευνα και ανάπτυξη στον τομέα της ποιότητας του αέρα είναι ζωτικής σημασίας για την προστασία της υγείας του ανθρώπινου πληθυσμού και του περιβάλλοντος.