Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης

Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση, διαχείριση, αποθήκευση περιβαλλοντικών δεδομένων μεγάλου όγκου και εξαγωγή συμπερασμάτων, στο περιβάλλον Apache Spark. Αρχικά επιλέχθηκε ένα σύνολο δεδομένων μεγάλου όγκου με δεδομένα ποιότητας του αέρα της Μαδρίτης σε περίοδο 18 ετών (01/20...

Full description

Bibliographic Details
Main Author:	Κοροβίλα, Χριστίνα
Other Authors:	Korovila, Christina
Language:	Greek
Published:	2023
Subjects:	Διαχείριση δεδομένων μεγάλου όγκου Τεχνικές μηχανικής μάθησης Big data management Apache Spark Machine learning
Online Access:	https://hdl.handle.net/10889/24678

id	nemertes-10889-24678
record_format	dspace
institution	UPatras
collection	Nemertes
language	Greek
topic	Διαχείριση δεδομένων μεγάλου όγκου Τεχνικές μηχανικής μάθησης Big data management Apache Spark Machine learning
spellingShingle	Διαχείριση δεδομένων μεγάλου όγκου Τεχνικές μηχανικής μάθησης Big data management Apache Spark Machine learning Κοροβίλα, Χριστίνα Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
description	Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση, διαχείριση, αποθήκευση περιβαλλοντικών δεδομένων μεγάλου όγκου και εξαγωγή συμπερασμάτων, στο περιβάλλον Apache Spark. Αρχικά επιλέχθηκε ένα σύνολο δεδομένων μεγάλου όγκου με δεδομένα ποιότητας του αέρα της Μαδρίτης σε περίοδο 18 ετών (01/2001-04/2018). Το σύνολο αυτό περιλαμβάνει δεδομένα μόλυνσης που περιέχουν τα στοιχεία BEN, CO, EBE, MXY, NMHC, NO_2, NOx, OXY, O_3, PM_10, PM_2.5, PXY, SO_2, TCH, TOL, την συγκέντρωση των οποίων κατέγραφαν ανά ώρα διάφοροι σταθμοί. Στην συνέχεια αφού έγινε ο "καθαρισμός" του συνόλου δεδομένων (απόρριψη ή κάλυψη κενών τιμών,εξομάλυνση ακραίων τιμών κ.α), υπολογίστηκε ο δείκτης ποιότητας αέρα (Air Quality Index-AQI) με βάση τα όρια της συγκέντρωσης κάθε στοιχείου. Το AQI, ή δείκτης ποιότητας αέρα, είναι ένα τυποποιημένο σύστημα που χρησιμοποιείται για τη μέτρηση και την αναφορά του επιπέδου της ατμοσφαιρικής ρύπανσης σε μια δεδομένη τοποθεσία. ́Εχει σχεδιαστεί για να παρέχει πληροφορίες σχετικά με τους κινδύνους για την υγεία που συνδέονται με διαφορετικά επίπεδα ατμοσφαιρικής ρύπανσης και να βοηθά τους ανθρώπους να αναλάβουν δράση για την προστασία της υγείας τους όταν η ποιότητα του αέρα είναι κακή (μολυσμένος). H κλίμακα AQI χωρίζεται σε έξι κατηγορίες που κυμαίνονται από "καλό" έως "επικίνδυνο". ́Επειτα, ακολούθησε η εκπαίδευση τριών μοντέλων παλινδρόμησης σε ένα μέρος των δεδομένων (χρονιά 2018). Τα αποτελέσματα δεν ήταν ιδιαίτερα καλά, οπότε σχεδιάστηκε εκ νέου ο δείκτης AQI. Με ζύγισμα των στοιχείων υπολογίσαμε το AQI με μεγαλύτερη ακρίβεια και πιο ορθά. Στη συνέχεια, έγινε εκπαίδευση των μοντέλων από την αρχή χρησιμοποιώντας αυτή την φορά όλα τα δεδομένα (από το 2001 έως το 2018). Τα αποτελέσματα ήταν αρκέτα ενθαρρυντικά με αρκετή βελτίωση στις μετρικές και ιδίως στο R² που έφτασε ακόμη και 0,94. Συνεπώς οι τεχνικές μηχανικής μάθησης που ακολουθήθηκαν ήταν πολύ αποδοτικότερες σε ένα μεγάλο σύνολο δεδομένων (1GB) παρά σε ένα μέρος του. Τέλος, η παρούσα διπλωματική θα μπορούσε να επεκταθεί περισσότερο με τεχνικές δειγματοληψίας, οι οποίες θα μπορούσαν να κάνουν ακόμα γρηγορότερη και πιο αποτελεσματική τη διαδικασία εκπαίδευσης, παίρνοντας δείγματα μόνο από τις τιμές που επηρεάζουν το δείκτη ποιότητας αέρα. Η συνεχής έρευνα και ανάπτυξη στον τομέα της ποιότητας του αέρα είναι ζωτικής σημασίας για την προστασία της υγείας του ανθρώπινου πληθυσμού και του περιβάλλοντος.
author2	Korovila, Christina
author_facet	Korovila, Christina Κοροβίλα, Χριστίνα
author	Κοροβίλα, Χριστίνα
author_sort	Κοροβίλα, Χριστίνα
title	Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_short	Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_full	Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_fullStr	Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_full_unstemmed	Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης
title_sort	ανάλυση περιβαλλοντικών δεδομένων σε apache spark με τεχνικές μηχανικής μάθησης
publishDate	2023
url	https://hdl.handle.net/10889/24678
work_keys_str_mv	AT korobilachristina analysēperiballontikōndedomenōnseapachesparkmetechnikesmēchanikēsmathēsēs AT korobilachristina environmentaldataanalysiswithmachinelearningtechniquesonapachespark
_version_	1771297164436176896
spelling	nemertes-10889-246782023-03-07T04:35:33Z Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης Environmental data analysis with machine learning techniques on Apache Spark Κοροβίλα, Χριστίνα Korovila, Christina Διαχείριση δεδομένων μεγάλου όγκου Τεχνικές μηχανικής μάθησης Big data management Apache Spark Machine learning Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάλυση, διαχείριση, αποθήκευση περιβαλλοντικών δεδομένων μεγάλου όγκου και εξαγωγή συμπερασμάτων, στο περιβάλλον Apache Spark. Αρχικά επιλέχθηκε ένα σύνολο δεδομένων μεγάλου όγκου με δεδομένα ποιότητας του αέρα της Μαδρίτης σε περίοδο 18 ετών (01/2001-04/2018). Το σύνολο αυτό περιλαμβάνει δεδομένα μόλυνσης που περιέχουν τα στοιχεία BEN, CO, EBE, MXY, NMHC, NO_2, NOx, OXY, O_3, PM_10, PM_2.5, PXY, SO_2, TCH, TOL, την συγκέντρωση των οποίων κατέγραφαν ανά ώρα διάφοροι σταθμοί. Στην συνέχεια αφού έγινε ο "καθαρισμός" του συνόλου δεδομένων (απόρριψη ή κάλυψη κενών τιμών,εξομάλυνση ακραίων τιμών κ.α), υπολογίστηκε ο δείκτης ποιότητας αέρα (Air Quality Index-AQI) με βάση τα όρια της συγκέντρωσης κάθε στοιχείου. Το AQI, ή δείκτης ποιότητας αέρα, είναι ένα τυποποιημένο σύστημα που χρησιμοποιείται για τη μέτρηση και την αναφορά του επιπέδου της ατμοσφαιρικής ρύπανσης σε μια δεδομένη τοποθεσία. ́Εχει σχεδιαστεί για να παρέχει πληροφορίες σχετικά με τους κινδύνους για την υγεία που συνδέονται με διαφορετικά επίπεδα ατμοσφαιρικής ρύπανσης και να βοηθά τους ανθρώπους να αναλάβουν δράση για την προστασία της υγείας τους όταν η ποιότητα του αέρα είναι κακή (μολυσμένος). H κλίμακα AQI χωρίζεται σε έξι κατηγορίες που κυμαίνονται από "καλό" έως "επικίνδυνο". ́Επειτα, ακολούθησε η εκπαίδευση τριών μοντέλων παλινδρόμησης σε ένα μέρος των δεδομένων (χρονιά 2018). Τα αποτελέσματα δεν ήταν ιδιαίτερα καλά, οπότε σχεδιάστηκε εκ νέου ο δείκτης AQI. Με ζύγισμα των στοιχείων υπολογίσαμε το AQI με μεγαλύτερη ακρίβεια και πιο ορθά. Στη συνέχεια, έγινε εκπαίδευση των μοντέλων από την αρχή χρησιμοποιώντας αυτή την φορά όλα τα δεδομένα (από το 2001 έως το 2018). Τα αποτελέσματα ήταν αρκέτα ενθαρρυντικά με αρκετή βελτίωση στις μετρικές και ιδίως στο R² που έφτασε ακόμη και 0,94. Συνεπώς οι τεχνικές μηχανικής μάθησης που ακολουθήθηκαν ήταν πολύ αποδοτικότερες σε ένα μεγάλο σύνολο δεδομένων (1GB) παρά σε ένα μέρος του. Τέλος, η παρούσα διπλωματική θα μπορούσε να επεκταθεί περισσότερο με τεχνικές δειγματοληψίας, οι οποίες θα μπορούσαν να κάνουν ακόμα γρηγορότερη και πιο αποτελεσματική τη διαδικασία εκπαίδευσης, παίρνοντας δείγματα μόνο από τις τιμές που επηρεάζουν το δείκτη ποιότητας αέρα. Η συνεχής έρευνα και ανάπτυξη στον τομέα της ποιότητας του αέρα είναι ζωτικής σημασίας για την προστασία της υγείας του ανθρώπινου πληθυσμού και του περιβάλλοντος. The purpose of this thesis is to analyze, manage, store and draw conclusions from large-scale environmental data in the Apache Spark environment. Initially, a large dataset containing air quality data from Madrid over a period of 18 years (01/2001-04/2018) was selected. This dataset includes pollution data that contains: BEN, CO, EBE, MXY, NMHC, NO_2, NOx, OXY, O_3, PM_10, PM_2.5, PXY, SO_2, TCH, and TOL concentrations recorded hourly by various stations. After pre-processing the dataset (rejecting or covering empty values, smoothing extreme values, etc.), the Air Quality Index (AQI) was calculated based on the concentration limits of each element. The AQI is a standardized system used to measure and report the level of atmospheric pollution at a given location. It is designed to provide information on health risks associated with different levels of atmospheric pollution and to help people take action to protect their health when the air is unhealthy. The AQI scale is divided into six categories ranging from "good" to "hazardous". Then followed the training of three regression models on a subset of the data (year 2018). The results were not particularly good, so the AQI was redesigned. By weighting the components, we calculated the AQI with greater accuracy and correctness. Next, models were retrained but this time all the data were used (from 2001 to 2018). The results were quite encouraging with significant improvement in the metrics, specifically in R² which reached as high as 0.94. Therefore, machine learning techniques were more efficient on the large dataset (1GB) than on a subset of it. Finally, this thesis could be further expanded with sampling techniques, which could make thetraining process even faster and more effective by taking samples only from the values that affect the air quality index. Continuous research and development in the field of air quality is vital for protecting human’s health and environment. 2023-03-06T08:44:48Z 2023-03-06T08:44:48Z 2023-03-06 https://hdl.handle.net/10889/24678 el CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ application/pdf

Ανάλυση περιβαλλοντικών δεδομένων σε Apache Spark με τεχνικές μηχανικής μάθησης

Similar Items