Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης

Η ανάλυση περιβαλλοντικών δεδομένων συμβάλλει άμεσα στην κατανόηση των επιπτώσεων της ατμοσφαιρικής ρύπανσης, τόσο στην ανθρώπινη υγεία όσο και στο περιβάλλον. Με γνώμονα αυτές τις αναλύσεις μπορούν να διαμορφωθούν ενημερωμένες και επιστημονικά τεκμηριωμένες πολιτικές για την αντιμετώπιση περιβαλλον...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Βλάχου, Ελένη
Άλλοι συγγραφείς: Vlachou, Eleni
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25009
id nemertes-10889-25009
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Δειγματοληψία MCMC
Bayesian λογιστική παλινδρόμηση
Συμπέρασμα του Bayes
Ανάλυση περιβαλλοντικών δεδομένων
Δεδομένα μεγάλου όγκου
MCMC
Bayesian logistic regression
Bayesian inference
Apache Spark
Big data
Environmental data analysis
spellingShingle Δειγματοληψία MCMC
Bayesian λογιστική παλινδρόμηση
Συμπέρασμα του Bayes
Ανάλυση περιβαλλοντικών δεδομένων
Δεδομένα μεγάλου όγκου
MCMC
Bayesian logistic regression
Bayesian inference
Apache Spark
Big data
Environmental data analysis
Βλάχου, Ελένη
Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης
description Η ανάλυση περιβαλλοντικών δεδομένων συμβάλλει άμεσα στην κατανόηση των επιπτώσεων της ατμοσφαιρικής ρύπανσης, τόσο στην ανθρώπινη υγεία όσο και στο περιβάλλον. Με γνώμονα αυτές τις αναλύσεις μπορούν να διαμορφωθούν ενημερωμένες και επιστημονικά τεκμηριωμένες πολιτικές για την αντιμετώπιση περιβαλλοντικών ζητημάτων. Η παρούσα εργασία μελετά τη χρήση του περιβάλλοντος Apache Spark, της δειγματοληψίας MCMC και των μεθόδων μηχανικής μάθησης(ML) για την ανάλυση περιβαλλοντικών δεδομένων, συγκεκριμένα των συγκεντρώσεων ατμοσφαιρικών ρύπων στην πόλη της Μαδρίτης, από τον Ιανουάριο του 2001 έως τον Απρίλιο του 2018. Για την κατηγοριοποίηση του AQI σε «ασφαλές» ή «επικίνδυνο» χρησιμοποιείται Bayesian Logistic Regression με δειγματοληψία MCMC, ενώ το Apache Spark χρησιμοποιείται για την κλιμάκωση των προβλέψεων σε μεγαλύτερα σύνολα δεδομένων. Ενώ το κλασικό ML εξαρτάται από ένα σταθερό σύνολο παραμέτρων και προϋποθέτει πλήρη και ακριβή δεδομένα, το Bayesian ML ακολουθεί μια πιθανολογική προσέγγιση, συνδυάζοντας εκ των προτέρων πεποιθήσεις με τα δεδομένα που έχουν ήδη παρατηρηθεί, για τη δημιουργία μιας εκ των υστέρων κατανομής των παραμέτρων. Έτσι, επιτυγχάνεται πιο ισχυρή και ευέλικτη μοντελοποίηση και βελτιώνεται η ακρίβεια πρόβλεψης. Ποσοτικοποιεί επίσης την αβεβαιότητα των δεδομένων, στοιχείο σημαντικό για τη λήψη αποφάσεων υψηλής συνέπειας. Εδώ, το μοντέλο αρχικά εκπαιδεύεται χρησιμοποιώντας τα δεδομένα του 2017 και στη συνέχεια κάνει προβλέψεις στα δεδομένα δεκαοκταετιάς. Έπειτα, χρησιμοποιούνται τα ίδια δεδομένα την υλοποίηση Frequentist Logistic Regression σε Spark. Τα αποτελέσματα δείχνουν ότι τα Frequentist και Bayesian μοντέλα λογιστικής παλινδρόμησης εμφανίζουν παρόμοιες μετρικές για τα συγκεκριμένα δεδομένα, ωστόσο το Bayesian μοντέλο αποδίδει καλύτερα όσον αφορά τη μετρική "Recall/Specificity", με τιμές έως 0.9588. Συγκεκριμένα, επιστρέφει λιγότερα ψευδώς αρνητικά και θετικά αποτελέσματα, διασφαλίζοντας ότι το AQI δεν ταξινομείται λανθασμένα ως ασφαλές. Συμπεραίνεται επομένως ότι το Bayesian ML αποτελεί χρήσιμο εργαλείο για την ανάλυση περιβαλλοντικών δεδομένων, ιδίως σε περιπτώσεις λήψης αποφάσεων με υψηλή συνέπεια, όπου είναι απαραίτητο να λαμβάνεται υπόψη η αβεβαιότητα. Κλείνοντας, παρουσιάζονται προτάσεις για μελλοντική έρευνα, όπως είναι η περαιτέρω διερεύνηση των μοντέλων Bayesian μηχανικής μάθησης και η ανάπτυξη επεκτάσιμων αλγορίθμων για παράλληλη επεξεργασία. Η παρούσα εργασία τονίζει τη σημασία της ανάλυσης περιβαλλοντικών δεδομένων και αναδεικνύει τις δυνατότητες της Bayesian μηχανικής μάθησης και των τεχνολογιών μεγάλων δεδομένων στις δράσεις για την προστασία του περιβάλλοντος και της δημόσιας υγείας.
author2 Vlachou, Eleni
author_facet Vlachou, Eleni
Βλάχου, Ελένη
author Βλάχου, Ελένη
author_sort Βλάχου, Ελένη
title Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης
title_short Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης
title_full Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης
title_fullStr Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης
title_full_unstemmed Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης
title_sort ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον apache spark με mcmc τεχνικές δειγματοληψίας και μηχανικής μάθησης
publishDate 2023
url https://hdl.handle.net/10889/25009
work_keys_str_mv AT blachouelenē analysēperiballontikōndedomenōnseperiballonapachesparkmemcmctechnikesdeigmatolēpsiaskaimēchanikēsmathēsēs
AT blachouelenē environmentaldataanalysisinapachesparkwithmcmcsamplingandmachinelearningtechniques
_version_ 1771297170259968000
spelling nemertes-10889-250092023-05-31T03:35:29Z Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης Environmental data analysis in Apache Spark with MCMC sampling and machine learning techniques Βλάχου, Ελένη Vlachou, Eleni Δειγματοληψία MCMC Bayesian λογιστική παλινδρόμηση Συμπέρασμα του Bayes Ανάλυση περιβαλλοντικών δεδομένων Δεδομένα μεγάλου όγκου MCMC Bayesian logistic regression Bayesian inference Apache Spark Big data Environmental data analysis Η ανάλυση περιβαλλοντικών δεδομένων συμβάλλει άμεσα στην κατανόηση των επιπτώσεων της ατμοσφαιρικής ρύπανσης, τόσο στην ανθρώπινη υγεία όσο και στο περιβάλλον. Με γνώμονα αυτές τις αναλύσεις μπορούν να διαμορφωθούν ενημερωμένες και επιστημονικά τεκμηριωμένες πολιτικές για την αντιμετώπιση περιβαλλοντικών ζητημάτων. Η παρούσα εργασία μελετά τη χρήση του περιβάλλοντος Apache Spark, της δειγματοληψίας MCMC και των μεθόδων μηχανικής μάθησης(ML) για την ανάλυση περιβαλλοντικών δεδομένων, συγκεκριμένα των συγκεντρώσεων ατμοσφαιρικών ρύπων στην πόλη της Μαδρίτης, από τον Ιανουάριο του 2001 έως τον Απρίλιο του 2018. Για την κατηγοριοποίηση του AQI σε «ασφαλές» ή «επικίνδυνο» χρησιμοποιείται Bayesian Logistic Regression με δειγματοληψία MCMC, ενώ το Apache Spark χρησιμοποιείται για την κλιμάκωση των προβλέψεων σε μεγαλύτερα σύνολα δεδομένων. Ενώ το κλασικό ML εξαρτάται από ένα σταθερό σύνολο παραμέτρων και προϋποθέτει πλήρη και ακριβή δεδομένα, το Bayesian ML ακολουθεί μια πιθανολογική προσέγγιση, συνδυάζοντας εκ των προτέρων πεποιθήσεις με τα δεδομένα που έχουν ήδη παρατηρηθεί, για τη δημιουργία μιας εκ των υστέρων κατανομής των παραμέτρων. Έτσι, επιτυγχάνεται πιο ισχυρή και ευέλικτη μοντελοποίηση και βελτιώνεται η ακρίβεια πρόβλεψης. Ποσοτικοποιεί επίσης την αβεβαιότητα των δεδομένων, στοιχείο σημαντικό για τη λήψη αποφάσεων υψηλής συνέπειας. Εδώ, το μοντέλο αρχικά εκπαιδεύεται χρησιμοποιώντας τα δεδομένα του 2017 και στη συνέχεια κάνει προβλέψεις στα δεδομένα δεκαοκταετιάς. Έπειτα, χρησιμοποιούνται τα ίδια δεδομένα την υλοποίηση Frequentist Logistic Regression σε Spark. Τα αποτελέσματα δείχνουν ότι τα Frequentist και Bayesian μοντέλα λογιστικής παλινδρόμησης εμφανίζουν παρόμοιες μετρικές για τα συγκεκριμένα δεδομένα, ωστόσο το Bayesian μοντέλο αποδίδει καλύτερα όσον αφορά τη μετρική "Recall/Specificity", με τιμές έως 0.9588. Συγκεκριμένα, επιστρέφει λιγότερα ψευδώς αρνητικά και θετικά αποτελέσματα, διασφαλίζοντας ότι το AQI δεν ταξινομείται λανθασμένα ως ασφαλές. Συμπεραίνεται επομένως ότι το Bayesian ML αποτελεί χρήσιμο εργαλείο για την ανάλυση περιβαλλοντικών δεδομένων, ιδίως σε περιπτώσεις λήψης αποφάσεων με υψηλή συνέπεια, όπου είναι απαραίτητο να λαμβάνεται υπόψη η αβεβαιότητα. Κλείνοντας, παρουσιάζονται προτάσεις για μελλοντική έρευνα, όπως είναι η περαιτέρω διερεύνηση των μοντέλων Bayesian μηχανικής μάθησης και η ανάπτυξη επεκτάσιμων αλγορίθμων για παράλληλη επεξεργασία. Η παρούσα εργασία τονίζει τη σημασία της ανάλυσης περιβαλλοντικών δεδομένων και αναδεικνύει τις δυνατότητες της Bayesian μηχανικής μάθησης και των τεχνολογιών μεγάλων δεδομένων στις δράσεις για την προστασία του περιβάλλοντος και της δημόσιας υγείας. Environmental data analysis plays a vital role in comprehending the impact of pollution on both human health and the environment. Through the analysis of many large datasets, informed policies and strategies can be developed to tackle environmental concerns. This thesis explores the use of Apache Spark, MCMC sampling techniques and machine learning(ML) methods for environmental data analysis, specifically a dataset of air pollutant concentrations in Madrid from January 2001 to April 2018. Bayesian Logistic Regression with MCMC sampling are used to classify AQI safety categories into “safe” or “hazardous” and the Apache Spark environment is then used to scale up the analysis for larger datasets. Unlike traditional ML, which relies on a fixed set of parameters and assumes complete and accurate data, Bayesian machine learning uses a probabilistic approach to combine prior beliefs with observed data to produce a posterior distribution of parameters. This allows for more robust and flexible modeling, reduced overfitting and improved prediction accuracy. It also estimates uncertainty, present in real-world data, which is important in high-consequence decision-making. Here, the model is trained using a small data frame from 2017 and then tested on data from all eighteen years. Then, the same test and train sets are used to perform Frequentist Logistic regression in Spark. The results show that the frequentist and Bayesian logistic regression models have similar metrics for the specific data, however the Bayesian model performs better in terms of the recall/specificity metric. It predicts fewer false negatives and positives, making it more effective at identifying true negative values, thus ensuring that the AQI is not misclassified as safe. This suggests that Bayesian machine learning can be a useful tool for environmental data analysis, particularly in high-consequence decision-making scenarios where uncertainty needs to be taken into account. The thesis concludes by discussing potential future research, such as further exploration of Bayesian machine analysis and the development of scalable, parallel algorithms for big data analysis. Overall, this thesis emphasizes the importance of environmental data analysis and highlights the potential Bayesian machine learning and Apache Spark, for protecting the environment and public health. 2023-05-30T05:20:57Z 2023-05-30T05:20:57Z 2023-05 https://hdl.handle.net/10889/25009 el Attribution-NonCommercial 3.0 United States http://creativecommons.org/licenses/by-nc/3.0/us/ application/pdf