Παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (Apache Spark)

Ένα από τα κύρια χαρακτηριστικά της εποχής μας είναι τα δεδομένα μεγάλου όγκου. Πλέον είναι εφικτό να συλλέγουμε πληροφορίες από πληθώρα πηγών: τα έξυπνα κινητά, και γενικότερα οι έξυπνες συσκευές, τα κοινωνικά δίκτυα και το σύστημα υγείας αποτελούν ένα μικρό τμήμα των δυνητικών πηγών δεδομένων. Με...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Αλεξόπουλος, Αθανάσιος
Άλλοι συγγραφείς: Μακρής, Χρήστος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2019
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12104
id nemertes-10889-12104
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μεγάλος όγκος δεδομένων
Ανάλυση κατηγοριοποίησης
Big data
Classification analysis
Apache Spark
Databricks community edition
Spark MlLib
Collaborative filtering
005.7
spellingShingle Μεγάλος όγκος δεδομένων
Ανάλυση κατηγοριοποίησης
Big data
Classification analysis
Apache Spark
Databricks community edition
Spark MlLib
Collaborative filtering
005.7
Αλεξόπουλος, Αθανάσιος
Παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (Apache Spark)
description Ένα από τα κύρια χαρακτηριστικά της εποχής μας είναι τα δεδομένα μεγάλου όγκου. Πλέον είναι εφικτό να συλλέγουμε πληροφορίες από πληθώρα πηγών: τα έξυπνα κινητά, και γενικότερα οι έξυπνες συσκευές, τα κοινωνικά δίκτυα και το σύστημα υγείας αποτελούν ένα μικρό τμήμα των δυνητικών πηγών δεδομένων. Με την αύξηση των δεδομένων προέκυψαν δύο σημαντικά προβλήματα: η αποθήκευση και η επεξεργασία τους. Προκειμένου να ξεπεραστεί το πρώτο πρόβλημα αναπτύχθηκαν τεχνικές οι οποίες επιτρέπουν τόσο την γρήγορη όσο και την αξιόπιστη αποθήκευση και αναζήτηση της πληροφορίας. Για το δεύτερο πρόβλημα αναπτύχθηκαν καινούρια προγραμματιστικά πλαίσια (frameworks) τα οποία επιτρέπουν την επεξεργασία των δεδομένων χρησιμοποιώντας συστάδες (clusters) υπολογιστών. Στην παρούσα διπλωματική εργασία, χρησιμοποιείται το προγραμματιστικό πλαίσιο Apache Spark το οποίο επιτρέπει την παράλληλη επεξεργασία δεδομένων. Για την υλοποίηση επιλέχθηκε η δωρεάν έκδοση του Databricks (Databricks community edition) η οποία παρέχει χώρο αποθήκευσης δεδομένων και διαθέσιμους πόρους για την επεξεργασία τους. Πραγματοποιήθηκαν δύο τύποι αναλύσεων: ανάλυση κατηγοριοποίησης (classification) και συνεργατικού φιλτραρίσματος (collaborative filtering). Στην ανάλυση κατηγοριοποίησης χρησιμοποιήθηκαν δύο σύνολα δεδομένων, ένα δυαδικό και ένα πολλαπλών κλάσεων εξόδου, στα οποία εφαρμόστηκε μία σειρά τεχνικών κατηγοριοποίησης, με σκοπό να συγκρίνουμε τις διάφορες τεχνικές κατηγοριοποίησης, να εξεταστεί η επεκτασιμότητα κάθε αλγορίθμου αλλά και να εξαχθούν συμπεράσματα ως προς την επίδραση των παραμέτρων της εκάστοτε τεχνικής. Για τις αναλύσεις χρησιμοποιήθηκε η βιβλιοθήκη Spark MlLib, η οποία παρέχεται από το framework Apache Spark και περιλαμβάνει υλοποιήσεις τεχνικών μηχανικής μάθησης βελτιστοποιημένες για κατανεμημένο περιβάλλον. Εκτός της τυπικής μεθοδολογίας κατηγοριοποίησης, πραγματοποιήθηκε μία σειρά αναλύσεων κατηγοριοποίησης δύο βημάτων, όπου στο πρώτο βήμα χρησιμοποιήθηκε μία αυτόματη μέθοδος για την εύρεση ενός υποσυνόλου των χαρακτηριστικών εισόδου και στη συνέχεια, χρησιμοποιώντας αυτό το υποσύνολο, επαναλήφθηκε η διαδικασία κατηγοριοποίησης. Σκοπός αυτής της διαδικασίας ήταν να μελετηθεί η επίδραση του αριθμού των χαρακτηριστικών τόσο στην ποιότητα των αποτελεσμάτων όσο και στον χρόνο εκτέλεσης. Στην ανάλυση collaborative filtering χρησιμοποιήθηκε ένα πραγματικό σύνολο δεδομένων που περιλαμβάνει βαθμολογήσεις ταινιών από χρήστες. Με βάση αυτό εξετάστηκε η επίδραση διαφόρων παραμέτρων του αλγορίθμου στην ποιότητα των τελικών αποτελεσμάτων αλλά και του χρόνου εκτέλεσής του. Για την υλοποίηση της διαδικασίας χρησιμοποιήθηκε και πάλι η βιβλιοθήκη Spark MlLib, ενώ επιπλέον εξήχθησαν προβλέψεις και για ένα νέο χρήστη.
author2 Μακρής, Χρήστος
author_facet Μακρής, Χρήστος
Αλεξόπουλος, Αθανάσιος
format Thesis
author Αλεξόπουλος, Αθανάσιος
author_sort Αλεξόπουλος, Αθανάσιος
title Παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (Apache Spark)
title_short Παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (Apache Spark)
title_full Παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (Apache Spark)
title_fullStr Παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (Apache Spark)
title_full_unstemmed Παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (Apache Spark)
title_sort παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (apache spark)
publishDate 2019
url http://hdl.handle.net/10889/12104
work_keys_str_mv AT alexopoulosathanasios parametrikēanalysēkatēgoriopoiēsēsclassificationkaicollaborativefilteringsekatanemēmenoperiballonapachespark
AT alexopoulosathanasios parametricclassificationanalysisandcollaborativefilteringindistributedcomputersystemsapachespark
_version_ 1771297303304339456
spelling nemertes-10889-121042022-09-05T20:45:37Z Παραμετρική ανάλυση κατηγοριοποίησης (classification) και collaborative filtering σε κατανεμημένο περιβάλλον (Apache Spark) Parametric classification analysis and collaborative filtering in distributed computer systems (Apache Spark) Αλεξόπουλος, Αθανάσιος Μακρής, Χρήστος Τσακαλίδης, Αθανάσιος Παυλίδης, Γεώργιος Alexopoulos, Athanasios Μεγάλος όγκος δεδομένων Ανάλυση κατηγοριοποίησης Big data Classification analysis Apache Spark Databricks community edition Spark MlLib Collaborative filtering 005.7 Ένα από τα κύρια χαρακτηριστικά της εποχής μας είναι τα δεδομένα μεγάλου όγκου. Πλέον είναι εφικτό να συλλέγουμε πληροφορίες από πληθώρα πηγών: τα έξυπνα κινητά, και γενικότερα οι έξυπνες συσκευές, τα κοινωνικά δίκτυα και το σύστημα υγείας αποτελούν ένα μικρό τμήμα των δυνητικών πηγών δεδομένων. Με την αύξηση των δεδομένων προέκυψαν δύο σημαντικά προβλήματα: η αποθήκευση και η επεξεργασία τους. Προκειμένου να ξεπεραστεί το πρώτο πρόβλημα αναπτύχθηκαν τεχνικές οι οποίες επιτρέπουν τόσο την γρήγορη όσο και την αξιόπιστη αποθήκευση και αναζήτηση της πληροφορίας. Για το δεύτερο πρόβλημα αναπτύχθηκαν καινούρια προγραμματιστικά πλαίσια (frameworks) τα οποία επιτρέπουν την επεξεργασία των δεδομένων χρησιμοποιώντας συστάδες (clusters) υπολογιστών. Στην παρούσα διπλωματική εργασία, χρησιμοποιείται το προγραμματιστικό πλαίσιο Apache Spark το οποίο επιτρέπει την παράλληλη επεξεργασία δεδομένων. Για την υλοποίηση επιλέχθηκε η δωρεάν έκδοση του Databricks (Databricks community edition) η οποία παρέχει χώρο αποθήκευσης δεδομένων και διαθέσιμους πόρους για την επεξεργασία τους. Πραγματοποιήθηκαν δύο τύποι αναλύσεων: ανάλυση κατηγοριοποίησης (classification) και συνεργατικού φιλτραρίσματος (collaborative filtering). Στην ανάλυση κατηγοριοποίησης χρησιμοποιήθηκαν δύο σύνολα δεδομένων, ένα δυαδικό και ένα πολλαπλών κλάσεων εξόδου, στα οποία εφαρμόστηκε μία σειρά τεχνικών κατηγοριοποίησης, με σκοπό να συγκρίνουμε τις διάφορες τεχνικές κατηγοριοποίησης, να εξεταστεί η επεκτασιμότητα κάθε αλγορίθμου αλλά και να εξαχθούν συμπεράσματα ως προς την επίδραση των παραμέτρων της εκάστοτε τεχνικής. Για τις αναλύσεις χρησιμοποιήθηκε η βιβλιοθήκη Spark MlLib, η οποία παρέχεται από το framework Apache Spark και περιλαμβάνει υλοποιήσεις τεχνικών μηχανικής μάθησης βελτιστοποιημένες για κατανεμημένο περιβάλλον. Εκτός της τυπικής μεθοδολογίας κατηγοριοποίησης, πραγματοποιήθηκε μία σειρά αναλύσεων κατηγοριοποίησης δύο βημάτων, όπου στο πρώτο βήμα χρησιμοποιήθηκε μία αυτόματη μέθοδος για την εύρεση ενός υποσυνόλου των χαρακτηριστικών εισόδου και στη συνέχεια, χρησιμοποιώντας αυτό το υποσύνολο, επαναλήφθηκε η διαδικασία κατηγοριοποίησης. Σκοπός αυτής της διαδικασίας ήταν να μελετηθεί η επίδραση του αριθμού των χαρακτηριστικών τόσο στην ποιότητα των αποτελεσμάτων όσο και στον χρόνο εκτέλεσης. Στην ανάλυση collaborative filtering χρησιμοποιήθηκε ένα πραγματικό σύνολο δεδομένων που περιλαμβάνει βαθμολογήσεις ταινιών από χρήστες. Με βάση αυτό εξετάστηκε η επίδραση διαφόρων παραμέτρων του αλγορίθμου στην ποιότητα των τελικών αποτελεσμάτων αλλά και του χρόνου εκτέλεσής του. Για την υλοποίηση της διαδικασίας χρησιμοποιήθηκε και πάλι η βιβλιοθήκη Spark MlLib, ενώ επιπλέον εξήχθησαν προβλέψεις και για ένα νέο χρήστη. One of the main characteristics of our time is the growth of the data collections, both regarding their complexity and their volume. We can collect data literally from everywhere: smart phones, smart devices, social media and health care systems define a small portion of the possible sources of big data. Such big growth poses two main difficulties: storing and processing them. In order to overcome those difficulties several techniques have been developed. For the former, there are certain new technologies that enable us not only to store, but also to retrieve the information in a fast and reliable manner. For the latter, new application frameworks have been developed that enable us to process big data using computer clusters. In the present thesis we used the Apache Spark framework, a state of the art framework for distributed data processing. As development environment we chose Databricks community edition, which provides the user with not only data storage but also computational resources to perform analysis. We performed two different types of analyses, classification analysis and collaborative filtering. In the former, we used two datasets, a binary and a multiclass. We performed a series of typical classification analysis at each one of them using the Spark MlLib, a machine learning library which is provided by Apache Spark and is optimized for distributer computing. Our main purpose was to examine the scalability of each algorithm and also to extract information regarding the impact of each technique’s parameters values. Part from the typical classification, we performed a series of two step classification analyses, in which at the first step we extracted a subset of the dataset characteristics, and using this dataset, we re-performed the classification analysis. Our goal was to examine the impact of the number of the characteristics in the metric’s value and time needed to complete the analysis. In the collaborative filtering analysis, we performed a realistic dataset containing movies’ ratings provided by a number of users. Using this dataset we examined the impact of the algorithm’s parameters in the quality of the final results. Again, we used the Spark MlLib implementation of the algorithm. Finally, we used the model we created to provide prediction for a new user. 2019-03-29T21:47:47Z 2019-03-29T21:47:47Z 2018-03-05 Thesis http://hdl.handle.net/10889/12104 gr 12 application/pdf