Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark

Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε δι...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κεχαγιάς, Παναγιώτης
Άλλοι συγγραφείς: Kechagias, Panagiotis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13781
id nemertes-10889-13781
record_format dspace
spelling nemertes-10889-137812022-09-05T14:08:19Z Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark Design and development of a parallel clustering algorithm on top of Apache Spark Κεχαγιάς, Παναγιώτης Kechagias, Panagiotis Εξόρυξη δεδομένων Συσταδοποίηση DBSCAN Apache-spark Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε διαφορετικές ομάδες. Ένα από τα μεγαλύτερα προβλήματα σήμερα είναι ο αυξανόμενος αριθμός δεδομένων που πρέπει να αναλύσουμε. Με αυτήν τη διπλωματική εργασία, επιχειρείται να υλοποιηθεί ο DBSCAN, ένας γνωστός αλγόριθμος συσταδοποίησης, στην πλατφόρμα Apache Spark ώστε να είναι δυνατή η εκτέλεσή του σε ένα κατανεμημένο σύστημα με σκοπό να υπερκεραστούν τα προβλήματα των υπαρχόντων υλοποιήσεων όταν αυτές εφαρμόζονται σε δεδομένα μεγάλου όγκου. Αναλύονται οι αρχές λειτουργίας του DBSCAN και οι τροποποιήσεις που έγιναν καθώς και οι λόγους για τους οποίους ήταν απαραίτητες. Τέλος, εκτελείται μια σειρά πειραμάτων για την αξιολόγηση της απόδοσης του σε σύγκριση με άλλους αλγορίθμους συσταδοποίησης που παρέχονται από το Apache Spark όπως o GMM και ο K-means. Αναφέρονται επίσης οι περιορισμοί της προτεινόμενης προσέγγισής. Clustering is a common technique for data analysis, which is used in many fields, including machine learning, data mining, pattern recognition, image analysis and bioinformatics. Clustering is the process of grouping similar objects into different groups. One of the biggest problems nowadays is the increasing volume of data which must be analyzed. This thesis addresses the problem by implementing DBSCAN, a well-known clustering algorithm, using the Apache Spark framework in order to allow its execution on a computer cluster. This approach aims to overcome the issues state of the art implementations face when they deal with high volumes of data. The basic ideas of how DBSCAN works are presented and the proposed modifications are thoroughly explained along with the reasons they were necessary. Furthermore, a series of experiments are executed to evaluate the performance of the algorithm in comparison to other clustering algorithms which are provided by Spark such as GMM and K-means. Limitations of our approach are also discussed 2020-08-20T19:20:14Z 2020-08-20T19:20:14Z 2020-07-27 http://hdl.handle.net/10889/13781 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Εξόρυξη δεδομένων
Συσταδοποίηση
DBSCAN
Apache-spark
spellingShingle Εξόρυξη δεδομένων
Συσταδοποίηση
DBSCAN
Apache-spark
Κεχαγιάς, Παναγιώτης
Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
description Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε διαφορετικές ομάδες. Ένα από τα μεγαλύτερα προβλήματα σήμερα είναι ο αυξανόμενος αριθμός δεδομένων που πρέπει να αναλύσουμε. Με αυτήν τη διπλωματική εργασία, επιχειρείται να υλοποιηθεί ο DBSCAN, ένας γνωστός αλγόριθμος συσταδοποίησης, στην πλατφόρμα Apache Spark ώστε να είναι δυνατή η εκτέλεσή του σε ένα κατανεμημένο σύστημα με σκοπό να υπερκεραστούν τα προβλήματα των υπαρχόντων υλοποιήσεων όταν αυτές εφαρμόζονται σε δεδομένα μεγάλου όγκου. Αναλύονται οι αρχές λειτουργίας του DBSCAN και οι τροποποιήσεις που έγιναν καθώς και οι λόγους για τους οποίους ήταν απαραίτητες. Τέλος, εκτελείται μια σειρά πειραμάτων για την αξιολόγηση της απόδοσης του σε σύγκριση με άλλους αλγορίθμους συσταδοποίησης που παρέχονται από το Apache Spark όπως o GMM και ο K-means. Αναφέρονται επίσης οι περιορισμοί της προτεινόμενης προσέγγισής.
author2 Kechagias, Panagiotis
author_facet Kechagias, Panagiotis
Κεχαγιάς, Παναγιώτης
author Κεχαγιάς, Παναγιώτης
author_sort Κεχαγιάς, Παναγιώτης
title Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_short Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_full Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_fullStr Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_full_unstemmed Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_sort σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο apache spark
publishDate 2020
url http://hdl.handle.net/10889/13781
work_keys_str_mv AT kechagiaspanagiōtēs schediasmoskaianaptyxēparallēloualgorithmousystadopoiēsēsstoapachespark
AT kechagiaspanagiōtēs designanddevelopmentofaparallelclusteringalgorithmontopofapachespark
_version_ 1771297226638753792