Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark

Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε δι...

Full description

Bibliographic Details
Main Author:	Κεχαγιάς, Παναγιώτης
Other Authors:	Kechagias, Panagiotis
Language:	Greek
Published:	2020
Subjects:	Εξόρυξη δεδομένων Συσταδοποίηση DBSCAN Apache-spark
Online Access:	http://hdl.handle.net/10889/13781

id	nemertes-10889-13781
record_format	dspace
spelling	nemertes-10889-137812022-09-05T14:08:19Z Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark Design and development of a parallel clustering algorithm on top of Apache Spark Κεχαγιάς, Παναγιώτης Kechagias, Panagiotis Εξόρυξη δεδομένων Συσταδοποίηση DBSCAN Apache-spark Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε διαφορετικές ομάδες. Ένα από τα μεγαλύτερα προβλήματα σήμερα είναι ο αυξανόμενος αριθμός δεδομένων που πρέπει να αναλύσουμε. Με αυτήν τη διπλωματική εργασία, επιχειρείται να υλοποιηθεί ο DBSCAN, ένας γνωστός αλγόριθμος συσταδοποίησης, στην πλατφόρμα Apache Spark ώστε να είναι δυνατή η εκτέλεσή του σε ένα κατανεμημένο σύστημα με σκοπό να υπερκεραστούν τα προβλήματα των υπαρχόντων υλοποιήσεων όταν αυτές εφαρμόζονται σε δεδομένα μεγάλου όγκου. Αναλύονται οι αρχές λειτουργίας του DBSCAN και οι τροποποιήσεις που έγιναν καθώς και οι λόγους για τους οποίους ήταν απαραίτητες. Τέλος, εκτελείται μια σειρά πειραμάτων για την αξιολόγηση της απόδοσης του σε σύγκριση με άλλους αλγορίθμους συσταδοποίησης που παρέχονται από το Apache Spark όπως o GMM και ο K-means. Αναφέρονται επίσης οι περιορισμοί της προτεινόμενης προσέγγισής. Clustering is a common technique for data analysis, which is used in many fields, including machine learning, data mining, pattern recognition, image analysis and bioinformatics. Clustering is the process of grouping similar objects into different groups. One of the biggest problems nowadays is the increasing volume of data which must be analyzed. This thesis addresses the problem by implementing DBSCAN, a well-known clustering algorithm, using the Apache Spark framework in order to allow its execution on a computer cluster. This approach aims to overcome the issues state of the art implementations face when they deal with high volumes of data. The basic ideas of how DBSCAN works are presented and the proposed modifications are thoroughly explained along with the reasons they were necessary. Furthermore, a series of experiments are executed to evaluate the performance of the algorithm in comparison to other clustering algorithms which are provided by Spark such as GMM and K-means. Limitations of our approach are also discussed 2020-08-20T19:20:14Z 2020-08-20T19:20:14Z 2020-07-27 http://hdl.handle.net/10889/13781 gr application/pdf
institution	UPatras
collection	Nemertes
language	Greek
topic	Εξόρυξη δεδομένων Συσταδοποίηση DBSCAN Apache-spark
spellingShingle	Εξόρυξη δεδομένων Συσταδοποίηση DBSCAN Apache-spark Κεχαγιάς, Παναγιώτης Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
description	Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε διαφορετικές ομάδες. Ένα από τα μεγαλύτερα προβλήματα σήμερα είναι ο αυξανόμενος αριθμός δεδομένων που πρέπει να αναλύσουμε. Με αυτήν τη διπλωματική εργασία, επιχειρείται να υλοποιηθεί ο DBSCAN, ένας γνωστός αλγόριθμος συσταδοποίησης, στην πλατφόρμα Apache Spark ώστε να είναι δυνατή η εκτέλεσή του σε ένα κατανεμημένο σύστημα με σκοπό να υπερκεραστούν τα προβλήματα των υπαρχόντων υλοποιήσεων όταν αυτές εφαρμόζονται σε δεδομένα μεγάλου όγκου. Αναλύονται οι αρχές λειτουργίας του DBSCAN και οι τροποποιήσεις που έγιναν καθώς και οι λόγους για τους οποίους ήταν απαραίτητες. Τέλος, εκτελείται μια σειρά πειραμάτων για την αξιολόγηση της απόδοσης του σε σύγκριση με άλλους αλγορίθμους συσταδοποίησης που παρέχονται από το Apache Spark όπως o GMM και ο K-means. Αναφέρονται επίσης οι περιορισμοί της προτεινόμενης προσέγγισής.
author2	Kechagias, Panagiotis
author_facet	Kechagias, Panagiotis Κεχαγιάς, Παναγιώτης
author	Κεχαγιάς, Παναγιώτης
author_sort	Κεχαγιάς, Παναγιώτης
title	Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_short	Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_full	Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_fullStr	Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_full_unstemmed	Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
title_sort	σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο apache spark
publishDate	2020
url	http://hdl.handle.net/10889/13781
work_keys_str_mv	AT kechagiaspanagiōtēs schediasmoskaianaptyxēparallēloualgorithmousystadopoiēsēsstoapachespark AT kechagiaspanagiōtēs designanddevelopmentofaparallelclusteringalgorithmontopofapachespark
_version_	1771297226638753792

Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark

Similar Items