Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων

Μια γνωστή και πολύ αποτελεσματική τεχνικη για την ανάλυση δεδομένων είναι η συσταδοποίηση. Ένας απλός τρόπος εξήγησης της συσταδοποίησης είναι η ομαδοποίηση παρομοίων δεδομένων σε διαφορετικές ομάδες βάση κάποιας μετρικής (π.χ. ευκλείδειας απόστασης). Μέσω αυτής της μεταπτυχιακής επιχειρείται μια τ...

Full description

Bibliographic Details
Main Author: Κεχαγιάς, Παναγιώτης
Other Authors: Kechagias Panagiotis
Language:Greek
Published: 2023
Subjects:
Online Access:https://hdl.handle.net/10889/25044
id nemertes-10889-25044
record_format dspace
spelling nemertes-10889-250442023-06-09T03:56:12Z Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων Efficient algorithmic techniques for implementing DBSCAN in distributed systems and data streams Κεχαγιάς, Παναγιώτης Kechagias Panagiotis Συσταδοποίηση Εξόρυξη δεδομένων Κατανεμημένα συστήματα Clustering Data mining Distributed systems Μια γνωστή και πολύ αποτελεσματική τεχνικη για την ανάλυση δεδομένων είναι η συσταδοποίηση. Ένας απλός τρόπος εξήγησης της συσταδοποίησης είναι η ομαδοποίηση παρομοίων δεδομένων σε διαφορετικές ομάδες βάση κάποιας μετρικής (π.χ. ευκλείδειας απόστασης). Μέσω αυτής της μεταπτυχιακής επιχειρείται μια τροποποίηση του αλγορίθμου DBSCAN με χρήση του framework Apache spark ώστε να είναι εφικτή η εκτέλεση του σε κατανεμημένα συστήματα. Βασικό χαρακτηριστικό της συγκεκριμένης υλοποίησης είναι η διάσπαση του αλγορίθμου σε 3 βήματα τα οποία είναι ανεξάρτητα μεταξύ τους. Συνδικάζοντας τον αλγόριθμο K-means προτείνουμε τον αλγόριθμο KS-DBSCAN ο οποίος επιτυγχάνει καλή παραλληλοποιηση και ιδιά αποτελέσματα με αυτά που λαμβάναμε από τον DBSCAN. Αναφέρονται ορισμένες βελτιστοποιήσεις που έγιναν λαμβάνοντας υπόψιν παρόμοιες υλοποιήσεις όπως αυτή του πλέγματος και αποτελέσματα που είχαν. Επίσης αναλύονται παρόμοιες υλοποιήσεις που βασίζονται σε χωρικές δομές δεδομένων. Τέλος παρουσιάζονται τα αποτελεσμάτων διαφορετικών πειραμάτων που έγιναν ώστε να γίνει μια ορθή αξιολόγηση της υλοποίησης που προτείνεται. Σχολιάζονται οι περιορισμοί της συγκεκριμένης υλοποίησης και τρόποι ώστε αυτοί να ξεπεραστούν. A well-known and very effective technique for data analysis is clustering. A simple way to explain clustering is to group similar data into different groups based on some metric (eg Euclidean distance). Through this master's degree, a modification of the DBSCAN algorithm is made through the Apache spark framework so that it is possible to run through the distributed system. A key feature of this implementation is the splitting of the algorithm into 3 steps which are independent of each other. Combining the K-means algorithm we propose the KS-DBSCAN algorithm which achieves good parallelization and the same results as those we obtained from DBSCAN . Some optimizations that were made considering similar implementations like the grid and the results they had are mentioned. Similar implementations based on spatial data structures are also analyzed. Finally, the results of different experiments are presented to make a proper evaluation of the proposed implementation. The limitations of the specific implementation and ways to overcome them are commented on. 2023-06-08T10:31:26Z 2023-06-08T10:31:26Z 2023-06-08 https://hdl.handle.net/10889/25044 el Attribution-NonCommercial-NoDerivs 3.0 United States http://creativecommons.org/licenses/by-nc-nd/3.0/us/ application/pdf
institution UPatras
collection Nemertes
language Greek
topic Συσταδοποίηση
Εξόρυξη δεδομένων
Κατανεμημένα συστήματα
Clustering
Data mining
Distributed systems
spellingShingle Συσταδοποίηση
Εξόρυξη δεδομένων
Κατανεμημένα συστήματα
Clustering
Data mining
Distributed systems
Κεχαγιάς, Παναγιώτης
Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων
description Μια γνωστή και πολύ αποτελεσματική τεχνικη για την ανάλυση δεδομένων είναι η συσταδοποίηση. Ένας απλός τρόπος εξήγησης της συσταδοποίησης είναι η ομαδοποίηση παρομοίων δεδομένων σε διαφορετικές ομάδες βάση κάποιας μετρικής (π.χ. ευκλείδειας απόστασης). Μέσω αυτής της μεταπτυχιακής επιχειρείται μια τροποποίηση του αλγορίθμου DBSCAN με χρήση του framework Apache spark ώστε να είναι εφικτή η εκτέλεση του σε κατανεμημένα συστήματα. Βασικό χαρακτηριστικό της συγκεκριμένης υλοποίησης είναι η διάσπαση του αλγορίθμου σε 3 βήματα τα οποία είναι ανεξάρτητα μεταξύ τους. Συνδικάζοντας τον αλγόριθμο K-means προτείνουμε τον αλγόριθμο KS-DBSCAN ο οποίος επιτυγχάνει καλή παραλληλοποιηση και ιδιά αποτελέσματα με αυτά που λαμβάναμε από τον DBSCAN. Αναφέρονται ορισμένες βελτιστοποιήσεις που έγιναν λαμβάνοντας υπόψιν παρόμοιες υλοποιήσεις όπως αυτή του πλέγματος και αποτελέσματα που είχαν. Επίσης αναλύονται παρόμοιες υλοποιήσεις που βασίζονται σε χωρικές δομές δεδομένων. Τέλος παρουσιάζονται τα αποτελεσμάτων διαφορετικών πειραμάτων που έγιναν ώστε να γίνει μια ορθή αξιολόγηση της υλοποίησης που προτείνεται. Σχολιάζονται οι περιορισμοί της συγκεκριμένης υλοποίησης και τρόποι ώστε αυτοί να ξεπεραστούν.
author2 Kechagias Panagiotis
author_facet Kechagias Panagiotis
Κεχαγιάς, Παναγιώτης
author Κεχαγιάς, Παναγιώτης
author_sort Κεχαγιάς, Παναγιώτης
title Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων
title_short Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων
title_full Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων
title_fullStr Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων
title_full_unstemmed Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων
title_sort αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του dbscan σε κατανεμημένα συστήματα και ροές δεδομένων
publishDate 2023
url https://hdl.handle.net/10889/25044
work_keys_str_mv AT kechagiaspanagiōtēs apotelesmatikesalgorithmikestechnikesylopoiēsēstoudbscansekatanemēmenasystēmatakairoesdedomenōn
AT kechagiaspanagiōtēs efficientalgorithmictechniquesforimplementingdbscanindistributedsystemsanddatastreams
_version_ 1771297273342328832