Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων
Μια γνωστή και πολύ αποτελεσματική τεχνικη για την ανάλυση δεδομένων είναι η συσταδοποίηση. Ένας απλός τρόπος εξήγησης της συσταδοποίησης είναι η ομαδοποίηση παρομοίων δεδομένων σε διαφορετικές ομάδες βάση κάποιας μετρικής (π.χ. ευκλείδειας απόστασης). Μέσω αυτής της μεταπτυχιακής επιχειρείται μια τ...
Main Author: | |
---|---|
Other Authors: | |
Language: | Greek |
Published: |
2023
|
Subjects: | |
Online Access: | https://hdl.handle.net/10889/25044 |
id |
nemertes-10889-25044 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-250442023-06-09T03:56:12Z Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων Efficient algorithmic techniques for implementing DBSCAN in distributed systems and data streams Κεχαγιάς, Παναγιώτης Kechagias Panagiotis Συσταδοποίηση Εξόρυξη δεδομένων Κατανεμημένα συστήματα Clustering Data mining Distributed systems Μια γνωστή και πολύ αποτελεσματική τεχνικη για την ανάλυση δεδομένων είναι η συσταδοποίηση. Ένας απλός τρόπος εξήγησης της συσταδοποίησης είναι η ομαδοποίηση παρομοίων δεδομένων σε διαφορετικές ομάδες βάση κάποιας μετρικής (π.χ. ευκλείδειας απόστασης). Μέσω αυτής της μεταπτυχιακής επιχειρείται μια τροποποίηση του αλγορίθμου DBSCAN με χρήση του framework Apache spark ώστε να είναι εφικτή η εκτέλεση του σε κατανεμημένα συστήματα. Βασικό χαρακτηριστικό της συγκεκριμένης υλοποίησης είναι η διάσπαση του αλγορίθμου σε 3 βήματα τα οποία είναι ανεξάρτητα μεταξύ τους. Συνδικάζοντας τον αλγόριθμο K-means προτείνουμε τον αλγόριθμο KS-DBSCAN ο οποίος επιτυγχάνει καλή παραλληλοποιηση και ιδιά αποτελέσματα με αυτά που λαμβάναμε από τον DBSCAN. Αναφέρονται ορισμένες βελτιστοποιήσεις που έγιναν λαμβάνοντας υπόψιν παρόμοιες υλοποιήσεις όπως αυτή του πλέγματος και αποτελέσματα που είχαν. Επίσης αναλύονται παρόμοιες υλοποιήσεις που βασίζονται σε χωρικές δομές δεδομένων. Τέλος παρουσιάζονται τα αποτελεσμάτων διαφορετικών πειραμάτων που έγιναν ώστε να γίνει μια ορθή αξιολόγηση της υλοποίησης που προτείνεται. Σχολιάζονται οι περιορισμοί της συγκεκριμένης υλοποίησης και τρόποι ώστε αυτοί να ξεπεραστούν. A well-known and very effective technique for data analysis is clustering. A simple way to explain clustering is to group similar data into different groups based on some metric (eg Euclidean distance). Through this master's degree, a modification of the DBSCAN algorithm is made through the Apache spark framework so that it is possible to run through the distributed system. A key feature of this implementation is the splitting of the algorithm into 3 steps which are independent of each other. Combining the K-means algorithm we propose the KS-DBSCAN algorithm which achieves good parallelization and the same results as those we obtained from DBSCAN . Some optimizations that were made considering similar implementations like the grid and the results they had are mentioned. Similar implementations based on spatial data structures are also analyzed. Finally, the results of different experiments are presented to make a proper evaluation of the proposed implementation. The limitations of the specific implementation and ways to overcome them are commented on. 2023-06-08T10:31:26Z 2023-06-08T10:31:26Z 2023-06-08 https://hdl.handle.net/10889/25044 el Attribution-NonCommercial-NoDerivs 3.0 United States http://creativecommons.org/licenses/by-nc-nd/3.0/us/ application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Συσταδοποίηση Εξόρυξη δεδομένων Κατανεμημένα συστήματα Clustering Data mining Distributed systems |
spellingShingle |
Συσταδοποίηση Εξόρυξη δεδομένων Κατανεμημένα συστήματα Clustering Data mining Distributed systems Κεχαγιάς, Παναγιώτης Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων |
description |
Μια γνωστή και πολύ αποτελεσματική τεχνικη για την ανάλυση δεδομένων είναι η
συσταδοποίηση. Ένας απλός τρόπος εξήγησης της συσταδοποίησης είναι η ομαδοποίηση
παρομοίων δεδομένων σε διαφορετικές ομάδες βάση κάποιας μετρικής (π.χ. ευκλείδειας
απόστασης). Μέσω αυτής της μεταπτυχιακής επιχειρείται μια τροποποίηση του αλγορίθμου
DBSCAN με χρήση του framework Apache spark ώστε να είναι εφικτή η εκτέλεση του σε
κατανεμημένα συστήματα. Βασικό χαρακτηριστικό της συγκεκριμένης υλοποίησης είναι η
διάσπαση του αλγορίθμου σε 3 βήματα τα οποία είναι ανεξάρτητα μεταξύ τους. Συνδικάζοντας
τον αλγόριθμο K-means προτείνουμε τον αλγόριθμο KS-DBSCAN ο οποίος επιτυγχάνει καλή
παραλληλοποιηση και ιδιά αποτελέσματα με αυτά που λαμβάναμε από τον DBSCAN.
Αναφέρονται ορισμένες βελτιστοποιήσεις που έγιναν λαμβάνοντας υπόψιν παρόμοιες
υλοποιήσεις όπως αυτή του πλέγματος και αποτελέσματα που είχαν. Επίσης αναλύονται
παρόμοιες υλοποιήσεις που βασίζονται σε χωρικές δομές δεδομένων. Τέλος παρουσιάζονται τα
αποτελεσμάτων διαφορετικών πειραμάτων που έγιναν ώστε να γίνει μια ορθή αξιολόγηση της
υλοποίησης που προτείνεται. Σχολιάζονται οι περιορισμοί της συγκεκριμένης υλοποίησης και
τρόποι ώστε αυτοί να ξεπεραστούν. |
author2 |
Kechagias Panagiotis |
author_facet |
Kechagias Panagiotis Κεχαγιάς, Παναγιώτης |
author |
Κεχαγιάς, Παναγιώτης |
author_sort |
Κεχαγιάς, Παναγιώτης |
title |
Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων |
title_short |
Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων |
title_full |
Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων |
title_fullStr |
Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων |
title_full_unstemmed |
Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων |
title_sort |
αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του dbscan σε κατανεμημένα συστήματα και ροές δεδομένων |
publishDate |
2023 |
url |
https://hdl.handle.net/10889/25044 |
work_keys_str_mv |
AT kechagiaspanagiōtēs apotelesmatikesalgorithmikestechnikesylopoiēsēstoudbscansekatanemēmenasystēmatakairoesdedomenōn AT kechagiaspanagiōtēs efficientalgorithmictechniquesforimplementingdbscanindistributedsystemsanddatastreams |
_version_ |
1771297273342328832 |