Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark

Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε δι...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κεχαγιάς, Παναγιώτης
Άλλοι συγγραφείς: Kechagias, Panagiotis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13781
Περιγραφή
Περίληψη:Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε διαφορετικές ομάδες. Ένα από τα μεγαλύτερα προβλήματα σήμερα είναι ο αυξανόμενος αριθμός δεδομένων που πρέπει να αναλύσουμε. Με αυτήν τη διπλωματική εργασία, επιχειρείται να υλοποιηθεί ο DBSCAN, ένας γνωστός αλγόριθμος συσταδοποίησης, στην πλατφόρμα Apache Spark ώστε να είναι δυνατή η εκτέλεσή του σε ένα κατανεμημένο σύστημα με σκοπό να υπερκεραστούν τα προβλήματα των υπαρχόντων υλοποιήσεων όταν αυτές εφαρμόζονται σε δεδομένα μεγάλου όγκου. Αναλύονται οι αρχές λειτουργίας του DBSCAN και οι τροποποιήσεις που έγιναν καθώς και οι λόγους για τους οποίους ήταν απαραίτητες. Τέλος, εκτελείται μια σειρά πειραμάτων για την αξιολόγηση της απόδοσης του σε σύγκριση με άλλους αλγορίθμους συσταδοποίησης που παρέχονται από το Apache Spark όπως o GMM και ο K-means. Αναφέρονται επίσης οι περιορισμοί της προτεινόμενης προσέγγισής.