Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας

Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Τσαλούφης, Νικόλαος
Άλλοι συγγραφείς: Παυλίδης, Γεώργιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13984
Περιγραφή
Περίληψη:Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξης γνώσης, στόχος μας είναι να πραγματοποιήσουμε ομαδοποίηση (clustering) και να διαπιστώσουμε αν κάποιες ομάδες χρηστών (σύμφωνα με ηλικία και φύλο) μπορούν να διακριθούν με αυτές τις εφαρμογές. Αυτό μπορεί να χρησιμοποιηθεί αργότερα για ταξινόμηση, δηλαδή να προβλέψουμε το φύλο και την ηλικία του χρήστη με βάση τη χρήση των εφαρμογών του κινητού του. Σκοπός της Συσταδοποίησης είναι τα αντικείμενα σε μια ομάδα να σχετίζονται μεταξύ τους και να είναι διαφορετικά σε σχέση με τις άλλες ομάδες. Οι βασικές τεχνικές της Συσταδοποίησης που εφαρμόσαμε είναι: K-means, Συσσωρευτική Ιεραρχική (AC) και DBSCAN. Για τον αλγόριθμο Κ- means, αναλύσαμε το τρόπο διαδικασίας του με σκοπό την ελαχιστοποίηση της τετραγωνικής απόστασης κάθε σημείου από το πλησιέστερο centroid. Στον αλγόριθμο AC, αναφέραμε τα βήματα επίλυσης του, δίνοντας ιδιαίτερη έμφαση στο κριτήριο σύνδεσης των συστάδων. Ο αλγόριθμος DBSCAN ομαδοποίησε με βάση την πυκνότητα. Η διπλωματική έδωσε βαρύτητα στην center-based approach, στην οποία εδρεύει η μέθοδος DBSCAN. Για όλους τους αλγορίθμους αναφέραμε τα προτερήματα και τις αδυναμίες τους καθώς και την χρονική-χωρική τους πολυπλοκότητα. Σχετικά με τα δεδομένα που αναλύθηκαν, πρωταρχικό βήμα για την εξόρυξή τους ήταν η προεπεξεργασία τους, η οποία υλοποιήθηκε χρησιμοποιώντας βιβλιοθήκες(Pandas, Numpy) της Python. Για την παράμετρο του φύλου φάνηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις περισσότερες μετρικές (Ομοιογένειας, Πληρότητας, V-measure, Adjusted Rand Index), ενώ με βάση το Adjusted Mutual Information, ο αλγόριθμος AC πετυχαίνει καλύτερο αποτέλεσμα. Επίσης, σύμφωνα με το Silhouette Coefficient υψηλότερη απόδοση έχει ο K-means. Επισημαίνεται ότι ο DBSCAN δημιούργησε μόλις 29 clusters. Για την παράμετρο της ηλικίας, παρουσιάστηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις μετρικές Ομοιογένειας, Πληρότητας και V-measure, ενώ ο αλγόριθμος AC για τις μετρικές Adjusted Rand Index, Adjusted Mutual Information και Silhouette Coefficient. H απεικόνιση των αποτελεσμάτων έγινε μέσω της βιβλιοθήκης Sklearn.