Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας

Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Τσαλούφης, Νικόλαος
Άλλοι συγγραφείς: Παυλίδης, Γεώργιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13984
id nemertes-10889-13984
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Τεχνικές εξόρυξης δεδομένων
Συσταδοποίηση
Data mining techniques
Clustering
K-means
spellingShingle Τεχνικές εξόρυξης δεδομένων
Συσταδοποίηση
Data mining techniques
Clustering
K-means
Τσαλούφης, Νικόλαος
Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
description Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξης γνώσης, στόχος μας είναι να πραγματοποιήσουμε ομαδοποίηση (clustering) και να διαπιστώσουμε αν κάποιες ομάδες χρηστών (σύμφωνα με ηλικία και φύλο) μπορούν να διακριθούν με αυτές τις εφαρμογές. Αυτό μπορεί να χρησιμοποιηθεί αργότερα για ταξινόμηση, δηλαδή να προβλέψουμε το φύλο και την ηλικία του χρήστη με βάση τη χρήση των εφαρμογών του κινητού του. Σκοπός της Συσταδοποίησης είναι τα αντικείμενα σε μια ομάδα να σχετίζονται μεταξύ τους και να είναι διαφορετικά σε σχέση με τις άλλες ομάδες. Οι βασικές τεχνικές της Συσταδοποίησης που εφαρμόσαμε είναι: K-means, Συσσωρευτική Ιεραρχική (AC) και DBSCAN. Για τον αλγόριθμο Κ- means, αναλύσαμε το τρόπο διαδικασίας του με σκοπό την ελαχιστοποίηση της τετραγωνικής απόστασης κάθε σημείου από το πλησιέστερο centroid. Στον αλγόριθμο AC, αναφέραμε τα βήματα επίλυσης του, δίνοντας ιδιαίτερη έμφαση στο κριτήριο σύνδεσης των συστάδων. Ο αλγόριθμος DBSCAN ομαδοποίησε με βάση την πυκνότητα. Η διπλωματική έδωσε βαρύτητα στην center-based approach, στην οποία εδρεύει η μέθοδος DBSCAN. Για όλους τους αλγορίθμους αναφέραμε τα προτερήματα και τις αδυναμίες τους καθώς και την χρονική-χωρική τους πολυπλοκότητα. Σχετικά με τα δεδομένα που αναλύθηκαν, πρωταρχικό βήμα για την εξόρυξή τους ήταν η προεπεξεργασία τους, η οποία υλοποιήθηκε χρησιμοποιώντας βιβλιοθήκες(Pandas, Numpy) της Python. Για την παράμετρο του φύλου φάνηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις περισσότερες μετρικές (Ομοιογένειας, Πληρότητας, V-measure, Adjusted Rand Index), ενώ με βάση το Adjusted Mutual Information, ο αλγόριθμος AC πετυχαίνει καλύτερο αποτέλεσμα. Επίσης, σύμφωνα με το Silhouette Coefficient υψηλότερη απόδοση έχει ο K-means. Επισημαίνεται ότι ο DBSCAN δημιούργησε μόλις 29 clusters. Για την παράμετρο της ηλικίας, παρουσιάστηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις μετρικές Ομοιογένειας, Πληρότητας και V-measure, ενώ ο αλγόριθμος AC για τις μετρικές Adjusted Rand Index, Adjusted Mutual Information και Silhouette Coefficient. H απεικόνιση των αποτελεσμάτων έγινε μέσω της βιβλιοθήκης Sklearn.
author2 Παυλίδης, Γεώργιος
author_facet Παυλίδης, Γεώργιος
Τσαλούφης, Νικόλαος
format Thesis
author Τσαλούφης, Νικόλαος
author_sort Τσαλούφης, Νικόλαος
title Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_short Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_full Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_fullStr Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_full_unstemmed Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_sort σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
publishDate 2020
url http://hdl.handle.net/10889/13984
work_keys_str_mv AT tsalouphēsnikolaos synkrisēalgorithmōnsystadopoiēsēsepharmogēsededomenakinētēstēlephōnias
AT tsalouphēsnikolaos comparisonofclusteringalgorithmsapplyingformobilephonedata
_version_ 1771297169095000064
spelling nemertes-10889-139842022-09-05T06:57:30Z Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας Comparison of clustering algorithms : applying for mobile phone data Τσαλούφης, Νικόλαος Παυλίδης, Γεώργιος Τσώλης, Δημήτριος Tsaloufis, Nikolaos Τεχνικές εξόρυξης δεδομένων Συσταδοποίηση Data mining techniques Clustering K-means Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξης γνώσης, στόχος μας είναι να πραγματοποιήσουμε ομαδοποίηση (clustering) και να διαπιστώσουμε αν κάποιες ομάδες χρηστών (σύμφωνα με ηλικία και φύλο) μπορούν να διακριθούν με αυτές τις εφαρμογές. Αυτό μπορεί να χρησιμοποιηθεί αργότερα για ταξινόμηση, δηλαδή να προβλέψουμε το φύλο και την ηλικία του χρήστη με βάση τη χρήση των εφαρμογών του κινητού του. Σκοπός της Συσταδοποίησης είναι τα αντικείμενα σε μια ομάδα να σχετίζονται μεταξύ τους και να είναι διαφορετικά σε σχέση με τις άλλες ομάδες. Οι βασικές τεχνικές της Συσταδοποίησης που εφαρμόσαμε είναι: K-means, Συσσωρευτική Ιεραρχική (AC) και DBSCAN. Για τον αλγόριθμο Κ- means, αναλύσαμε το τρόπο διαδικασίας του με σκοπό την ελαχιστοποίηση της τετραγωνικής απόστασης κάθε σημείου από το πλησιέστερο centroid. Στον αλγόριθμο AC, αναφέραμε τα βήματα επίλυσης του, δίνοντας ιδιαίτερη έμφαση στο κριτήριο σύνδεσης των συστάδων. Ο αλγόριθμος DBSCAN ομαδοποίησε με βάση την πυκνότητα. Η διπλωματική έδωσε βαρύτητα στην center-based approach, στην οποία εδρεύει η μέθοδος DBSCAN. Για όλους τους αλγορίθμους αναφέραμε τα προτερήματα και τις αδυναμίες τους καθώς και την χρονική-χωρική τους πολυπλοκότητα. Σχετικά με τα δεδομένα που αναλύθηκαν, πρωταρχικό βήμα για την εξόρυξή τους ήταν η προεπεξεργασία τους, η οποία υλοποιήθηκε χρησιμοποιώντας βιβλιοθήκες(Pandas, Numpy) της Python. Για την παράμετρο του φύλου φάνηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις περισσότερες μετρικές (Ομοιογένειας, Πληρότητας, V-measure, Adjusted Rand Index), ενώ με βάση το Adjusted Mutual Information, ο αλγόριθμος AC πετυχαίνει καλύτερο αποτέλεσμα. Επίσης, σύμφωνα με το Silhouette Coefficient υψηλότερη απόδοση έχει ο K-means. Επισημαίνεται ότι ο DBSCAN δημιούργησε μόλις 29 clusters. Για την παράμετρο της ηλικίας, παρουσιάστηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις μετρικές Ομοιογένειας, Πληρότητας και V-measure, ενώ ο αλγόριθμος AC για τις μετρικές Adjusted Rand Index, Adjusted Mutual Information και Silhouette Coefficient. H απεικόνιση των αποτελεσμάτων έγινε μέσω της βιβλιοθήκης Sklearn. In this Thesis, we dealt with the Data Mining techniques that we applied to a particular dataset. By applying knowledge Mining techniques, we aim to perform clustering and to see if some age and gender user groups can emerge from these applications. The above can be used later for classification, to predict the gender and age of the user based on the use of smartphone applica- tions. The purpose of clustering is to make the objects in one group relate to each other and to be different in relation to the other groups. the basic cloning techniques we applied are K-means, Agglomerative Hierarchical, DBSCAN. For the k means algorithm, we have analyzed the dif- ferent procedure in order to minimize each point from the nearest centroid. In the ac algorithm we mentioned the steps of solving it giving special emphasis to the component binding criterion. The DBSCAN algorithm is grouped based on density. The thesis focused on the center-based approach based on the DBSCAN method. For all the algorithms we mentioned their advantages and disadvantages as well as the temporal and spatial complexity. The first step in analyzing the data for their extraction was their pre-processing, which was implemented using Python's Pan- das, Numpy libraries. For the race parameter it appeared that DBSCAN provided the best results based on most metrics(Homogeneity, Completeness, V-measure, Adjusted Rand Index), while based on Adjusted Mutual Information the AC algorithm works best. DBSCAN created 29 clusters. Also, according to the Silhouette Coefficient measure, the K-means algorithm had the highest performance. For the age parameter it was shown that DBSCAN provided the best results based on Homoge- neity, Completeness και V-measure metrics, while the AC algorithm for Adjusted Rand Index, Ad- justed Mutual Information και Silhouette Coefficient metrics. For the effects were visualized through the library sklearn from Python. 2020-10-08T11:25:33Z 2020-10-08T11:25:33Z 2019-09 Thesis http://hdl.handle.net/10889/13984 gr 12 application/pdf application/octet-stream