Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2020
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/13984 |
id |
nemertes-10889-13984 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Τεχνικές εξόρυξης δεδομένων Συσταδοποίηση Data mining techniques Clustering K-means |
spellingShingle |
Τεχνικές εξόρυξης δεδομένων Συσταδοποίηση Data mining techniques Clustering K-means Τσαλούφης, Νικόλαος Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας |
description |
Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξης γνώσης, στόχος μας είναι να πραγματοποιήσουμε ομαδοποίηση (clustering) και να διαπιστώσουμε αν κάποιες ομάδες χρηστών (σύμφωνα με ηλικία και φύλο) μπορούν να διακριθούν με αυτές τις εφαρμογές. Αυτό μπορεί να χρησιμοποιηθεί αργότερα για ταξινόμηση, δηλαδή να προβλέψουμε το φύλο και την ηλικία του χρήστη με βάση τη χρήση των εφαρμογών του κινητού του. Σκοπός της Συσταδοποίησης είναι τα αντικείμενα σε μια ομάδα να σχετίζονται μεταξύ τους και να είναι διαφορετικά σε σχέση με τις άλλες ομάδες. Οι βασικές τεχνικές της Συσταδοποίησης που εφαρμόσαμε είναι: K-means, Συσσωρευτική Ιεραρχική (AC) και DBSCAN. Για τον αλγόριθμο Κ- means, αναλύσαμε το τρόπο διαδικασίας του με σκοπό την ελαχιστοποίηση της τετραγωνικής απόστασης κάθε σημείου από το πλησιέστερο centroid. Στον αλγόριθμο AC, αναφέραμε τα βήματα επίλυσης του, δίνοντας ιδιαίτερη έμφαση στο κριτήριο σύνδεσης των συστάδων. Ο αλγόριθμος DBSCAN ομαδοποίησε με βάση την πυκνότητα. Η διπλωματική έδωσε βαρύτητα στην center-based approach, στην οποία εδρεύει η μέθοδος DBSCAN. Για όλους τους αλγορίθμους αναφέραμε τα προτερήματα και τις αδυναμίες τους καθώς και την χρονική-χωρική τους πολυπλοκότητα. Σχετικά με τα δεδομένα που αναλύθηκαν, πρωταρχικό βήμα για την εξόρυξή τους ήταν η προεπεξεργασία τους, η οποία υλοποιήθηκε χρησιμοποιώντας βιβλιοθήκες(Pandas, Numpy) της Python. Για την παράμετρο του φύλου φάνηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις περισσότερες μετρικές (Ομοιογένειας, Πληρότητας, V-measure, Adjusted Rand Index), ενώ με βάση το Adjusted Mutual Information, ο αλγόριθμος AC πετυχαίνει καλύτερο αποτέλεσμα. Επίσης, σύμφωνα με το Silhouette Coefficient υψηλότερη απόδοση έχει ο K-means. Επισημαίνεται ότι ο DBSCAN δημιούργησε μόλις 29 clusters. Για την παράμετρο της ηλικίας, παρουσιάστηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις μετρικές Ομοιογένειας, Πληρότητας και V-measure, ενώ ο αλγόριθμος AC για τις μετρικές Adjusted Rand Index, Adjusted Mutual Information και Silhouette Coefficient. H απεικόνιση των αποτελεσμάτων έγινε μέσω της βιβλιοθήκης Sklearn. |
author2 |
Παυλίδης, Γεώργιος |
author_facet |
Παυλίδης, Γεώργιος Τσαλούφης, Νικόλαος |
format |
Thesis |
author |
Τσαλούφης, Νικόλαος |
author_sort |
Τσαλούφης, Νικόλαος |
title |
Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας |
title_short |
Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας |
title_full |
Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας |
title_fullStr |
Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας |
title_full_unstemmed |
Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας |
title_sort |
σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας |
publishDate |
2020 |
url |
http://hdl.handle.net/10889/13984 |
work_keys_str_mv |
AT tsalouphēsnikolaos synkrisēalgorithmōnsystadopoiēsēsepharmogēsededomenakinētēstēlephōnias AT tsalouphēsnikolaos comparisonofclusteringalgorithmsapplyingformobilephonedata |
_version_ |
1771297169095000064 |
spelling |
nemertes-10889-139842022-09-05T06:57:30Z Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας Comparison of clustering algorithms : applying for mobile phone data Τσαλούφης, Νικόλαος Παυλίδης, Γεώργιος Τσώλης, Δημήτριος Tsaloufis, Nikolaos Τεχνικές εξόρυξης δεδομένων Συσταδοποίηση Data mining techniques Clustering K-means Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξης γνώσης, στόχος μας είναι να πραγματοποιήσουμε ομαδοποίηση (clustering) και να διαπιστώσουμε αν κάποιες ομάδες χρηστών (σύμφωνα με ηλικία και φύλο) μπορούν να διακριθούν με αυτές τις εφαρμογές. Αυτό μπορεί να χρησιμοποιηθεί αργότερα για ταξινόμηση, δηλαδή να προβλέψουμε το φύλο και την ηλικία του χρήστη με βάση τη χρήση των εφαρμογών του κινητού του. Σκοπός της Συσταδοποίησης είναι τα αντικείμενα σε μια ομάδα να σχετίζονται μεταξύ τους και να είναι διαφορετικά σε σχέση με τις άλλες ομάδες. Οι βασικές τεχνικές της Συσταδοποίησης που εφαρμόσαμε είναι: K-means, Συσσωρευτική Ιεραρχική (AC) και DBSCAN. Για τον αλγόριθμο Κ- means, αναλύσαμε το τρόπο διαδικασίας του με σκοπό την ελαχιστοποίηση της τετραγωνικής απόστασης κάθε σημείου από το πλησιέστερο centroid. Στον αλγόριθμο AC, αναφέραμε τα βήματα επίλυσης του, δίνοντας ιδιαίτερη έμφαση στο κριτήριο σύνδεσης των συστάδων. Ο αλγόριθμος DBSCAN ομαδοποίησε με βάση την πυκνότητα. Η διπλωματική έδωσε βαρύτητα στην center-based approach, στην οποία εδρεύει η μέθοδος DBSCAN. Για όλους τους αλγορίθμους αναφέραμε τα προτερήματα και τις αδυναμίες τους καθώς και την χρονική-χωρική τους πολυπλοκότητα. Σχετικά με τα δεδομένα που αναλύθηκαν, πρωταρχικό βήμα για την εξόρυξή τους ήταν η προεπεξεργασία τους, η οποία υλοποιήθηκε χρησιμοποιώντας βιβλιοθήκες(Pandas, Numpy) της Python. Για την παράμετρο του φύλου φάνηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις περισσότερες μετρικές (Ομοιογένειας, Πληρότητας, V-measure, Adjusted Rand Index), ενώ με βάση το Adjusted Mutual Information, ο αλγόριθμος AC πετυχαίνει καλύτερο αποτέλεσμα. Επίσης, σύμφωνα με το Silhouette Coefficient υψηλότερη απόδοση έχει ο K-means. Επισημαίνεται ότι ο DBSCAN δημιούργησε μόλις 29 clusters. Για την παράμετρο της ηλικίας, παρουσιάστηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις μετρικές Ομοιογένειας, Πληρότητας και V-measure, ενώ ο αλγόριθμος AC για τις μετρικές Adjusted Rand Index, Adjusted Mutual Information και Silhouette Coefficient. H απεικόνιση των αποτελεσμάτων έγινε μέσω της βιβλιοθήκης Sklearn. In this Thesis, we dealt with the Data Mining techniques that we applied to a particular dataset. By applying knowledge Mining techniques, we aim to perform clustering and to see if some age and gender user groups can emerge from these applications. The above can be used later for classification, to predict the gender and age of the user based on the use of smartphone applica- tions. The purpose of clustering is to make the objects in one group relate to each other and to be different in relation to the other groups. the basic cloning techniques we applied are K-means, Agglomerative Hierarchical, DBSCAN. For the k means algorithm, we have analyzed the dif- ferent procedure in order to minimize each point from the nearest centroid. In the ac algorithm we mentioned the steps of solving it giving special emphasis to the component binding criterion. The DBSCAN algorithm is grouped based on density. The thesis focused on the center-based approach based on the DBSCAN method. For all the algorithms we mentioned their advantages and disadvantages as well as the temporal and spatial complexity. The first step in analyzing the data for their extraction was their pre-processing, which was implemented using Python's Pan- das, Numpy libraries. For the race parameter it appeared that DBSCAN provided the best results based on most metrics(Homogeneity, Completeness, V-measure, Adjusted Rand Index), while based on Adjusted Mutual Information the AC algorithm works best. DBSCAN created 29 clusters. Also, according to the Silhouette Coefficient measure, the K-means algorithm had the highest performance. For the age parameter it was shown that DBSCAN provided the best results based on Homoge- neity, Completeness και V-measure metrics, while the AC algorithm for Adjusted Rand Index, Ad- justed Mutual Information και Silhouette Coefficient metrics. For the effects were visualized through the library sklearn from Python. 2020-10-08T11:25:33Z 2020-10-08T11:25:33Z 2019-09 Thesis http://hdl.handle.net/10889/13984 gr 12 application/pdf application/octet-stream |