Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας

Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Τσαλούφης, Νικόλαος
Άλλοι συγγραφείς:	Παυλίδης, Γεώργιος
Μορφή:	Thesis
Γλώσσα:	Greek
Έκδοση:	2020
Θέματα:	Τεχνικές εξόρυξης δεδομένων Συσταδοποίηση Data mining techniques Clustering K-means
Διαθέσιμο Online:	http://hdl.handle.net/10889/13984

id	nemertes-10889-13984
record_format	dspace
institution	UPatras
collection	Nemertes
language	Greek
topic	Τεχνικές εξόρυξης δεδομένων Συσταδοποίηση Data mining techniques Clustering K-means
spellingShingle	Τεχνικές εξόρυξης δεδομένων Συσταδοποίηση Data mining techniques Clustering K-means Τσαλούφης, Νικόλαος Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
description	Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξης γνώσης, στόχος μας είναι να πραγματοποιήσουμε ομαδοποίηση (clustering) και να διαπιστώσουμε αν κάποιες ομάδες χρηστών (σύμφωνα με ηλικία και φύλο) μπορούν να διακριθούν με αυτές τις εφαρμογές. Αυτό μπορεί να χρησιμοποιηθεί αργότερα για ταξινόμηση, δηλαδή να προβλέψουμε το φύλο και την ηλικία του χρήστη με βάση τη χρήση των εφαρμογών του κινητού του. Σκοπός της Συσταδοποίησης είναι τα αντικείμενα σε μια ομάδα να σχετίζονται μεταξύ τους και να είναι διαφορετικά σε σχέση με τις άλλες ομάδες. Οι βασικές τεχνικές της Συσταδοποίησης που εφαρμόσαμε είναι: K-means, Συσσωρευτική Ιεραρχική (AC) και DBSCAN. Για τον αλγόριθμο Κ- means, αναλύσαμε το τρόπο διαδικασίας του με σκοπό την ελαχιστοποίηση της τετραγωνικής απόστασης κάθε σημείου από το πλησιέστερο centroid. Στον αλγόριθμο AC, αναφέραμε τα βήματα επίλυσης του, δίνοντας ιδιαίτερη έμφαση στο κριτήριο σύνδεσης των συστάδων. Ο αλγόριθμος DBSCAN ομαδοποίησε με βάση την πυκνότητα. Η διπλωματική έδωσε βαρύτητα στην center-based approach, στην οποία εδρεύει η μέθοδος DBSCAN. Για όλους τους αλγορίθμους αναφέραμε τα προτερήματα και τις αδυναμίες τους καθώς και την χρονική-χωρική τους πολυπλοκότητα. Σχετικά με τα δεδομένα που αναλύθηκαν, πρωταρχικό βήμα για την εξόρυξή τους ήταν η προεπεξεργασία τους, η οποία υλοποιήθηκε χρησιμοποιώντας βιβλιοθήκες(Pandas, Numpy) της Python. Για την παράμετρο του φύλου φάνηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις περισσότερες μετρικές (Ομοιογένειας, Πληρότητας, V-measure, Adjusted Rand Index), ενώ με βάση το Adjusted Mutual Information, ο αλγόριθμος AC πετυχαίνει καλύτερο αποτέλεσμα. Επίσης, σύμφωνα με το Silhouette Coefficient υψηλότερη απόδοση έχει ο K-means. Επισημαίνεται ότι ο DBSCAN δημιούργησε μόλις 29 clusters. Για την παράμετρο της ηλικίας, παρουσιάστηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις μετρικές Ομοιογένειας, Πληρότητας και V-measure, ενώ ο αλγόριθμος AC για τις μετρικές Adjusted Rand Index, Adjusted Mutual Information και Silhouette Coefficient. H απεικόνιση των αποτελεσμάτων έγινε μέσω της βιβλιοθήκης Sklearn.
author2	Παυλίδης, Γεώργιος
author_facet	Παυλίδης, Γεώργιος Τσαλούφης, Νικόλαος
format	Thesis
author	Τσαλούφης, Νικόλαος
author_sort	Τσαλούφης, Νικόλαος
title	Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_short	Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_full	Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_fullStr	Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_full_unstemmed	Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
title_sort	σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας
publishDate	2020
url	http://hdl.handle.net/10889/13984
work_keys_str_mv	AT tsalouphēsnikolaos synkrisēalgorithmōnsystadopoiēsēsepharmogēsededomenakinētēstēlephōnias AT tsalouphēsnikolaos comparisonofclusteringalgorithmsapplyingformobilephonedata
_version_	1771297169095000064
spelling	nemertes-10889-139842022-09-05T06:57:30Z Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας Comparison of clustering algorithms : applying for mobile phone data Τσαλούφης, Νικόλαος Παυλίδης, Γεώργιος Τσώλης, Δημήτριος Tsaloufis, Nikolaos Τεχνικές εξόρυξης δεδομένων Συσταδοποίηση Data mining techniques Clustering K-means Στην παρούσα Διπλωµατική εργασία ασχοληθήκαµε µε τεχνικές Εξόρυξης Δεδοµένων, τις οποίες και εφαρµόσαµε σε συγκεκριµένα σύνολα δεδοµένων. Πρόκειται για δεδοµένα που περιέχουν τη δραστηριότητα χρηστών μέσω smartphones για συγκεκριμένες εφαρμογές, όπου με την εφαρμογή τεχνικών από τον τομέα της εξόρυξης γνώσης, στόχος μας είναι να πραγματοποιήσουμε ομαδοποίηση (clustering) και να διαπιστώσουμε αν κάποιες ομάδες χρηστών (σύμφωνα με ηλικία και φύλο) μπορούν να διακριθούν με αυτές τις εφαρμογές. Αυτό μπορεί να χρησιμοποιηθεί αργότερα για ταξινόμηση, δηλαδή να προβλέψουμε το φύλο και την ηλικία του χρήστη με βάση τη χρήση των εφαρμογών του κινητού του. Σκοπός της Συσταδοποίησης είναι τα αντικείμενα σε μια ομάδα να σχετίζονται μεταξύ τους και να είναι διαφορετικά σε σχέση με τις άλλες ομάδες. Οι βασικές τεχνικές της Συσταδοποίησης που εφαρμόσαμε είναι: K-means, Συσσωρευτική Ιεραρχική (AC) και DBSCAN. Για τον αλγόριθμο Κ- means, αναλύσαμε το τρόπο διαδικασίας του με σκοπό την ελαχιστοποίηση της τετραγωνικής απόστασης κάθε σημείου από το πλησιέστερο centroid. Στον αλγόριθμο AC, αναφέραμε τα βήματα επίλυσης του, δίνοντας ιδιαίτερη έμφαση στο κριτήριο σύνδεσης των συστάδων. Ο αλγόριθμος DBSCAN ομαδοποίησε με βάση την πυκνότητα. Η διπλωματική έδωσε βαρύτητα στην center-based approach, στην οποία εδρεύει η μέθοδος DBSCAN. Για όλους τους αλγορίθμους αναφέραμε τα προτερήματα και τις αδυναμίες τους καθώς και την χρονική-χωρική τους πολυπλοκότητα. Σχετικά με τα δεδομένα που αναλύθηκαν, πρωταρχικό βήμα για την εξόρυξή τους ήταν η προεπεξεργασία τους, η οποία υλοποιήθηκε χρησιμοποιώντας βιβλιοθήκες(Pandas, Numpy) της Python. Για την παράμετρο του φύλου φάνηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις περισσότερες μετρικές (Ομοιογένειας, Πληρότητας, V-measure, Adjusted Rand Index), ενώ με βάση το Adjusted Mutual Information, ο αλγόριθμος AC πετυχαίνει καλύτερο αποτέλεσμα. Επίσης, σύμφωνα με το Silhouette Coefficient υψηλότερη απόδοση έχει ο K-means. Επισημαίνεται ότι ο DBSCAN δημιούργησε μόλις 29 clusters. Για την παράμετρο της ηλικίας, παρουσιάστηκε ότι ο DBSCAN παρείχε τα καλύτερα αποτελέσματα με βάση τις μετρικές Ομοιογένειας, Πληρότητας και V-measure, ενώ ο αλγόριθμος AC για τις μετρικές Adjusted Rand Index, Adjusted Mutual Information και Silhouette Coefficient. H απεικόνιση των αποτελεσμάτων έγινε μέσω της βιβλιοθήκης Sklearn. In this Thesis, we dealt with the Data Mining techniques that we applied to a particular dataset. By applying knowledge Mining techniques, we aim to perform clustering and to see if some age and gender user groups can emerge from these applications. The above can be used later for classification, to predict the gender and age of the user based on the use of smartphone applica- tions. The purpose of clustering is to make the objects in one group relate to each other and to be different in relation to the other groups. the basic cloning techniques we applied are K-means, Agglomerative Hierarchical, DBSCAN. For the k means algorithm, we have analyzed the dif- ferent procedure in order to minimize each point from the nearest centroid. In the ac algorithm we mentioned the steps of solving it giving special emphasis to the component binding criterion. The DBSCAN algorithm is grouped based on density. The thesis focused on the center-based approach based on the DBSCAN method. For all the algorithms we mentioned their advantages and disadvantages as well as the temporal and spatial complexity. The first step in analyzing the data for their extraction was their pre-processing, which was implemented using Python's Pan- das, Numpy libraries. For the race parameter it appeared that DBSCAN provided the best results based on most metrics(Homogeneity, Completeness, V-measure, Adjusted Rand Index), while based on Adjusted Mutual Information the AC algorithm works best. DBSCAN created 29 clusters. Also, according to the Silhouette Coefficient measure, the K-means algorithm had the highest performance. For the age parameter it was shown that DBSCAN provided the best results based on Homoge- neity, Completeness και V-measure metrics, while the AC algorithm for Adjusted Rand Index, Ad- justed Mutual Information και Silhouette Coefficient metrics. For the effects were visualized through the library sklearn from Python. 2020-10-08T11:25:33Z 2020-10-08T11:25:33Z 2019-09 Thesis http://hdl.handle.net/10889/13984 gr 12 application/pdf application/octet-stream

Σύγκριση αλγορίθμων συσταδοποίησης : εφαρμογή σε δεδομένα κινητής τηλεφωνίας

Παρόμοια τεκμήρια