Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης

Στη διπλωματική εργασία, στόχος ήταν η επιστράτευση τεχνικών κατηγοριοποίησης δεδομένων (data classification) με σκοπό την εξάλειψη του θορύβου σε αλγορίθμους που πραγματοποιούν συσταδοποίηση. Πιο συγκεκριμένα, οι αλγόριθμοι αυτοί ανήκουν στη κατηγορία της μη επιτηρούμενης μάθησης (unsupervise...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Καρμαλής, Μάριος
Άλλοι συγγραφείς: Karmalis, Marios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15813
id nemertes-10889-15813
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Εξόρυξη δεδομένων
Συσταδοποίηση
Κατηγοριοποίηση
Αλγόριθμος DBSCAN
Data mining
Clustering
Classification
DBSCAN algorithm
spellingShingle Εξόρυξη δεδομένων
Συσταδοποίηση
Κατηγοριοποίηση
Αλγόριθμος DBSCAN
Data mining
Clustering
Classification
DBSCAN algorithm
Καρμαλής, Μάριος
Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης
description Στη διπλωματική εργασία, στόχος ήταν η επιστράτευση τεχνικών κατηγοριοποίησης δεδομένων (data classification) με σκοπό την εξάλειψη του θορύβου σε αλγορίθμους που πραγματοποιούν συσταδοποίηση. Πιο συγκεκριμένα, οι αλγόριθμοι αυτοί ανήκουν στη κατηγορία της μη επιτηρούμενης μάθησης (unsupervised learning). Η κατηγοριοποίηση ( δεδομένων ) θα υλοποιηθεί σε αλγόριθμο με βάση τη πυκνότητα των δεδομένων κατά τη συσταδοποίηση, τον αλγόριθμο DBSCAN: Density-Based Supervised Clustering of Applications with Noise. Ο αλγόριθμος που προαναφέρθηκε, ειδικεύεται στην διαχείριση δεδομένων & εφαρμογών στα οποία εμπεριέχεται θόρυβος. Ο αριθμός των συστάδων εξαρτάται από τον εκάστοτε επιθυμητό στόχο που υποδεικνύεται από το σύνολο δεδομένων(dataset target) ,χωρίς βέβαια να ορίζεται πριν την εφαρμογή του αλγορίθμου, ενώ προκύπτει κατά τη συσταδοποίηση. Για την ορθή εξακρίβωση των αποτελεσμάτων, χρησιμοποιήθηκε ο αλγόριθμος k-means, ο οποίος βασίζεται στη διαμεριστική τεχνική ομαδοποίησης (partitional clustering) για την ομαδοποίηση των δεδομένων. Ουσιαστικά, η εφαρμογή του αλγορίθμου k-means διαχωρίζει τα δεδομένα σε k συστάδες (clusters) . Ωστόσο, η τιμή του k δίνεται προκαταβολικά από το χρήστη ως όρισμα σε συνάρτηση, κάθε φορά που επιθυμεί να εκτελέσει τον αλγόριθμο σε ένα σύνολο δεδομένων. Η διασταύρωση και εξακρίβωση των αποτελεσμάτων χρησιμοποιείται σαφώς για να μπορούν τα αποτελέσματα που προέκυψαν να θεωρούνται έγκυρα. Επιπλέον, για την εκτίμηση των αποτελεσμάτων χρησιμοποιήθηκαν μετρικές απόδοσης της συσταδοποίησης και ομοιότητας μεταξύ των συστάδων. Συγκεκριμένα, στα συνθετικά δεδομένα που χρησιμοποιήθηκαν εφαρμόστηκαν μετρικές όπως η ομοιογένεια (homogeneity metric), η πληρότητα (completeness) των συστάδων, αλλά και η επέκταση των δύο προαναφερθέντων, το μέτρο V (V-Measure). Έπειτα, αφού πιστοποιήθηκε η εκτέλεση του αλγορίθμου DBSCAN στα συνθετικά δεδομένα, ακολούθησαν και πειραματισμοί στα πραγματικά σύνολα δεδομένων. Όσον αφορά τα πραγματικά δεδομένα, αποτελούνται από ολιγάριθμα σύνολα δεδομένων που κατά σειρά κλιμακώνονται σε μέγεθος. Για την εκτίμηση τους, κυριότερη και πιο εύχρηστη τεχνική κατηγοριοποίησης αποτέλεσε η λογιστική παλινδρόμηση(Logistic Regression). Τέλος, οι παραπάνω αλγόριθμοι ενσωματώθηκαν σε εξειδικευμένες συναρτήσεις με σκοπό την παραμετροποίηση τους για προβλήματα μεγάλου όγκου δεδομένων (Big Data, Stream Computing).
author2 Karmalis, Marios
author_facet Karmalis, Marios
Καρμαλής, Μάριος
author Καρμαλής, Μάριος
author_sort Καρμαλής, Μάριος
title Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης
title_short Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης
title_full Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης
title_fullStr Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης
title_full_unstemmed Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης
title_sort τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης
publishDate 2022
url http://hdl.handle.net/10889/15813
work_keys_str_mv AT karmalēsmarios technikeskatēgoriopoiēsēsgiatēnexaleipsēthorybouapoalgorithmoussystadopoiēsēs
AT karmalēsmarios classificationtechniquesforeradicationofnoiseinclusteringalgorithms
_version_ 1771297303273930752
spelling nemertes-10889-158132022-09-05T20:50:10Z Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης Classification techniques for eradication of noise in clustering algorithms Καρμαλής, Μάριος Karmalis, Marios Εξόρυξη δεδομένων Συσταδοποίηση Κατηγοριοποίηση Αλγόριθμος DBSCAN Data mining Clustering Classification DBSCAN algorithm Στη διπλωματική εργασία, στόχος ήταν η επιστράτευση τεχνικών κατηγοριοποίησης δεδομένων (data classification) με σκοπό την εξάλειψη του θορύβου σε αλγορίθμους που πραγματοποιούν συσταδοποίηση. Πιο συγκεκριμένα, οι αλγόριθμοι αυτοί ανήκουν στη κατηγορία της μη επιτηρούμενης μάθησης (unsupervised learning). Η κατηγοριοποίηση ( δεδομένων ) θα υλοποιηθεί σε αλγόριθμο με βάση τη πυκνότητα των δεδομένων κατά τη συσταδοποίηση, τον αλγόριθμο DBSCAN: Density-Based Supervised Clustering of Applications with Noise. Ο αλγόριθμος που προαναφέρθηκε, ειδικεύεται στην διαχείριση δεδομένων & εφαρμογών στα οποία εμπεριέχεται θόρυβος. Ο αριθμός των συστάδων εξαρτάται από τον εκάστοτε επιθυμητό στόχο που υποδεικνύεται από το σύνολο δεδομένων(dataset target) ,χωρίς βέβαια να ορίζεται πριν την εφαρμογή του αλγορίθμου, ενώ προκύπτει κατά τη συσταδοποίηση. Για την ορθή εξακρίβωση των αποτελεσμάτων, χρησιμοποιήθηκε ο αλγόριθμος k-means, ο οποίος βασίζεται στη διαμεριστική τεχνική ομαδοποίησης (partitional clustering) για την ομαδοποίηση των δεδομένων. Ουσιαστικά, η εφαρμογή του αλγορίθμου k-means διαχωρίζει τα δεδομένα σε k συστάδες (clusters) . Ωστόσο, η τιμή του k δίνεται προκαταβολικά από το χρήστη ως όρισμα σε συνάρτηση, κάθε φορά που επιθυμεί να εκτελέσει τον αλγόριθμο σε ένα σύνολο δεδομένων. Η διασταύρωση και εξακρίβωση των αποτελεσμάτων χρησιμοποιείται σαφώς για να μπορούν τα αποτελέσματα που προέκυψαν να θεωρούνται έγκυρα. Επιπλέον, για την εκτίμηση των αποτελεσμάτων χρησιμοποιήθηκαν μετρικές απόδοσης της συσταδοποίησης και ομοιότητας μεταξύ των συστάδων. Συγκεκριμένα, στα συνθετικά δεδομένα που χρησιμοποιήθηκαν εφαρμόστηκαν μετρικές όπως η ομοιογένεια (homogeneity metric), η πληρότητα (completeness) των συστάδων, αλλά και η επέκταση των δύο προαναφερθέντων, το μέτρο V (V-Measure). Έπειτα, αφού πιστοποιήθηκε η εκτέλεση του αλγορίθμου DBSCAN στα συνθετικά δεδομένα, ακολούθησαν και πειραματισμοί στα πραγματικά σύνολα δεδομένων. Όσον αφορά τα πραγματικά δεδομένα, αποτελούνται από ολιγάριθμα σύνολα δεδομένων που κατά σειρά κλιμακώνονται σε μέγεθος. Για την εκτίμηση τους, κυριότερη και πιο εύχρηστη τεχνική κατηγοριοποίησης αποτέλεσε η λογιστική παλινδρόμηση(Logistic Regression). Τέλος, οι παραπάνω αλγόριθμοι ενσωματώθηκαν σε εξειδικευμένες συναρτήσεις με σκοπό την παραμετροποίηση τους για προβλήματα μεγάλου όγκου δεδομένων (Big Data, Stream Computing). In this graduate thesis, we delve into the issue of noise presence in clustering algorithms. Specifically, our main goal is to partially reduce or even fully eradicate noise in known clustering algorithms via efficient practice of data classification in datasets of varying size. It must be stated that algorithms that function as above belong to the wider category of unsupervised learning algorithms. Apropos, we employ the DBSCAN clustering algorithm to aid us in the visualization of noise in clusters due to its innate ability to handle noise with great success. Furthermore, the number of clusters, while hinted at from the dataset target at hand, is not predetermined but becomes apparent after the clustering algorithm has been implemented to the dataset. To corroborate our results, we proceeded to use the k-means clustering algorithm as a means of cross-validation and contrast, as opposed to the results provided by DBSCAN. At its core, k-means is a clustering algorithm that employs partitional clustering to split any given dataset into k clusters. Nevertheless, the number of clusters is designated by the user beforehand and is represented by the number k. Moreover, cross-checking and validation of the results is synonymous to precise and trustworthy conclusions, thus we implemented a set of precision and similarity metrics to the clustered data. Our data consists of two categories: artificially generated data and real-world data. As for the former (artificially generated data), we applied metrics such as the homogeneity metric, the completeness of the clusters and finally a combination of the two, the V-measure metric. Subsequently, having validated the artificial data provided to the DBSCAN algorithm, experimenting with the latter followed (real-world data). Therefore, we concluded that the classification that would provide the best results was the Logistic Regression classification method. To end with, we performed slight modifications to the default DBSCAN and k-means algorithms structure and integrated them into functions with customization and scalability in mind; hence being able to implement clustering to large size datasets applications (Big Data, Stream Computing). 2022-02-22T12:26:13Z 2022-02-22T12:26:13Z 2022-02-02 http://hdl.handle.net/10889/15813 gr application/pdf