Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης

Στη διπλωματική εργασία, στόχος ήταν η επιστράτευση τεχνικών κατηγοριοποίησης δεδομένων (data classification) με σκοπό την εξάλειψη του θορύβου σε αλγορίθμους που πραγματοποιούν συσταδοποίηση. Πιο συγκεκριμένα, οι αλγόριθμοι αυτοί ανήκουν στη κατηγορία της μη επιτηρούμενης μάθησης (unsupervise...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Καρμαλής, Μάριος
Άλλοι συγγραφείς: Karmalis, Marios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15813
Περιγραφή
Περίληψη:Στη διπλωματική εργασία, στόχος ήταν η επιστράτευση τεχνικών κατηγοριοποίησης δεδομένων (data classification) με σκοπό την εξάλειψη του θορύβου σε αλγορίθμους που πραγματοποιούν συσταδοποίηση. Πιο συγκεκριμένα, οι αλγόριθμοι αυτοί ανήκουν στη κατηγορία της μη επιτηρούμενης μάθησης (unsupervised learning). Η κατηγοριοποίηση ( δεδομένων ) θα υλοποιηθεί σε αλγόριθμο με βάση τη πυκνότητα των δεδομένων κατά τη συσταδοποίηση, τον αλγόριθμο DBSCAN: Density-Based Supervised Clustering of Applications with Noise. Ο αλγόριθμος που προαναφέρθηκε, ειδικεύεται στην διαχείριση δεδομένων & εφαρμογών στα οποία εμπεριέχεται θόρυβος. Ο αριθμός των συστάδων εξαρτάται από τον εκάστοτε επιθυμητό στόχο που υποδεικνύεται από το σύνολο δεδομένων(dataset target) ,χωρίς βέβαια να ορίζεται πριν την εφαρμογή του αλγορίθμου, ενώ προκύπτει κατά τη συσταδοποίηση. Για την ορθή εξακρίβωση των αποτελεσμάτων, χρησιμοποιήθηκε ο αλγόριθμος k-means, ο οποίος βασίζεται στη διαμεριστική τεχνική ομαδοποίησης (partitional clustering) για την ομαδοποίηση των δεδομένων. Ουσιαστικά, η εφαρμογή του αλγορίθμου k-means διαχωρίζει τα δεδομένα σε k συστάδες (clusters) . Ωστόσο, η τιμή του k δίνεται προκαταβολικά από το χρήστη ως όρισμα σε συνάρτηση, κάθε φορά που επιθυμεί να εκτελέσει τον αλγόριθμο σε ένα σύνολο δεδομένων. Η διασταύρωση και εξακρίβωση των αποτελεσμάτων χρησιμοποιείται σαφώς για να μπορούν τα αποτελέσματα που προέκυψαν να θεωρούνται έγκυρα. Επιπλέον, για την εκτίμηση των αποτελεσμάτων χρησιμοποιήθηκαν μετρικές απόδοσης της συσταδοποίησης και ομοιότητας μεταξύ των συστάδων. Συγκεκριμένα, στα συνθετικά δεδομένα που χρησιμοποιήθηκαν εφαρμόστηκαν μετρικές όπως η ομοιογένεια (homogeneity metric), η πληρότητα (completeness) των συστάδων, αλλά και η επέκταση των δύο προαναφερθέντων, το μέτρο V (V-Measure). Έπειτα, αφού πιστοποιήθηκε η εκτέλεση του αλγορίθμου DBSCAN στα συνθετικά δεδομένα, ακολούθησαν και πειραματισμοί στα πραγματικά σύνολα δεδομένων. Όσον αφορά τα πραγματικά δεδομένα, αποτελούνται από ολιγάριθμα σύνολα δεδομένων που κατά σειρά κλιμακώνονται σε μέγεθος. Για την εκτίμηση τους, κυριότερη και πιο εύχρηστη τεχνική κατηγοριοποίησης αποτέλεσε η λογιστική παλινδρόμηση(Logistic Regression). Τέλος, οι παραπάνω αλγόριθμοι ενσωματώθηκαν σε εξειδικευμένες συναρτήσεις με σκοπό την παραμετροποίηση τους για προβλήματα μεγάλου όγκου δεδομένων (Big Data, Stream Computing).