Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης
Στη διπλωματική εργασία, στόχος ήταν η επιστράτευση τεχνικών κατηγοριοποίησης δεδομένων (data classification) με σκοπό την εξάλειψη του θορύβου σε αλγορίθμους που πραγματοποιούν συσταδοποίηση. Πιο συγκεκριμένα, οι αλγόριθμοι αυτοί ανήκουν στη κατηγορία της μη επιτηρούμενης μάθησης (unsupervise...
Main Author: | |
---|---|
Other Authors: | |
Language: | Greek |
Published: |
2022
|
Subjects: | |
Online Access: | http://hdl.handle.net/10889/15813 |
id |
nemertes-10889-15813 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Εξόρυξη δεδομένων Συσταδοποίηση Κατηγοριοποίηση Αλγόριθμος DBSCAN Data mining Clustering Classification DBSCAN algorithm |
spellingShingle |
Εξόρυξη δεδομένων Συσταδοποίηση Κατηγοριοποίηση Αλγόριθμος DBSCAN Data mining Clustering Classification DBSCAN algorithm Καρμαλής, Μάριος Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης |
description |
Στη διπλωματική εργασία, στόχος ήταν η επιστράτευση τεχνικών κατηγοριοποίησης
δεδομένων (data classification) με σκοπό την εξάλειψη του θορύβου σε αλγορίθμους που
πραγματοποιούν συσταδοποίηση. Πιο συγκεκριμένα, οι αλγόριθμοι αυτοί ανήκουν στη
κατηγορία της μη επιτηρούμενης μάθησης (unsupervised learning). Η κατηγοριοποίηση (
δεδομένων ) θα υλοποιηθεί σε αλγόριθμο με βάση τη πυκνότητα των δεδομένων κατά τη
συσταδοποίηση, τον αλγόριθμο DBSCAN: Density-Based Supervised Clustering of
Applications with Noise. Ο αλγόριθμος που προαναφέρθηκε, ειδικεύεται στην διαχείριση
δεδομένων & εφαρμογών στα οποία εμπεριέχεται θόρυβος. Ο αριθμός των συστάδων
εξαρτάται από τον εκάστοτε επιθυμητό στόχο που υποδεικνύεται από το σύνολο
δεδομένων(dataset target) ,χωρίς βέβαια να ορίζεται πριν την εφαρμογή του αλγορίθμου, ενώ
προκύπτει κατά τη συσταδοποίηση.
Για την ορθή εξακρίβωση των αποτελεσμάτων, χρησιμοποιήθηκε ο αλγόριθμος k-means, ο
οποίος βασίζεται στη διαμεριστική τεχνική ομαδοποίησης (partitional clustering) για την
ομαδοποίηση των δεδομένων. Ουσιαστικά, η εφαρμογή του αλγορίθμου k-means διαχωρίζει
τα δεδομένα σε k συστάδες (clusters) . Ωστόσο, η τιμή του k δίνεται προκαταβολικά από το
χρήστη ως όρισμα σε συνάρτηση, κάθε φορά που επιθυμεί να εκτελέσει τον αλγόριθμο σε ένα
σύνολο δεδομένων. Η διασταύρωση και εξακρίβωση των αποτελεσμάτων χρησιμοποιείται
σαφώς για να μπορούν τα αποτελέσματα που προέκυψαν να θεωρούνται έγκυρα. Επιπλέον, για
την εκτίμηση των αποτελεσμάτων χρησιμοποιήθηκαν μετρικές απόδοσης της συσταδοποίησης
και ομοιότητας μεταξύ των συστάδων. Συγκεκριμένα, στα συνθετικά δεδομένα που
χρησιμοποιήθηκαν εφαρμόστηκαν μετρικές όπως η ομοιογένεια (homogeneity metric), η
πληρότητα (completeness) των συστάδων, αλλά και η επέκταση των δύο προαναφερθέντων,
το μέτρο V (V-Measure). Έπειτα, αφού πιστοποιήθηκε η εκτέλεση του αλγορίθμου DBSCAN
στα συνθετικά δεδομένα, ακολούθησαν και πειραματισμοί στα πραγματικά σύνολα δεδομένων.
Όσον αφορά τα πραγματικά δεδομένα, αποτελούνται από ολιγάριθμα σύνολα δεδομένων που
κατά σειρά κλιμακώνονται σε μέγεθος. Για την εκτίμηση τους, κυριότερη και πιο εύχρηστη
τεχνική κατηγοριοποίησης αποτέλεσε η λογιστική παλινδρόμηση(Logistic Regression).
Τέλος, οι παραπάνω αλγόριθμοι ενσωματώθηκαν σε εξειδικευμένες συναρτήσεις με σκοπό την
παραμετροποίηση τους για προβλήματα μεγάλου όγκου δεδομένων (Big Data, Stream
Computing). |
author2 |
Karmalis, Marios |
author_facet |
Karmalis, Marios Καρμαλής, Μάριος |
author |
Καρμαλής, Μάριος |
author_sort |
Καρμαλής, Μάριος |
title |
Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης |
title_short |
Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης |
title_full |
Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης |
title_fullStr |
Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης |
title_full_unstemmed |
Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης |
title_sort |
τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/15813 |
work_keys_str_mv |
AT karmalēsmarios technikeskatēgoriopoiēsēsgiatēnexaleipsēthorybouapoalgorithmoussystadopoiēsēs AT karmalēsmarios classificationtechniquesforeradicationofnoiseinclusteringalgorithms |
_version_ |
1771297303273930752 |
spelling |
nemertes-10889-158132022-09-05T20:50:10Z Τεχνικές κατηγοριοποίησης για την εξάλειψη θορύβου από αλγορίθμους συσταδοποίησης Classification techniques for eradication of noise in clustering algorithms Καρμαλής, Μάριος Karmalis, Marios Εξόρυξη δεδομένων Συσταδοποίηση Κατηγοριοποίηση Αλγόριθμος DBSCAN Data mining Clustering Classification DBSCAN algorithm Στη διπλωματική εργασία, στόχος ήταν η επιστράτευση τεχνικών κατηγοριοποίησης δεδομένων (data classification) με σκοπό την εξάλειψη του θορύβου σε αλγορίθμους που πραγματοποιούν συσταδοποίηση. Πιο συγκεκριμένα, οι αλγόριθμοι αυτοί ανήκουν στη κατηγορία της μη επιτηρούμενης μάθησης (unsupervised learning). Η κατηγοριοποίηση ( δεδομένων ) θα υλοποιηθεί σε αλγόριθμο με βάση τη πυκνότητα των δεδομένων κατά τη συσταδοποίηση, τον αλγόριθμο DBSCAN: Density-Based Supervised Clustering of Applications with Noise. Ο αλγόριθμος που προαναφέρθηκε, ειδικεύεται στην διαχείριση δεδομένων & εφαρμογών στα οποία εμπεριέχεται θόρυβος. Ο αριθμός των συστάδων εξαρτάται από τον εκάστοτε επιθυμητό στόχο που υποδεικνύεται από το σύνολο δεδομένων(dataset target) ,χωρίς βέβαια να ορίζεται πριν την εφαρμογή του αλγορίθμου, ενώ προκύπτει κατά τη συσταδοποίηση. Για την ορθή εξακρίβωση των αποτελεσμάτων, χρησιμοποιήθηκε ο αλγόριθμος k-means, ο οποίος βασίζεται στη διαμεριστική τεχνική ομαδοποίησης (partitional clustering) για την ομαδοποίηση των δεδομένων. Ουσιαστικά, η εφαρμογή του αλγορίθμου k-means διαχωρίζει τα δεδομένα σε k συστάδες (clusters) . Ωστόσο, η τιμή του k δίνεται προκαταβολικά από το χρήστη ως όρισμα σε συνάρτηση, κάθε φορά που επιθυμεί να εκτελέσει τον αλγόριθμο σε ένα σύνολο δεδομένων. Η διασταύρωση και εξακρίβωση των αποτελεσμάτων χρησιμοποιείται σαφώς για να μπορούν τα αποτελέσματα που προέκυψαν να θεωρούνται έγκυρα. Επιπλέον, για την εκτίμηση των αποτελεσμάτων χρησιμοποιήθηκαν μετρικές απόδοσης της συσταδοποίησης και ομοιότητας μεταξύ των συστάδων. Συγκεκριμένα, στα συνθετικά δεδομένα που χρησιμοποιήθηκαν εφαρμόστηκαν μετρικές όπως η ομοιογένεια (homogeneity metric), η πληρότητα (completeness) των συστάδων, αλλά και η επέκταση των δύο προαναφερθέντων, το μέτρο V (V-Measure). Έπειτα, αφού πιστοποιήθηκε η εκτέλεση του αλγορίθμου DBSCAN στα συνθετικά δεδομένα, ακολούθησαν και πειραματισμοί στα πραγματικά σύνολα δεδομένων. Όσον αφορά τα πραγματικά δεδομένα, αποτελούνται από ολιγάριθμα σύνολα δεδομένων που κατά σειρά κλιμακώνονται σε μέγεθος. Για την εκτίμηση τους, κυριότερη και πιο εύχρηστη τεχνική κατηγοριοποίησης αποτέλεσε η λογιστική παλινδρόμηση(Logistic Regression). Τέλος, οι παραπάνω αλγόριθμοι ενσωματώθηκαν σε εξειδικευμένες συναρτήσεις με σκοπό την παραμετροποίηση τους για προβλήματα μεγάλου όγκου δεδομένων (Big Data, Stream Computing). In this graduate thesis, we delve into the issue of noise presence in clustering algorithms. Specifically, our main goal is to partially reduce or even fully eradicate noise in known clustering algorithms via efficient practice of data classification in datasets of varying size. It must be stated that algorithms that function as above belong to the wider category of unsupervised learning algorithms. Apropos, we employ the DBSCAN clustering algorithm to aid us in the visualization of noise in clusters due to its innate ability to handle noise with great success. Furthermore, the number of clusters, while hinted at from the dataset target at hand, is not predetermined but becomes apparent after the clustering algorithm has been implemented to the dataset. To corroborate our results, we proceeded to use the k-means clustering algorithm as a means of cross-validation and contrast, as opposed to the results provided by DBSCAN. At its core, k-means is a clustering algorithm that employs partitional clustering to split any given dataset into k clusters. Nevertheless, the number of clusters is designated by the user beforehand and is represented by the number k. Moreover, cross-checking and validation of the results is synonymous to precise and trustworthy conclusions, thus we implemented a set of precision and similarity metrics to the clustered data. Our data consists of two categories: artificially generated data and real-world data. As for the former (artificially generated data), we applied metrics such as the homogeneity metric, the completeness of the clusters and finally a combination of the two, the V-measure metric. Subsequently, having validated the artificial data provided to the DBSCAN algorithm, experimenting with the latter followed (real-world data). Therefore, we concluded that the classification that would provide the best results was the Logistic Regression classification method. To end with, we performed slight modifications to the default DBSCAN and k-means algorithms structure and integrated them into functions with customization and scalability in mind; hence being able to implement clustering to large size datasets applications (Big Data, Stream Computing). 2022-02-22T12:26:13Z 2022-02-22T12:26:13Z 2022-02-02 http://hdl.handle.net/10889/15813 gr application/pdf |