Περίληψη: | Η ομαδοποίηση δεδομένων αποτελεί ένα από τα αναπτυσσόμενα πεδία έρευνας στον τομέα της μηχανικής μάθησης και της εξόρυξης δεδομένων λόγω της εφαρμογής της σε πληθώρα προβλημάτων. Η εκτεταμένη ανάγκη για ομαδοποίηση σε διάφορες εφαρμογές οδήγησε αναπόφευκτα στη δημιουργία πολλών αλγορίθμων, ο καθένας από τους οποίους έχει σχεδιασθεί με σκοπό να αποδίδει καλύτερα σε συγκεκριμένο τύπο προβλημάτων.
Σε αρκετά προβλήματα Βιοπληροφορικής, οι οντότητες των δεδομένων που εμπλέκονται μπορούν να αναπαρασταθούν αποδοτικά και αποτελεσματικά μέσω γράφων, ως μια συλλογή από κόμβους και ακμές. Ένας από τους πιο γνωστούς αλγορίθμους που χρησιμοποιείται σε τέτοια προβλήματα είναι ο Markov Clustering Algorithm (MCL).
Στην παρούσα διπλωματική εργασία,εφαρμόζουμε τον Αλγόριθμο Markov Clustering (MCL) σε διαφορετικές βάσεις δεδομένων (Ιris flower data set & ShapeDNA_Shrec 11) αλλά και σε απλούς γράφους με σκοπό την ομαδοποίηση των αρχικών μας δεδομέων.
Στο πρώτο κεφάλαιο, αναφέρουμε τις μεθόδους ομαδοποίησης. Δηλαδή, κάνουμε μια εισαγωγή στην ομαδοποίηση, στον ορισμό της και στις τεχνικές της.Γίνετε αναφορά στον αλγόριθμο k-means, fuzzy c-means, spectral clustering και στα μέτρα ομοιότητας και απόστασης.
Στο δεύτερο κεφάλαιο, γίνετε αναφορά στον αλγόριθμο MCL.Δηλαδή, στον ορισμό του, στις βασικές διαδικασίες, στα στάδιά και στην πολυπλοκότητά του. Στο κεφάλαιο αυτό, παρουσιάζονται και τα δύο απλά παραδείγματα των γράφων μέσω του προγράμματος Matlab.
Στο τρίτο κεφάλαιο, παρουσιάζουμε τα πειραματικά αποτελέσματα. Δηλαδή, τα πειραματικά δεδομένα, τους κώδικες Matlab και τα αποτελέσματα που προκύπτουν.
Στο τέταρτο και τελευταίο κεφάλαιο παρουσιάζουμε τα συμπεράσματα.
|