Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών

Το πρόβλημα εντοπισμού των έκτροπων τιμών (outliers) αποτελεί ένα από τα πιο διαδεδομένα σε θέματα μηχανικής μάθησης, εξόρυξης δεδομένων αλλά και στατιστικής. Η αιτία για την οποία κρίνεται απαραίτητος ο εντοπισμός των έκτροπων τιμών είναι ότι επηρεάζουν σημαντικά την ανάλυση ενός συνόλου δεδομένων....

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Βλαχογεώργος, Μάριος
Άλλοι συγγραφείς: Vlachogeorgos, Marios
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13557
Περιγραφή
Περίληψη:Το πρόβλημα εντοπισμού των έκτροπων τιμών (outliers) αποτελεί ένα από τα πιο διαδεδομένα σε θέματα μηχανικής μάθησης, εξόρυξης δεδομένων αλλά και στατιστικής. Η αιτία για την οποία κρίνεται απαραίτητος ο εντοπισμός των έκτροπων τιμών είναι ότι επηρεάζουν σημαντικά την ανάλυση ενός συνόλου δεδομένων. Για το λόγο αυτό έχει αναπτυχθεί μια ποικιλία μεθόδων η οποία συμβάλει στον εντοπισμό τους. Ωστόσο ορισμένες μέθοδοι είναι ευαίσθητες σε ιδιαιτερότητες που συναντώνται σε σύνολα δεδομένων. Μια λύση για την αντιμετώπιση του συγκεκριμένου προβλήματος είναι η χρήση μεθόδων ομαδοποίησης οι οποίες αποτελούν το θέμα της διπλωματικής εργασίας. Αρχικά στο κεφάλαιο 1 αναφέρεται ο ορισμός της έκτροπης τιμής (outlier) η οποία ορίζεται σαν μια παρατηρήση ενός συνόλου δεδομένων η οποία αποκλίνει από τις υπόλοιπες παρατηρήσεις. Στη συνέχεια αναφέρονται διάφορα είδη έκτροπων τιμών όπως επίσης και κάποιες κατηγορίες μεθόδων οι οποίες εξαρτώνται από την παρουσία εξαρτημένης μεταβλητής στο σύνολο δεδομένων (επιβλεπόμενες, μη επιβλεπόμενες και ημι-επιβλέπομενες μέθοδοι). Στο τέλος του 1ου κεφαλαίου προσδιορίζεται η έξοδος των μεθόδων εντοπισμού αλλά και πως αξιολογούνται αυτές οι τεχνικές (ROC-AUC).Στη συνέχεια στο κεφάλαιο 2 προσδιορίζονται μια ταξονομία των διάφορων τεχνικών εντοπισμού των έκτροπων τιμών. Επιπρόσθετα με βάση την συγκεκριμένη ταξονομία προσδιορίζονται ορισμένες από τις βασικές μεθόδου εντοπισμού. Στο κεφάλαιο 3 πραγματοποείται μια αναφορά στις μεθόδους ομαδοποίησης για τον εντοπισμό έκτροπων τιμών. Αρχικά αναλύεται το θεωρητικό μέρος το οποίο περιλαμβάνει τον προσδιορισμό των μεθόδων ομαδοποίησης,την ανάλυση συναρτήσεων συνδυασμού των εξόδων (μεγιστη & μέση τιμή) ,αναφορά σε κατηγορίες μεθόδων μεθόδου δίνοντας έμφαση σε μεθόδους μείωσης της διακύμανσης και μεροληψίας καθώς οι συγκεκριμένες ποσότητες επηρεάζουν σημαντικά το σφάλμα κάθε μεθόδου. Στη συνέχεια πραγματοποιείται μια αναφορά στο τρόπο λειτουργίας συγκεκριμένων μεθόδων ομαδοποίησης μείωσης διακύμανσης-μεροληψίας. Στο κεφάλαιο 4 περιλαμβάνεται η πειραματική διαδικασία για την οποία επιλέγονται κάποιες βασικές και μέθοδοι ομαδοποίησης εντοπισμού έκτροπων τιμών. H πειραματική διαδικασία αποτελείται από μια σύγκριση της ακρίβειας ROC-AUC και της χρονικής πολυπλοκότητας βασικών και μεθόδων ομαδοποίησης, από μια οπτικοποίηση των αποτελεσμάτων των μεθόδων για συγκεκριμένο σύνολο δεδομένων και από έναν τρόπο εντοπισμού έκτροπων τιμών χρησιμοποιώντας συγκεκριμένες μεθόδους. Ολοκληρώνοντας στο κεφάλαιο 5 αναλύνται τα συμπεράσματα στα οποία φαίνεται οτι η χρήση των τεχνικών ομαδοποίησης οδηγεί σε ακριβέστερα αποτελέσματα σε σχέση με την εφαρμογή βασικών μεθόδων εντοπισμού και ειδικότερα παρατηρείται ότι ο συνδυασμός των αποτελεσμάτων με χρήση οποίασδήποτε μεθόδου εντοπισμού επιφέρει καλύτερα αποτελέσματα σε σχέση με την αρχική εφαρμογή της ίδιας μεθόδου.