Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών

Το πρόβλημα εντοπισμού των έκτροπων τιμών (outliers) αποτελεί ένα από τα πιο διαδεδομένα σε θέματα μηχανικής μάθησης, εξόρυξης δεδομένων αλλά και στατιστικής. Η αιτία για την οποία κρίνεται απαραίτητος ο εντοπισμός των έκτροπων τιμών είναι ότι επηρεάζουν σημαντικά την ανάλυση ενός συνόλου δεδομένων....

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Βλαχογεώργος, Μάριος
Άλλοι συγγραφείς: Vlachogeorgos, Marios
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13557
id nemertes-10889-13557
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Έκτροπες τιμές
Βασικές μέθοδοι εντοπισμού έκτροπων τιμών
Μέθοδοι ομαδοποίησης
Outliers
Outlier detection methods
Ensemble methods
spellingShingle Έκτροπες τιμές
Βασικές μέθοδοι εντοπισμού έκτροπων τιμών
Μέθοδοι ομαδοποίησης
Outliers
Outlier detection methods
Ensemble methods
Βλαχογεώργος, Μάριος
Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών
description Το πρόβλημα εντοπισμού των έκτροπων τιμών (outliers) αποτελεί ένα από τα πιο διαδεδομένα σε θέματα μηχανικής μάθησης, εξόρυξης δεδομένων αλλά και στατιστικής. Η αιτία για την οποία κρίνεται απαραίτητος ο εντοπισμός των έκτροπων τιμών είναι ότι επηρεάζουν σημαντικά την ανάλυση ενός συνόλου δεδομένων. Για το λόγο αυτό έχει αναπτυχθεί μια ποικιλία μεθόδων η οποία συμβάλει στον εντοπισμό τους. Ωστόσο ορισμένες μέθοδοι είναι ευαίσθητες σε ιδιαιτερότητες που συναντώνται σε σύνολα δεδομένων. Μια λύση για την αντιμετώπιση του συγκεκριμένου προβλήματος είναι η χρήση μεθόδων ομαδοποίησης οι οποίες αποτελούν το θέμα της διπλωματικής εργασίας. Αρχικά στο κεφάλαιο 1 αναφέρεται ο ορισμός της έκτροπης τιμής (outlier) η οποία ορίζεται σαν μια παρατηρήση ενός συνόλου δεδομένων η οποία αποκλίνει από τις υπόλοιπες παρατηρήσεις. Στη συνέχεια αναφέρονται διάφορα είδη έκτροπων τιμών όπως επίσης και κάποιες κατηγορίες μεθόδων οι οποίες εξαρτώνται από την παρουσία εξαρτημένης μεταβλητής στο σύνολο δεδομένων (επιβλεπόμενες, μη επιβλεπόμενες και ημι-επιβλέπομενες μέθοδοι). Στο τέλος του 1ου κεφαλαίου προσδιορίζεται η έξοδος των μεθόδων εντοπισμού αλλά και πως αξιολογούνται αυτές οι τεχνικές (ROC-AUC).Στη συνέχεια στο κεφάλαιο 2 προσδιορίζονται μια ταξονομία των διάφορων τεχνικών εντοπισμού των έκτροπων τιμών. Επιπρόσθετα με βάση την συγκεκριμένη ταξονομία προσδιορίζονται ορισμένες από τις βασικές μεθόδου εντοπισμού. Στο κεφάλαιο 3 πραγματοποείται μια αναφορά στις μεθόδους ομαδοποίησης για τον εντοπισμό έκτροπων τιμών. Αρχικά αναλύεται το θεωρητικό μέρος το οποίο περιλαμβάνει τον προσδιορισμό των μεθόδων ομαδοποίησης,την ανάλυση συναρτήσεων συνδυασμού των εξόδων (μεγιστη & μέση τιμή) ,αναφορά σε κατηγορίες μεθόδων μεθόδου δίνοντας έμφαση σε μεθόδους μείωσης της διακύμανσης και μεροληψίας καθώς οι συγκεκριμένες ποσότητες επηρεάζουν σημαντικά το σφάλμα κάθε μεθόδου. Στη συνέχεια πραγματοποιείται μια αναφορά στο τρόπο λειτουργίας συγκεκριμένων μεθόδων ομαδοποίησης μείωσης διακύμανσης-μεροληψίας. Στο κεφάλαιο 4 περιλαμβάνεται η πειραματική διαδικασία για την οποία επιλέγονται κάποιες βασικές και μέθοδοι ομαδοποίησης εντοπισμού έκτροπων τιμών. H πειραματική διαδικασία αποτελείται από μια σύγκριση της ακρίβειας ROC-AUC και της χρονικής πολυπλοκότητας βασικών και μεθόδων ομαδοποίησης, από μια οπτικοποίηση των αποτελεσμάτων των μεθόδων για συγκεκριμένο σύνολο δεδομένων και από έναν τρόπο εντοπισμού έκτροπων τιμών χρησιμοποιώντας συγκεκριμένες μεθόδους. Ολοκληρώνοντας στο κεφάλαιο 5 αναλύνται τα συμπεράσματα στα οποία φαίνεται οτι η χρήση των τεχνικών ομαδοποίησης οδηγεί σε ακριβέστερα αποτελέσματα σε σχέση με την εφαρμογή βασικών μεθόδων εντοπισμού και ειδικότερα παρατηρείται ότι ο συνδυασμός των αποτελεσμάτων με χρήση οποίασδήποτε μεθόδου εντοπισμού επιφέρει καλύτερα αποτελέσματα σε σχέση με την αρχική εφαρμογή της ίδιας μεθόδου.
author2 Vlachogeorgos, Marios
author_facet Vlachogeorgos, Marios
Βλαχογεώργος, Μάριος
author Βλαχογεώργος, Μάριος
author_sort Βλαχογεώργος, Μάριος
title Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών
title_short Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών
title_full Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών
title_fullStr Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών
title_full_unstemmed Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών
title_sort μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών
publishDate 2020
url http://hdl.handle.net/10889/13557
work_keys_str_mv AT blachogeōrgosmarios methodoiomadopoiēsēsgiatonentopismoektropōntimōn
AT blachogeōrgosmarios outlierdetectionusingensemblemethods
_version_ 1799945004884426752
spelling nemertes-10889-135572022-09-06T05:14:11Z Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών Outlier detection using ensemble methods Βλαχογεώργος, Μάριος Vlachogeorgos, Marios Έκτροπες τιμές Βασικές μέθοδοι εντοπισμού έκτροπων τιμών Μέθοδοι ομαδοποίησης Outliers Outlier detection methods Ensemble methods Το πρόβλημα εντοπισμού των έκτροπων τιμών (outliers) αποτελεί ένα από τα πιο διαδεδομένα σε θέματα μηχανικής μάθησης, εξόρυξης δεδομένων αλλά και στατιστικής. Η αιτία για την οποία κρίνεται απαραίτητος ο εντοπισμός των έκτροπων τιμών είναι ότι επηρεάζουν σημαντικά την ανάλυση ενός συνόλου δεδομένων. Για το λόγο αυτό έχει αναπτυχθεί μια ποικιλία μεθόδων η οποία συμβάλει στον εντοπισμό τους. Ωστόσο ορισμένες μέθοδοι είναι ευαίσθητες σε ιδιαιτερότητες που συναντώνται σε σύνολα δεδομένων. Μια λύση για την αντιμετώπιση του συγκεκριμένου προβλήματος είναι η χρήση μεθόδων ομαδοποίησης οι οποίες αποτελούν το θέμα της διπλωματικής εργασίας. Αρχικά στο κεφάλαιο 1 αναφέρεται ο ορισμός της έκτροπης τιμής (outlier) η οποία ορίζεται σαν μια παρατηρήση ενός συνόλου δεδομένων η οποία αποκλίνει από τις υπόλοιπες παρατηρήσεις. Στη συνέχεια αναφέρονται διάφορα είδη έκτροπων τιμών όπως επίσης και κάποιες κατηγορίες μεθόδων οι οποίες εξαρτώνται από την παρουσία εξαρτημένης μεταβλητής στο σύνολο δεδομένων (επιβλεπόμενες, μη επιβλεπόμενες και ημι-επιβλέπομενες μέθοδοι). Στο τέλος του 1ου κεφαλαίου προσδιορίζεται η έξοδος των μεθόδων εντοπισμού αλλά και πως αξιολογούνται αυτές οι τεχνικές (ROC-AUC).Στη συνέχεια στο κεφάλαιο 2 προσδιορίζονται μια ταξονομία των διάφορων τεχνικών εντοπισμού των έκτροπων τιμών. Επιπρόσθετα με βάση την συγκεκριμένη ταξονομία προσδιορίζονται ορισμένες από τις βασικές μεθόδου εντοπισμού. Στο κεφάλαιο 3 πραγματοποείται μια αναφορά στις μεθόδους ομαδοποίησης για τον εντοπισμό έκτροπων τιμών. Αρχικά αναλύεται το θεωρητικό μέρος το οποίο περιλαμβάνει τον προσδιορισμό των μεθόδων ομαδοποίησης,την ανάλυση συναρτήσεων συνδυασμού των εξόδων (μεγιστη & μέση τιμή) ,αναφορά σε κατηγορίες μεθόδων μεθόδου δίνοντας έμφαση σε μεθόδους μείωσης της διακύμανσης και μεροληψίας καθώς οι συγκεκριμένες ποσότητες επηρεάζουν σημαντικά το σφάλμα κάθε μεθόδου. Στη συνέχεια πραγματοποιείται μια αναφορά στο τρόπο λειτουργίας συγκεκριμένων μεθόδων ομαδοποίησης μείωσης διακύμανσης-μεροληψίας. Στο κεφάλαιο 4 περιλαμβάνεται η πειραματική διαδικασία για την οποία επιλέγονται κάποιες βασικές και μέθοδοι ομαδοποίησης εντοπισμού έκτροπων τιμών. H πειραματική διαδικασία αποτελείται από μια σύγκριση της ακρίβειας ROC-AUC και της χρονικής πολυπλοκότητας βασικών και μεθόδων ομαδοποίησης, από μια οπτικοποίηση των αποτελεσμάτων των μεθόδων για συγκεκριμένο σύνολο δεδομένων και από έναν τρόπο εντοπισμού έκτροπων τιμών χρησιμοποιώντας συγκεκριμένες μεθόδους. Ολοκληρώνοντας στο κεφάλαιο 5 αναλύνται τα συμπεράσματα στα οποία φαίνεται οτι η χρήση των τεχνικών ομαδοποίησης οδηγεί σε ακριβέστερα αποτελέσματα σε σχέση με την εφαρμογή βασικών μεθόδων εντοπισμού και ειδικότερα παρατηρείται ότι ο συνδυασμός των αποτελεσμάτων με χρήση οποίασδήποτε μεθόδου εντοπισμού επιφέρει καλύτερα αποτελέσματα σε σχέση με την αρχική εφαρμογή της ίδιας μεθόδου. Detecting outliers, which are observations that deviate significantly from the rest observations of a dataset, is one of the most common problems in the fields of machine learning, data mining, and statistics. The importance of this task lies in the fact that the existence of outliers can affect the analysis of a dataset, as well as the reliability of the conclusions drawn from them. In order to deal with this problem, a variety of methods has been developed. However, plenty of these methods are very sensitive to different particularities of the dataset. An approach that has been proposed to overcome this obstacle is the development and the use of ensembles methods, in order to detect outliers. In chapter 1, the definition of outliers is referred. Moreover, different types of outliers, as well as some categories based on the availability of the ground truth are analyzed. At the end of this chapter outlier detection’s output is determined as well as how these techniques are evaluated (ROC-AUC). In chapter 2, a taxonomy of outlier detection methods is presented and moreover, some basic outlier detection methods are briefly explained. In chapter 3 the philosophy of ensemble methods is presented, along with the way these methods work based on the tradeoff of bias-variance. Chapter 4 includes the experimental procedure following by a performance comparison based on ROC-AUC and time complexity for both single and ensemble methods. In addition, visualization on a specific dataset for different single and ensemble methods is illustrated, in order to specify the outliers each method detects. The conclusions of this work can be found in chapter 5 where the results of the experimental procedure are discussed. In general, ensemble methods seem to be more accurate for outlier detection than single outlier detection methods. Especially, model combination methods for outlier ensembles with a specific outlier detection method are more effective than the initial implementation of the same method 2020-07-12T14:22:46Z 2020-07-12T14:22:46Z 2020-06 http://hdl.handle.net/10889/13557 gr application/pdf