Στατιστική ανάλυση δεδομένων με ακραίες και ελλιπούσες τιμές

Κατά την στατιστική επεξεργασία και ανάλυση των δεδομένων οι ερευνητές έρχονται αντιμέτωποι με πολλά προβλήματα, τα οποία μπορεί να οφείλονται τόσο σε λάθος σχεδιασμό της έρευνας όσο και σε κάποιους αστάθμητους παράγοντες. Στη συλλογή πληροφοριών παρατηρούνται ελλείψεις στα δεδομένα καθώς και ακραί...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μπούρου, Δήμητρα
Άλλοι συγγραφείς: Αλεβίζος, Φίλιππος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2017
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/9972
Περιγραφή
Περίληψη:Κατά την στατιστική επεξεργασία και ανάλυση των δεδομένων οι ερευνητές έρχονται αντιμέτωποι με πολλά προβλήματα, τα οποία μπορεί να οφείλονται τόσο σε λάθος σχεδιασμό της έρευνας όσο και σε κάποιους αστάθμητους παράγοντες. Στη συλλογή πληροφοριών παρατηρούνται ελλείψεις στα δεδομένα καθώς και ακραίες τιμές, στην παρούσα διπλωματική θα παρουσιαστούν τρόποι αντιμετώπισης αυτών με σκοπό όσο το δυνατόν καλύτερη εξαγωγή πληροφορίας από τα δεδομένα. Η συλλογή πληροφοριών και δεδομένων καθώς και η εξόρυξη γνώσης χρησιμοποιούνται σε πολλούς τομείς της σύγχρονης κοινωνίας. Σκοπό αυτής της εργασίας αποτελεί η παρουσίαση των μεθόδων που χρησιμοποιούνται σήμερα για την αντιμετώπιση του προβλήματος του χειρισμού δεδομένων με ακραία και ελλιπή στοιχεία και η σύγκριση τους με σκοπό την καλύτερη αντιμετώπιση του προβλήματος. Στο πρώτο κεφάλαιο πραγματοποιείται μια εισαγωγή στον χώρο των ακραίων τιμών. Οι ακραίες τιμές (outliers) ανέκαθεν αποτελούσαν θορυβώδη δεδομένα στον τομέα της στατιστικής. Σήμερα όμως, ο εντοπισμός και η ερμηνεία τους έχει εξελιχθεί σε ένα σημαντικό ερευνητικό και πρακτικό πρόβλημα το οποίο ερευνάται από πολλούς διαφορετικούς κλάδους. Έχει πλέον αναπτυχθεί ποικιλία τεχνικών εντοπισμού ακραίων τιμών, τόσο εξειδικευμένες σε συγκεκριμένα προβλήματα όσο και γενικής φύσεως. Βέβαια, οι τεχνικές και τα αποτελέσματα τους δεν είναι εύκολα στην χρήση και στην ερμηνεία και, ως εκ τούτου, ο κλάδος της εξόρυξης δεδομένων παρουσιάζει μεγάλο ενδιαφέρον και ενεργή ερευνητική κοινότητα. Ο εντοπισμός ακραίων τιμών στοχεύει στην εύρεση προτύπων στα δεδομένα τα οποία δεν συμφωνούν με την τυπική «συμπεριφορά» του συνόλου δεδομένων. Στο δεύτερο κεφάλαιο κάνουμε πλήρη ανάλυση στο πρόβλημα των ελλιπουσών τιμών. Αναλύονται οι μορφές των ελλιπουσών τιμών στα δεδομένα, στη συνέχεια παρουσιάζονται οι αιτίες για τις οποίες υπάρχουν ελλιπή στοιχεία και στο τέλος αυτού του κεφαλαίου αναλύονται οι μέθοδοι που χρησιμοποιούνται για την αντιμετώπιση των ελλιπουσών δεδομένων. Εν συνεχεία, στο τρίτο κεφάλαιο χρησιμοποιήσαμε κάποιες περιγραφικές στατιστικές μεθόδους όπου μας έδωσαν μια γενική εικόνα για τα δεδομένα μας. Στο κύριο κομμάτι της ανάλυσης παρουσιάζονται στατικές μεθόδους ανάλυσης όπως απλή παλινδρόμηση , πολλαπλή παλινδρόμηση καθώς και λογιστικής παλινδρόμησης. Η λογιστική παλινδρόμηση είναι χρήσιμη σε καταστάσεις στις οποίες επιθυμούμε να προβλέψουμε την ύπαρξη ή την απουσία ενός χαρακτηριστικού ή ενός συμβάντος. Η πρόβλεψη αυτή βασίζεται στην κατασκευή ενός μοντέλου και συγκεκριμένα στον προσδιορισμό των τιμών που παίρνουν οι συντελεστές. Αυτή η μέθοδος είναι μια γενίκευση της απλή γραμμικής παλινδρόμησης για την περίπτωση όπου η εξαρτημένη μεταβλητή είναι δίτιμη (παίρνει την τιμή 0 όταν το χαρακτηριστικό απουσιάζει και την τιμή 1 όταν υπάρχει το χαρακτηριστικό). Τέλος, στο τέταρτο κεφάλαιο κάνουμε μια εφαρμογή σε δεδομένα με ελλιπούσες τιμές με την χρήση του στατιστικού πακέτου R. Θα χρησιμοποιήσουμε μερικές μεθόδους που αναφέραμε για να λύσουμε το πρόβλημα των ελλιπουσών τιμών και στην συνέχεια θα αναλύσουμε το μοντέλο με κατάλληλες στατιστικές μεθόδους. Θα συγκρίνουμε τα αποτελέσματα από την στατιστική ανάλυση με το αρχικό σύνολο δεδομένων και το σύνολο με τις ελλιπούσες τιμές.