Περίληψη: | Μια ευρέως χρησιμοποιούμενη μέθοδος μηχανικής μάθησης είναι εκείνη που βασίζεται σε δένδρα απόφασης. Κατά την συγκεκριμένη μέθοδο, επιχειρείται η προσέγγιση μιας κατηγορικής συνάρτησης στόχου, ακολουθώντας την τεχνική του «διαίρει και βασίλευε» (Divide and Conquer). Ο χώρος του προβλήματος χωρίζεται σε περιοχές από στιγμιότυπα που φέρουν την ίδια τιμή ως προς κάποια μεταβλητή χαρακτηριστικό, και η διαδικασία επαναλαμβάνεται αναδρομικά, αναπαριστώντας με τον τρόπο αυτό το παραγόμενο μοντέλο ως δένδρο απόφασης. Στα θετικά σημεία των δέντρων απόφασης συγκαταλέγονται: η γρήγορη εκπαίδευση και η δυνατότητα μεταφοράς του παραγόμενου μοντέλου από δένδρο απόφασης σε ένα σύνολο κανόνων συμπερασμού (if – then rules), προς διευκόλυνση της κατανόησής του.
Η παρούσα διπλωματική εργασία αποτελείται από δυο μέρη, το θεωρητικό και το πειραματικό μέρος. Στο θεωρητικό μέρος θα αναπτύξουμε τη πληθώρα των αλγορίθμων που υπάρχουν διαθέσιμοι και υλοποιούν την διαδικασία λήψης απόφασης χρησιμοποιώντας τα δέντρα απόφασης, καθώς και τις βελτιώσεις των αλγορίθμων που υλοποιήθηκαν με τη πάροδο των χρόνων. Εν συνεχεία, στο πειραματικό μέρος θα προσπαθήσουμε να αξιολογήσουμε την αποδοτικότητα των εν λόγω αλγορίθμων μέσω στατιστικής ανάλυσης ελεύθερα διαθέσιμων δεδομένων με σκοπό να καταλήξουμε στους «κορυφαίους» από πλευράς απόδοσης και αποτελεσματικότητας, εφόσον υπάρχουν.
Στόχος αυτής της διπλωματικής εργασίας είναι η σύγκριση σχεδόν του συνόλου των σύγχρονων αλγορίθμων δημιουργίας δέντρων αποφάσεων σε ένα μεγάλο πλήθος ελεύθερα διαθέσιμων δεδομένων. Μια στατιστική ανάλυση των αποτελεσμάτων της πειραματικής διαδικασίας δίνει χρήσιμα συμπεράσματα ως προς την αποτελεσματικότητα και την αποδοτικότητα των συγκεκριμένων αλγορίθμων.
|