Περίληψη: | Κανείς δεν μπορεί να αμφισβητήσει τη επιτυχία των συνδυαστικών αλγορίθμων. Η μεθοδολογία τη οποία ακολουθούν είναι σχετικά απλή αλλά πολλές φορές ξεπερνούν τη απόδοση ενός μεμονωμένου αλγόριθμου. Από τη άλλη, οι αλγόριθμοι κατηγοριοποίησης της τελευταίας γενιάς (Catboost,XGBoost,LightGBM) είναι αλγόριθμοι ορόσημο ως προς τη πρόοδο των ταξινομητών καθώς ξεπερνούν σε απόδοση και ταχύτητα τους περισσότερους αλγορίθμους και για αυτό χρησιμοποιούνται ευρέως. Όμως, αναλόγως το είδος των δεδομένων, ο αλγόριθμος ο οποίος ξεπερνά τους άλλους μπορεί να είναι διαφορετικός. Σκοπός της παρούσα διπλωματική εργασίας είναι η κατηγοριοποίηση βιολογικών δεδομένων μεγάλου όγκου από σύγχρονες τεχνικές της Μοριακής Βιολογίας. Συγκεκριμένα, θα συγκρίνουμε τις επιδόσεις των αλγορίθμων της κατηγορίας ‘συνδυαστικών αλγορίθμων’(‘ensemble algorithms’) με αυτών της τελευταίας γενιάς και θα δημιουργήσουμε ένα αλγόριθμο συναίνεσης, όπου θα προκύπτει από τους αλγορίθμους της τελευταίας γενιάς. Στο πρώτο κεφάλαιο γίνεται εισαγωγή σε βασικές έννοιες της μοριακής βιολογίας. Στο δεύτερο κεφάλαιο γίνεται αναφορά στη διαδικασία με τη οποία εξάχθηκαν τα δεδομένα (dataset). Το τρίτο κεφάλαιο περιέχει το θεωρητικό υπόβαθρο της μηχανική εκμάθηση και το τέταρτο κεφάλαιο το θεωρητικό υπόβαθρο για τους αλγορίθμους κατηγοριοποίησης που θα χρησιμοποιήσουμε. Στο πέμπτο κεφάλαιο γίνετε η περιγραφή του περιβάλλοντος που χρησιμοποιήθηκε για να αναπτυχθεί ο κώδικας αλλά και η περιγραφή του κώδικα. Στο έκτο κεφάλαιο παρουσιάζουμε τα αποτελέσματα και στη συνέχεια γίνετε αναφορά στα συμπεράσματα που εξάχθηκαν από τα αποτελέσματα.
|