Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας
Κανείς δεν μπορεί να αμφισβητήσει τη επιτυχία των συνδυαστικών αλγορίθμων. Η μεθοδολογία τη οποία ακολουθούν είναι σχετικά απλή αλλά πολλές φορές ξεπερνούν τη απόδοση ενός μεμονωμένου αλγόριθμου. Από τη άλλη, οι αλγόριθμοι κατηγοριοποίησης της τελευταίας γενιάς (Catboost,XGBoost,LightGBM) είναι αλγό...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2021
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/15347 |
id |
nemertes-10889-15347 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-153472022-09-05T09:41:45Z Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας Categorization algorithms in multidimensional data from modern techniques of molecular biology Σταράς, Ιωάννης Staras, Ioannis Μηχανική μάθηση Κατηγοριοποίηση Συνδυαστικοί αλγόριθμοι Αλγόριθμοι τελευταίας γενιάς Δεδομένα μεγάλου όγκου Μοριακή βιολογία Μεταγραφομική Τεχνολογία αλληλουχίας υψηλής απόδοσης Machine learning Classification Ensemble algorithms State of the art algorithms Big data Molecular biology Transcriptomics High throughput sequencing data Κανείς δεν μπορεί να αμφισβητήσει τη επιτυχία των συνδυαστικών αλγορίθμων. Η μεθοδολογία τη οποία ακολουθούν είναι σχετικά απλή αλλά πολλές φορές ξεπερνούν τη απόδοση ενός μεμονωμένου αλγόριθμου. Από τη άλλη, οι αλγόριθμοι κατηγοριοποίησης της τελευταίας γενιάς (Catboost,XGBoost,LightGBM) είναι αλγόριθμοι ορόσημο ως προς τη πρόοδο των ταξινομητών καθώς ξεπερνούν σε απόδοση και ταχύτητα τους περισσότερους αλγορίθμους και για αυτό χρησιμοποιούνται ευρέως. Όμως, αναλόγως το είδος των δεδομένων, ο αλγόριθμος ο οποίος ξεπερνά τους άλλους μπορεί να είναι διαφορετικός. Σκοπός της παρούσα διπλωματική εργασίας είναι η κατηγοριοποίηση βιολογικών δεδομένων μεγάλου όγκου από σύγχρονες τεχνικές της Μοριακής Βιολογίας. Συγκεκριμένα, θα συγκρίνουμε τις επιδόσεις των αλγορίθμων της κατηγορίας ‘συνδυαστικών αλγορίθμων’(‘ensemble algorithms’) με αυτών της τελευταίας γενιάς και θα δημιουργήσουμε ένα αλγόριθμο συναίνεσης, όπου θα προκύπτει από τους αλγορίθμους της τελευταίας γενιάς. Στο πρώτο κεφάλαιο γίνεται εισαγωγή σε βασικές έννοιες της μοριακής βιολογίας. Στο δεύτερο κεφάλαιο γίνεται αναφορά στη διαδικασία με τη οποία εξάχθηκαν τα δεδομένα (dataset). Το τρίτο κεφάλαιο περιέχει το θεωρητικό υπόβαθρο της μηχανική εκμάθηση και το τέταρτο κεφάλαιο το θεωρητικό υπόβαθρο για τους αλγορίθμους κατηγοριοποίησης που θα χρησιμοποιήσουμε. Στο πέμπτο κεφάλαιο γίνετε η περιγραφή του περιβάλλοντος που χρησιμοποιήθηκε για να αναπτυχθεί ο κώδικας αλλά και η περιγραφή του κώδικα. Στο έκτο κεφάλαιο παρουσιάζουμε τα αποτελέσματα και στη συνέχεια γίνετε αναφορά στα συμπεράσματα που εξάχθηκαν από τα αποτελέσματα. No one can question the success of the ensemble algorithms. The methodology they follow is relatively simple but often exceeds the performance of an individual algorithm. Οn the other hand, the last generation classification algorithms (Catboost, XGBoost, LightGBM) are milestones in the progress of classifiers as they surpass most of the algorithms in efficiency and speed and are widely used for this by the largest companies in the world. However, depending on the type of data, the algorithm that surpasses others may be different. The purpose of this diploma thesis is to categorize biological big data from modern molecular biology techniques. Specifically, we will compare the performance of the algorithms of the category "ensemble algorithms" with those of the last generation and create a combined algorithm, where it will be derived from the last generation algorithms. The first chapter introduces basic concepts of molecular biology. The second chapter refers to the process by which the data were extracted (dataset). The third chapter contains the theoretical background of machine learning and the fourth chapter the theoretical background of the categorization algorithms that we will use. In the fifth chapter we describe the environment that was used to develop the code and the description of the code. In the sixth chapter we present the results and in the last chapter we refer to the conclusions drawn from the results. 2021-10-15T09:24:14Z 2021-10-15T09:24:14Z 2021-09-30 http://hdl.handle.net/10889/15347 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική μάθηση Κατηγοριοποίηση Συνδυαστικοί αλγόριθμοι Αλγόριθμοι τελευταίας γενιάς Δεδομένα μεγάλου όγκου Μοριακή βιολογία Μεταγραφομική Τεχνολογία αλληλουχίας υψηλής απόδοσης Machine learning Classification Ensemble algorithms State of the art algorithms Big data Molecular biology Transcriptomics High throughput sequencing data |
spellingShingle |
Μηχανική μάθηση Κατηγοριοποίηση Συνδυαστικοί αλγόριθμοι Αλγόριθμοι τελευταίας γενιάς Δεδομένα μεγάλου όγκου Μοριακή βιολογία Μεταγραφομική Τεχνολογία αλληλουχίας υψηλής απόδοσης Machine learning Classification Ensemble algorithms State of the art algorithms Big data Molecular biology Transcriptomics High throughput sequencing data Σταράς, Ιωάννης Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας |
description |
Κανείς δεν μπορεί να αμφισβητήσει τη επιτυχία των συνδυαστικών αλγορίθμων. Η μεθοδολογία τη οποία ακολουθούν είναι σχετικά απλή αλλά πολλές φορές ξεπερνούν τη απόδοση ενός μεμονωμένου αλγόριθμου. Από τη άλλη, οι αλγόριθμοι κατηγοριοποίησης της τελευταίας γενιάς (Catboost,XGBoost,LightGBM) είναι αλγόριθμοι ορόσημο ως προς τη πρόοδο των ταξινομητών καθώς ξεπερνούν σε απόδοση και ταχύτητα τους περισσότερους αλγορίθμους και για αυτό χρησιμοποιούνται ευρέως. Όμως, αναλόγως το είδος των δεδομένων, ο αλγόριθμος ο οποίος ξεπερνά τους άλλους μπορεί να είναι διαφορετικός. Σκοπός της παρούσα διπλωματική εργασίας είναι η κατηγοριοποίηση βιολογικών δεδομένων μεγάλου όγκου από σύγχρονες τεχνικές της Μοριακής Βιολογίας. Συγκεκριμένα, θα συγκρίνουμε τις επιδόσεις των αλγορίθμων της κατηγορίας ‘συνδυαστικών αλγορίθμων’(‘ensemble algorithms’) με αυτών της τελευταίας γενιάς και θα δημιουργήσουμε ένα αλγόριθμο συναίνεσης, όπου θα προκύπτει από τους αλγορίθμους της τελευταίας γενιάς. Στο πρώτο κεφάλαιο γίνεται εισαγωγή σε βασικές έννοιες της μοριακής βιολογίας. Στο δεύτερο κεφάλαιο γίνεται αναφορά στη διαδικασία με τη οποία εξάχθηκαν τα δεδομένα (dataset). Το τρίτο κεφάλαιο περιέχει το θεωρητικό υπόβαθρο της μηχανική εκμάθηση και το τέταρτο κεφάλαιο το θεωρητικό υπόβαθρο για τους αλγορίθμους κατηγοριοποίησης που θα χρησιμοποιήσουμε. Στο πέμπτο κεφάλαιο γίνετε η περιγραφή του περιβάλλοντος που χρησιμοποιήθηκε για να αναπτυχθεί ο κώδικας αλλά και η περιγραφή του κώδικα. Στο έκτο κεφάλαιο παρουσιάζουμε τα αποτελέσματα και στη συνέχεια γίνετε αναφορά στα συμπεράσματα που εξάχθηκαν από τα αποτελέσματα. |
author2 |
Staras, Ioannis |
author_facet |
Staras, Ioannis Σταράς, Ιωάννης |
author |
Σταράς, Ιωάννης |
author_sort |
Σταράς, Ιωάννης |
title |
Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας |
title_short |
Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας |
title_full |
Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας |
title_fullStr |
Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας |
title_full_unstemmed |
Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας |
title_sort |
αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/15347 |
work_keys_str_mv |
AT starasiōannēs algorithmoikatēgoriopoiēsēssepolydiastatadedomenaaposynchronestechnikestēsmoriakēsbiologias AT starasiōannēs categorizationalgorithmsinmultidimensionaldatafrommoderntechniquesofmolecularbiology |
_version_ |
1771297177530793984 |