Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας

Κανείς δεν μπορεί να αμφισβητήσει τη επιτυχία των συνδυαστικών αλγορίθμων. Η μεθοδολογία τη οποία ακολουθούν είναι σχετικά απλή αλλά πολλές φορές ξεπερνούν τη απόδοση ενός μεμονωμένου αλγόριθμου. Από τη άλλη, οι αλγόριθμοι κατηγοριοποίησης της τελευταίας γενιάς (Catboost,XGBoost,LightGBM) είναι αλγό...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σταράς, Ιωάννης
Άλλοι συγγραφείς: Staras, Ioannis
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15347
id nemertes-10889-15347
record_format dspace
spelling nemertes-10889-153472022-09-05T09:41:45Z Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας Categorization algorithms in multidimensional data from modern techniques of molecular biology Σταράς, Ιωάννης Staras, Ioannis Μηχανική μάθηση Κατηγοριοποίηση Συνδυαστικοί αλγόριθμοι Αλγόριθμοι τελευταίας γενιάς Δεδομένα μεγάλου όγκου Μοριακή βιολογία Μεταγραφομική Τεχνολογία αλληλουχίας υψηλής απόδοσης Machine learning Classification Ensemble algorithms State of the art algorithms Big data Molecular biology Transcriptomics High throughput sequencing data Κανείς δεν μπορεί να αμφισβητήσει τη επιτυχία των συνδυαστικών αλγορίθμων. Η μεθοδολογία τη οποία ακολουθούν είναι σχετικά απλή αλλά πολλές φορές ξεπερνούν τη απόδοση ενός μεμονωμένου αλγόριθμου. Από τη άλλη, οι αλγόριθμοι κατηγοριοποίησης της τελευταίας γενιάς (Catboost,XGBoost,LightGBM) είναι αλγόριθμοι ορόσημο ως προς τη πρόοδο των ταξινομητών καθώς ξεπερνούν σε απόδοση και ταχύτητα τους περισσότερους αλγορίθμους και για αυτό χρησιμοποιούνται ευρέως. Όμως, αναλόγως το είδος των δεδομένων, ο αλγόριθμος ο οποίος ξεπερνά τους άλλους μπορεί να είναι διαφορετικός. Σκοπός της παρούσα διπλωματική εργασίας είναι η κατηγοριοποίηση βιολογικών δεδομένων μεγάλου όγκου από σύγχρονες τεχνικές της Μοριακής Βιολογίας. Συγκεκριμένα, θα συγκρίνουμε τις επιδόσεις των αλγορίθμων της κατηγορίας ‘συνδυαστικών αλγορίθμων’(‘ensemble algorithms’) με αυτών της τελευταίας γενιάς και θα δημιουργήσουμε ένα αλγόριθμο συναίνεσης, όπου θα προκύπτει από τους αλγορίθμους της τελευταίας γενιάς. Στο πρώτο κεφάλαιο γίνεται εισαγωγή σε βασικές έννοιες της μοριακής βιολογίας. Στο δεύτερο κεφάλαιο γίνεται αναφορά στη διαδικασία με τη οποία εξάχθηκαν τα δεδομένα (dataset). Το τρίτο κεφάλαιο περιέχει το θεωρητικό υπόβαθρο της μηχανική εκμάθηση και το τέταρτο κεφάλαιο το θεωρητικό υπόβαθρο για τους αλγορίθμους κατηγοριοποίησης που θα χρησιμοποιήσουμε. Στο πέμπτο κεφάλαιο γίνετε η περιγραφή του περιβάλλοντος που χρησιμοποιήθηκε για να αναπτυχθεί ο κώδικας αλλά και η περιγραφή του κώδικα. Στο έκτο κεφάλαιο παρουσιάζουμε τα αποτελέσματα και στη συνέχεια γίνετε αναφορά στα συμπεράσματα που εξάχθηκαν από τα αποτελέσματα. No one can question the success of the ensemble algorithms. The methodology they follow is relatively simple but often exceeds the performance of an individual algorithm. Οn the other hand, the last generation classification algorithms (Catboost, XGBoost, LightGBM) are milestones in the progress of classifiers as they surpass most of the algorithms in efficiency and speed and are widely used for this by the largest companies in the world. However, depending on the type of data, the algorithm that surpasses others may be different. The purpose of this diploma thesis is to categorize biological big data from modern molecular biology techniques. Specifically, we will compare the performance of the algorithms of the category "ensemble algorithms" with those of the last generation and create a combined algorithm, where it will be derived from the last generation algorithms. The first chapter introduces basic concepts of molecular biology. The second chapter refers to the process by which the data were extracted (dataset). The third chapter contains the theoretical background of machine learning and the fourth chapter the theoretical background of the categorization algorithms that we will use. In the fifth chapter we describe the environment that was used to develop the code and the description of the code. In the sixth chapter we present the results and in the last chapter we refer to the conclusions drawn from the results. 2021-10-15T09:24:14Z 2021-10-15T09:24:14Z 2021-09-30 http://hdl.handle.net/10889/15347 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Μηχανική μάθηση
Κατηγοριοποίηση
Συνδυαστικοί αλγόριθμοι
Αλγόριθμοι τελευταίας γενιάς
Δεδομένα μεγάλου όγκου
Μοριακή βιολογία
Μεταγραφομική
Τεχνολογία αλληλουχίας υψηλής απόδοσης
Machine learning
Classification
Ensemble algorithms
State of the art algorithms
Big data
Molecular biology
Transcriptomics
High throughput sequencing data
spellingShingle Μηχανική μάθηση
Κατηγοριοποίηση
Συνδυαστικοί αλγόριθμοι
Αλγόριθμοι τελευταίας γενιάς
Δεδομένα μεγάλου όγκου
Μοριακή βιολογία
Μεταγραφομική
Τεχνολογία αλληλουχίας υψηλής απόδοσης
Machine learning
Classification
Ensemble algorithms
State of the art algorithms
Big data
Molecular biology
Transcriptomics
High throughput sequencing data
Σταράς, Ιωάννης
Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας
description Κανείς δεν μπορεί να αμφισβητήσει τη επιτυχία των συνδυαστικών αλγορίθμων. Η μεθοδολογία τη οποία ακολουθούν είναι σχετικά απλή αλλά πολλές φορές ξεπερνούν τη απόδοση ενός μεμονωμένου αλγόριθμου. Από τη άλλη, οι αλγόριθμοι κατηγοριοποίησης της τελευταίας γενιάς (Catboost,XGBoost,LightGBM) είναι αλγόριθμοι ορόσημο ως προς τη πρόοδο των ταξινομητών καθώς ξεπερνούν σε απόδοση και ταχύτητα τους περισσότερους αλγορίθμους και για αυτό χρησιμοποιούνται ευρέως. Όμως, αναλόγως το είδος των δεδομένων, ο αλγόριθμος ο οποίος ξεπερνά τους άλλους μπορεί να είναι διαφορετικός. Σκοπός της παρούσα διπλωματική εργασίας είναι η κατηγοριοποίηση βιολογικών δεδομένων μεγάλου όγκου από σύγχρονες τεχνικές της Μοριακής Βιολογίας. Συγκεκριμένα, θα συγκρίνουμε τις επιδόσεις των αλγορίθμων της κατηγορίας ‘συνδυαστικών αλγορίθμων’(‘ensemble algorithms’) με αυτών της τελευταίας γενιάς και θα δημιουργήσουμε ένα αλγόριθμο συναίνεσης, όπου θα προκύπτει από τους αλγορίθμους της τελευταίας γενιάς. Στο πρώτο κεφάλαιο γίνεται εισαγωγή σε βασικές έννοιες της μοριακής βιολογίας. Στο δεύτερο κεφάλαιο γίνεται αναφορά στη διαδικασία με τη οποία εξάχθηκαν τα δεδομένα (dataset). Το τρίτο κεφάλαιο περιέχει το θεωρητικό υπόβαθρο της μηχανική εκμάθηση και το τέταρτο κεφάλαιο το θεωρητικό υπόβαθρο για τους αλγορίθμους κατηγοριοποίησης που θα χρησιμοποιήσουμε. Στο πέμπτο κεφάλαιο γίνετε η περιγραφή του περιβάλλοντος που χρησιμοποιήθηκε για να αναπτυχθεί ο κώδικας αλλά και η περιγραφή του κώδικα. Στο έκτο κεφάλαιο παρουσιάζουμε τα αποτελέσματα και στη συνέχεια γίνετε αναφορά στα συμπεράσματα που εξάχθηκαν από τα αποτελέσματα.
author2 Staras, Ioannis
author_facet Staras, Ioannis
Σταράς, Ιωάννης
author Σταράς, Ιωάννης
author_sort Σταράς, Ιωάννης
title Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας
title_short Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας
title_full Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας
title_fullStr Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας
title_full_unstemmed Αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας
title_sort αλγόριθμοι κατηγοριοποίησης σε πολυδιάστατα δεδομένα από σύγχρονες τεχνικές της μοριακής βιολογίας
publishDate 2021
url http://hdl.handle.net/10889/15347
work_keys_str_mv AT starasiōannēs algorithmoikatēgoriopoiēsēssepolydiastatadedomenaaposynchronestechnikestēsmoriakēsbiologias
AT starasiōannēs categorizationalgorithmsinmultidimensionaldatafrommoderntechniquesofmolecularbiology
_version_ 1771297177530793984