Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου

Τα δεδομένα single-cell RNA-seq και η ανάλυση τους με μεταγραφική αλληλούχιση είναι ένα επιστημονικό πεδίο που έχει ως στόχο την ανακάλυψη και τον χαρακτηρισμό τύπων κυττάρων που είναι ένα βασικό βήμα σε πολλές επιστημονικές μελέτες. Η διαδικασία του clustering στα δεδομένα έχει ως στόχο την επίτευξ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μίχος, Κωνσταντίνος
Άλλοι συγγραφείς: Michos, Konstantinos
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15344
id nemertes-10889-15344
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Ομαδοποίηση
Μοριακή Βιολογία
Clustering
Molecular biology
spellingShingle Ομαδοποίηση
Μοριακή Βιολογία
Clustering
Molecular biology
Μίχος, Κωνσταντίνος
Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου
description Τα δεδομένα single-cell RNA-seq και η ανάλυση τους με μεταγραφική αλληλούχιση είναι ένα επιστημονικό πεδίο που έχει ως στόχο την ανακάλυψη και τον χαρακτηρισμό τύπων κυττάρων που είναι ένα βασικό βήμα σε πολλές επιστημονικές μελέτες. Η διαδικασία του clustering στα δεδομένα έχει ως στόχο την επίτευξη του στόχου αυτού. Έτσι, Clustering ονομάζεται η διαδικασία κατά την οποία «αντικείμενα» διαχωρίζονται σε ομάδες. Η καταχώρηση αυτών στην ίδια ομάδα εκφράζεται ως ομοιότητα με αποτέλεσμα το συμπέρασμα διαφόρων χαρακτηριστικών των δεδομένων. Οι αλγόριθμοι που χρησιμοποιήθηκαν ανήκουν στους ιεραρχικούς και διακρίνονται σε δυο κατηγορίες. Στους συσσωρευτικούς και στους διαιρετικούς. Η διαφορά τους εντοπίζεται στον τρόπο που κατανέμονται τα δεδομένα στις clusters. Οι συσσωρευτικοί είναι μια τεχνική στην οποία κάθε αντικείμενο εκχωρείται σε έναν cluster και η διαδικασία ολοκληρώνεται όταν φτάσουμε στον κατάλληλο αριθμό «στόχο» cluster. Η δεύτερη διαδικασία θεωρεί όλα τα δεδομένα ως έναν cluster και στην συνέχεια τους διαιρεί εώς ότου φτάσει σε ένα επιθυμητό αριθμό cluster. Σκοπός της παρούσας διπλωματικής εργασίας, είναι η ομαδοποίηση βιολογικών δεδομένων μεγάλου όγκου μοριακής βιολογίας και η σύγκριση απόδοσης των αλγορίθμων αυτών. Στο πρώτο κεφάλαιο γίνεται εισαγωγή στις τεχνολογίες αλληλουχίας υψηλής απόδοσης καθώς και σε βασικές έννοιες της βιολογίας. Στο δεύτερο κεφάλαιο παρουσιάζεται το clustering και η μηχανική μάθηση με διάφορες παραλλαγές και παραδείγματα. Στην συνέχεια στο τρίτο κεφάλαιο, γίνεται θεωρητική εισαγωγή στο clustering με χρήση δεδομένων single cell RNA-seq. Το κεφάλαιο 4, περιέχει το θεωρητικό υπόβαθρο των αλγορίθμων που έγιναν χρήση κατά την εκπόνηση στην πορεία της διπλωματικής εργασίας. Επιπροσθέτως, στο κεφάλαιο 5 γίνεται περιγραφή των δεδομένων, του κώδικα καθώς και του περιβάλλοντος με το οποίο αναπτύχθηκε. Στο κεφάλαιο 6, παρουσιάζονται τα διαγράμματα από την επίδοση των αλγορίθμων από την διαδικασία του clustering για κάθε σύνολο δεδομένων καθώς και μια τελική σύγκριση απόδοσης μεταξύ των αλγορίθμων για κάθε μετρική αξιολόγησης. Τέλος, στο ίδιο κεφάλαιο γίνεται αναφορά στα συμπεράσματα από τα αποτελέσματα.
author2 Michos, Konstantinos
author_facet Michos, Konstantinos
Μίχος, Κωνσταντίνος
author Μίχος, Κωνσταντίνος
author_sort Μίχος, Κωνσταντίνος
title Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου
title_short Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου
title_full Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου
title_fullStr Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου
title_full_unstemmed Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου
title_sort αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου
publishDate 2021
url http://hdl.handle.net/10889/15344
work_keys_str_mv AT michoskōnstantinos algorithmoiomadopoiēsēssededomenamoriakēsbiologiasmegalouonkou
AT michoskōnstantinos clusteringalgorithmsinhighvolumemolecularbiologydata
_version_ 1771297129494478848
spelling nemertes-10889-153442022-09-05T05:00:51Z Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου Clustering algorithms in high volume molecular biology data Μίχος, Κωνσταντίνος Michos, Konstantinos Ομαδοποίηση Μοριακή Βιολογία Clustering Molecular biology Τα δεδομένα single-cell RNA-seq και η ανάλυση τους με μεταγραφική αλληλούχιση είναι ένα επιστημονικό πεδίο που έχει ως στόχο την ανακάλυψη και τον χαρακτηρισμό τύπων κυττάρων που είναι ένα βασικό βήμα σε πολλές επιστημονικές μελέτες. Η διαδικασία του clustering στα δεδομένα έχει ως στόχο την επίτευξη του στόχου αυτού. Έτσι, Clustering ονομάζεται η διαδικασία κατά την οποία «αντικείμενα» διαχωρίζονται σε ομάδες. Η καταχώρηση αυτών στην ίδια ομάδα εκφράζεται ως ομοιότητα με αποτέλεσμα το συμπέρασμα διαφόρων χαρακτηριστικών των δεδομένων. Οι αλγόριθμοι που χρησιμοποιήθηκαν ανήκουν στους ιεραρχικούς και διακρίνονται σε δυο κατηγορίες. Στους συσσωρευτικούς και στους διαιρετικούς. Η διαφορά τους εντοπίζεται στον τρόπο που κατανέμονται τα δεδομένα στις clusters. Οι συσσωρευτικοί είναι μια τεχνική στην οποία κάθε αντικείμενο εκχωρείται σε έναν cluster και η διαδικασία ολοκληρώνεται όταν φτάσουμε στον κατάλληλο αριθμό «στόχο» cluster. Η δεύτερη διαδικασία θεωρεί όλα τα δεδομένα ως έναν cluster και στην συνέχεια τους διαιρεί εώς ότου φτάσει σε ένα επιθυμητό αριθμό cluster. Σκοπός της παρούσας διπλωματικής εργασίας, είναι η ομαδοποίηση βιολογικών δεδομένων μεγάλου όγκου μοριακής βιολογίας και η σύγκριση απόδοσης των αλγορίθμων αυτών. Στο πρώτο κεφάλαιο γίνεται εισαγωγή στις τεχνολογίες αλληλουχίας υψηλής απόδοσης καθώς και σε βασικές έννοιες της βιολογίας. Στο δεύτερο κεφάλαιο παρουσιάζεται το clustering και η μηχανική μάθηση με διάφορες παραλλαγές και παραδείγματα. Στην συνέχεια στο τρίτο κεφάλαιο, γίνεται θεωρητική εισαγωγή στο clustering με χρήση δεδομένων single cell RNA-seq. Το κεφάλαιο 4, περιέχει το θεωρητικό υπόβαθρο των αλγορίθμων που έγιναν χρήση κατά την εκπόνηση στην πορεία της διπλωματικής εργασίας. Επιπροσθέτως, στο κεφάλαιο 5 γίνεται περιγραφή των δεδομένων, του κώδικα καθώς και του περιβάλλοντος με το οποίο αναπτύχθηκε. Στο κεφάλαιο 6, παρουσιάζονται τα διαγράμματα από την επίδοση των αλγορίθμων από την διαδικασία του clustering για κάθε σύνολο δεδομένων καθώς και μια τελική σύγκριση απόδοσης μεταξύ των αλγορίθμων για κάθε μετρική αξιολόγησης. Τέλος, στο ίδιο κεφάλαιο γίνεται αναφορά στα συμπεράσματα από τα αποτελέσματα. Single-cell RNA-seq data and their analysis by transcriptional sequencing is a scientific field that aims to discover and characterize cell types that is a key step in many scientific studies. The data clustering process aims to achieve this goal. Thus, Clustering is the process by which "objects" are divided into groups. The entry of these in the same group is expressed as similarity resulting in the conclusion of different characteristics of the data. The algorithms used belong to the hierarchies and are divided into two categories. To the accumulators and to the divisors. The difference is in the way the data is distributed in the clusters. Cumulators are a technique in which each object is assigned to a cluster and the process is completed when we reach the appropriate "target" cluster number. The second procedure considers all the data as a cluster and then divides them until it reaches a desired cluster number. The purpose of this dissertation is to group biological data of a large volume of molecular biology and to compare the performance of these algorithms. The first chapter introduces high-performance sequencing technologies as well as basic concepts of biology. The second chapter presents clustering and machine learning with various variations and examples. Then in the third chapter, there is a theoretical introduction to clustering using single cell RNA-seq data. Chapter 4 contains the theoretical background of the algorithms used during the elaboration in the course of the dissertation. In addition, Chapter 5 describes the data, the code and the environment in which it was developed. Chapter 6 presents the performance diagrams of the algorithms from the clustering process for each data set as well as a final performance comparison between the algorithms for each metric evaluation. Finally, in the same chapter reference is made to the conclusions from the results. 2021-10-15T06:30:46Z 2021-10-15T06:30:46Z 2021-10-10 http://hdl.handle.net/10889/15344 gr application/pdf