Αλγόριθμοι ομαδοποίησης σε δεδομένα μοριακής βιολογίας μεγάλου όγκου

Τα δεδομένα single-cell RNA-seq και η ανάλυση τους με μεταγραφική αλληλούχιση είναι ένα επιστημονικό πεδίο που έχει ως στόχο την ανακάλυψη και τον χαρακτηρισμό τύπων κυττάρων που είναι ένα βασικό βήμα σε πολλές επιστημονικές μελέτες. Η διαδικασία του clustering στα δεδομένα έχει ως στόχο την επίτευξ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μίχος, Κωνσταντίνος
Άλλοι συγγραφείς: Michos, Konstantinos
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15344
Περιγραφή
Περίληψη:Τα δεδομένα single-cell RNA-seq και η ανάλυση τους με μεταγραφική αλληλούχιση είναι ένα επιστημονικό πεδίο που έχει ως στόχο την ανακάλυψη και τον χαρακτηρισμό τύπων κυττάρων που είναι ένα βασικό βήμα σε πολλές επιστημονικές μελέτες. Η διαδικασία του clustering στα δεδομένα έχει ως στόχο την επίτευξη του στόχου αυτού. Έτσι, Clustering ονομάζεται η διαδικασία κατά την οποία «αντικείμενα» διαχωρίζονται σε ομάδες. Η καταχώρηση αυτών στην ίδια ομάδα εκφράζεται ως ομοιότητα με αποτέλεσμα το συμπέρασμα διαφόρων χαρακτηριστικών των δεδομένων. Οι αλγόριθμοι που χρησιμοποιήθηκαν ανήκουν στους ιεραρχικούς και διακρίνονται σε δυο κατηγορίες. Στους συσσωρευτικούς και στους διαιρετικούς. Η διαφορά τους εντοπίζεται στον τρόπο που κατανέμονται τα δεδομένα στις clusters. Οι συσσωρευτικοί είναι μια τεχνική στην οποία κάθε αντικείμενο εκχωρείται σε έναν cluster και η διαδικασία ολοκληρώνεται όταν φτάσουμε στον κατάλληλο αριθμό «στόχο» cluster. Η δεύτερη διαδικασία θεωρεί όλα τα δεδομένα ως έναν cluster και στην συνέχεια τους διαιρεί εώς ότου φτάσει σε ένα επιθυμητό αριθμό cluster. Σκοπός της παρούσας διπλωματικής εργασίας, είναι η ομαδοποίηση βιολογικών δεδομένων μεγάλου όγκου μοριακής βιολογίας και η σύγκριση απόδοσης των αλγορίθμων αυτών. Στο πρώτο κεφάλαιο γίνεται εισαγωγή στις τεχνολογίες αλληλουχίας υψηλής απόδοσης καθώς και σε βασικές έννοιες της βιολογίας. Στο δεύτερο κεφάλαιο παρουσιάζεται το clustering και η μηχανική μάθηση με διάφορες παραλλαγές και παραδείγματα. Στην συνέχεια στο τρίτο κεφάλαιο, γίνεται θεωρητική εισαγωγή στο clustering με χρήση δεδομένων single cell RNA-seq. Το κεφάλαιο 4, περιέχει το θεωρητικό υπόβαθρο των αλγορίθμων που έγιναν χρήση κατά την εκπόνηση στην πορεία της διπλωματικής εργασίας. Επιπροσθέτως, στο κεφάλαιο 5 γίνεται περιγραφή των δεδομένων, του κώδικα καθώς και του περιβάλλοντος με το οποίο αναπτύχθηκε. Στο κεφάλαιο 6, παρουσιάζονται τα διαγράμματα από την επίδοση των αλγορίθμων από την διαδικασία του clustering για κάθε σύνολο δεδομένων καθώς και μια τελική σύγκριση απόδοσης μεταξύ των αλγορίθμων για κάθε μετρική αξιολόγησης. Τέλος, στο ίδιο κεφάλαιο γίνεται αναφορά στα συμπεράσματα από τα αποτελέσματα.