Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA

Το 1965 έγινε η πρώτη ανακάλυψή των μη κωδικών περιοχών RNA που μέχρι σήμερα αποτελεί καίριο σημείο στον κόσμο της βιολογίας. Ο λόγος είναι πως μέχρι πρότινος οι μη κώδικές περιοχές θεωρούνταν από τους επιστήμονες περιοχές που δεν είχαν κάποια σημαντική επίδραση σε θέματα λειτουργιών και αυτός είναι...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σταυρίδης, Μιχαήλ
Άλλοι συγγραφείς: Σακελλαρόπουλος, Γεώργιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/11510
Περιγραφή
Περίληψη:Το 1965 έγινε η πρώτη ανακάλυψή των μη κωδικών περιοχών RNA που μέχρι σήμερα αποτελεί καίριο σημείο στον κόσμο της βιολογίας. Ο λόγος είναι πως μέχρι πρότινος οι μη κώδικές περιοχές θεωρούνταν από τους επιστήμονες περιοχές που δεν είχαν κάποια σημαντική επίδραση σε θέματα λειτουργιών και αυτός είναι ο λόγος που τις ονόμαζαν ‘’junk RNA’’. Η αλλαγή ήρθε όταν τα μικρά κώδικά μόρια RNA (ncRNA) έδειξαν πως παίζουν σημαντικό ρόλο στη ρύθμιση της έκφρασης των γονιδίων όπως επίσης και σε σημαντικές κυτταρικές λειτουργίες . Με το πέρασμα των χρόνων ο αριθμός των κατηγοριών συνεχώς και μεγαλώνει και σε αυτήν την αύξηση του αριθμού σημαντικός παράγοντας είναι οι σύγχρονες τεχνικές αλληλούχησης υψηλής απόδοσης (high throughput sequencing). Ενδεικτικά, κάποιες γνωστές κατηγορίες μικρών ncRNAs είναι τα snoRNAs, microRNAs, siRNAs, snRNAs, exRNAs, piRNAs. Πρόσφατα ανακαλύφθηκε και μια κατηγορία σημαντικών στη ρύθμιση ncRNAs, τα tRNA-derived fragments (tRfs) τα οποία είναι παράγωγα του tRNA . Εξαιτίας του μικρού μεγέθους των ncRNAs, ο πειραματικός τους εντοπισμός αποτελεί εξαιρετικά δύσκολη διαδικασία και αυτός ήταν ο λόγος που έχουν αναπτυχθεί στον χώρο της βιοπληροφορικής αρκετές μέθοδοι Υπολογιστικής Νοημοσύνης και αλγόριθμοι οι οποίοι μπορούν να εντοπίσουν πιθανά ncRNA [7]. Μέχρι στιγμής έχουν χρησιμοποιηθεί σαν μέθοδοι ταξινόμησης Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines), Μπεΰζιανά δίκτυα (Bayesian Networks) και άλλες πιθανοκρατικές μέθοδοι όπως τα Hidden Markov μοντέλα. Πέρα από τα προβλήματα απόδοσης αρκετών από αυτές τις μεθόδους και τον εντοπισμό πολλών ψευδώς αληθών (false positive) μορίων σαν ncRNAs, οι περισσότερες μπορούν να ταξινομούν τα μόρια σε ένα μικρό αριθμό από τις γνωστές κατηγορίες. Επίσης, κάποιες ακολουθίες RNA μπορεί να δρουν ως διαφορετικά ncRNAs κάθε φορά, π.χ. mature miRNAs και tRfs, miRNAs και mature miRNAs και tRfs και tRNAs. Στην παρούσα διπλωματική εργασία προτείνουμε μια νέα μεθοδολογία υπολογιστικής νοημοσύνης, με στόχο την ταξινόμηση των μη-κωδικών μορίων RNA στις διάφορες κατηγορίες τους βάσει της πληροφορίας που μπορεί να εξαχθεί από την ακολουθία τους, τις θερμοδυναμικές τους ιδιότητες, κλπ. Η μεθοδολογία αυτή θα υποστηρίζει την ταξινόμηση σε μεγάλο αριθμό από τις γνωστές κατηγορίες ncRNAs και ταυτόχρονα θα επιτρέπει μια ακολουθία να μπορεί να ανήκει σε παραπάνω από μία κατηγορίες. Η προτεινόμενη μεθοδολογία αποτελεί υβριδική μεθοδολογία που συνδυάζει έναν ευρετικό αλγόριθμο πολυκριτηριακής βελτιστοποίησης για την επιλογή χαρακτηριστικών και βελτιστοποίηση παραμέτρων με την μεθοδολογία ταξινόμησης τυχαίων δασών. Τα τυχαία δάση επιλέχθηκαν καθώς θεωρούνται από τις ακριβέστερες μεθόδους ταξινόμησης και εμφανίζουν αυξημένη ικανότητα γενίκευσης . Στα πλαίσια της παρούσας εργασίας δε θα χρησιμοποιηθεί η κλασική μέθοδος των τυχαίων δασών, αλλά θα δοκιμαστούν διάφορες παραλλαγές της έτσι ώστε εντοπιστεί η κατάλληλη για τον χειρισμό δεδομένων πολλαπλών κλάσεων και ετικετών. Για την αξιολόγηση της παραχθείσας μεθόδου, θα πραγματοποιηθούν πειράματα σε δεδομένα ncRNAs που θα συλλεχθούν από την βάση δεδομένων Rfam ενώ ο υπολογισμός των χαρακτηριστικών για κάθε μία ακολουθία ncRNAs θα πραγματοποιηθεί με το εργαλείο InSyBio ncRNAseq .