Σχεδιασμός και υλοποίηση βάσης δεδομένων μη κωδικοποιητικών μορίων RNA (ncRNAs)

Tα μη κωδικοποιητικά RNAs (non-coding RNAs ή ncRNAs) αποτελούν μόρια RNA, τα οποία δε μεταφράζονται σε πρωτεΐνη. Ενώ κάποτε θεωρούνταν ‘μεταγραφικός θόρυβος’, δηλαδή δεν τους είχε αποδοθεί κάποια χρησιμότητα, πλέον θεωρείται πως διαδραματίζουν σημαντικό ρόλο στη ρύθμιση της γονιδιακής έκφρασης και έ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Διαμαντοπούλου, Γεωργία
Άλλοι συγγραφείς: Diamantopoulou, Georgia
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25234
Περιγραφή
Περίληψη:Tα μη κωδικοποιητικά RNAs (non-coding RNAs ή ncRNAs) αποτελούν μόρια RNA, τα οποία δε μεταφράζονται σε πρωτεΐνη. Ενώ κάποτε θεωρούνταν ‘μεταγραφικός θόρυβος’, δηλαδή δεν τους είχε αποδοθεί κάποια χρησιμότητα, πλέον θεωρείται πως διαδραματίζουν σημαντικό ρόλο στη ρύθμιση της γονιδιακής έκφρασης και έχουν συγκεντρώσει αρκετή προσοχή για την υποσχόμενη χρήση τους στην ιατρική, συγκεκριμένα στη διάγνωση και θεραπεία νοσημάτων, όπως ο καρκίνος. Έχουν ανακαλυφθεί πολλές κατηγορίες ncRNAs, με πιο παλιά τα rRNAs (ριβοσωμικά RNAs) και τα tRNAs (μεταφορικά RNAs), τα οποία εμπλέκονται στη διαδικασία της μετάφρασης. Η άνθιση των τεχνολογιών του Αλληλούχησης Επόμενης Γενιάς (NGS) (και ιδιαιτέρως της Αλληλούχησης RNA), που επιτρέπει τον εντοπισμό τους παρά το μικρό τους μέγεθος, οδήγησε στην ανακάλυψη αρκετών ακόμα κατηγοριών ncRNAs, όπως τα microRNAs (miRNAs) και τα tRNA-derived fragments (tRFs). Εξαιτίας της ανακάλυψης όλο και περισσότερων μορίων ncRNAs, δημιουργήθηκε η ανάγκη για την οργανωμένη αποθήκευσή τους σε βάσεις δεδομένων. Αυτή τη στιγμή υπάρχουν πολλές διαθέσιμες βάσεις δεδομένων ncRNAs στο διαδίκτυο, άλλες εξειδικευμένες για συγκεκριμένη κατηγορία μορίων (πχ. miRBase για miRNAs) ή για το σύνολό τους (πχ. RFAM). Παράλληλα άρχισαν να αναπτύσσονται όλο και περισσότερα εργαλεία για την ταξινόμηση άγνωστων ή νεοανακαλυφθέντων μορίων ncRNAs στις υποκατηγορίες τους, το καθένα εκμεταλλευόμενο διαφορετική πληροφορία του μορίου (πχ. στοιχεία της δευτεροταγούς δομής) και ακολουθώντας διαφορετικές υπολογιστικές μεθόδους. Ένα από τα προβλήματα των περισσότερων εργαλείων (άρα και των διαδικτυακών βάσεων που τα χρησιμοποιούν για την ταξινόμηση των μορίων) είναι πως τα περισσότερα δεν επιτρέπουν σε μία αλληλουχία που αποτελεί μη κωδικοποιητικό RNA να ανήκει σε περισσότερες από μία υποκατηγορίες ταυτόχρονα, κάτι το οποίο έχει αποδειχθεί ότι συμβαίνει στην πράξη. Επίσης, κάποιες μέθοδοι οι οποίες έχουν σχεδιαστεί για ταξινόμηση πολλών κλάσεων, δεν υποστηρίζουν τον πολλαπλό χαρακτηρισμό. Η πληροφορία για τα μη κωδικοποιητικά μόρια RNA είναι κατακερματισμένη σε διάφορες βάσεις δεδομένων με κάποιες από αυτές να εστιάζουν σε πειραματική και ακολουθιακή πληροφορία ενώ άλλες σε δομικά και λειτουργικά χαρακτηριστικά. Η παρούσα διπλωματική εστιάζει στη δημιουργία μίας βάσης γνώσης, η οποία αποθηκεύει αρκετούς από τους γνωστούς τύπους ncRNAs (rRNAs, snoRNAs, tRNAs, tRFs και miRNAs) μαζί με σημαντικά χαρακτηριστικά τους (πχ. θέση και αλληλουχία) αλλά και πληροφορία που έχει προκύψει με χρήση μεθόδων μηχανικής μάθησης για την ταυτοποίηση και ταξινόμηση μικρών κωδικοποιητικών μορίων RNA. H εξόρυξη των δεδομένων έγινε από διαθέσιμες διαδικτυακές βάσεις (όπως ΜINTbase, tRFdb, κ.ά.) και μετά από προεργασία, ώστε να διαμορφωθούν με κατάλληλο τρόπο, έγινε εισαγωγή τους στη βάση. Επίσης, μέθοδοι μηχανικής μάθησης χρησιμοποιήθηκαν όχι μόνο για την ταξινόμηση των ncRNAs σε υποκατηγορίες αλλά και για την πρόβλεψη των γονιδίων-στόχων των ώριμων miRNA. Τέλος, έγινε μελέτη της κατανομής των τιμών διαφόρων χαρακτηριστικών των αλληλουχιών των μορίων που περιλαμβάνονται στη βάση, έτσι ώστε να διερευνηθεί η διαχωριστική τους ικανότητα μεταξύ των κατηγοριών ncRNAs.