Βαθιά μάθηση στη βιοπληροφορική

Η βαθιά μάθηση, η οποία είναι ιδιαίτερα τρομερή στο χειρισμό μεγάλων δεδομένων, έχει επιτύχει μεγάλη πρόοδο σε διάφορους τομείς, συμπεριλαμβανομένης της Βιοπληροφορικής. Με τις εξελίξεις της μεγάλης εποχής των δεδομένων στη βιολογία, είναι προβλέψιμο ότι η βαθιά εκμάθηση θα αποκτήσει ολοένα και μεγα...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λαμπράκης, Χρήστος
Άλλοι συγγραφείς: Lamprakis, Christos
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13559
Περιγραφή
Περίληψη:Η βαθιά μάθηση, η οποία είναι ιδιαίτερα τρομερή στο χειρισμό μεγάλων δεδομένων, έχει επιτύχει μεγάλη πρόοδο σε διάφορους τομείς, συμπεριλαμβανομένης της Βιοπληροφορικής. Με τις εξελίξεις της μεγάλης εποχής των δεδομένων στη βιολογία, είναι προβλέψιμο ότι η βαθιά εκμάθηση θα αποκτήσει ολοένα και μεγαλύτερη σημασία στον τομέα. Σ΄ αυτή την εργασία, εισάγουμε την έννοια της βαθιάς μάθησης και παραδείγματα των αντιπροσωπευτικών εφαρμογών της στη βιοπληροφορική, συγκεκριμένα στα πεδία της γονιδιωματικής και της μεταγραφωματικής. Αναλυτικότερα, στο Κεφάλαιο 1, παρέχουμε βασικές αρχές καθώς και αλγορίθμους της Μηχανικής Μάθησης. Συγκεκριμένα, επικεντρονώμαστε σε τρεις τύπους μάθησης με επίβλεψη, τη γραμμική και λογιστική παλινδρόμηση όπως και στον αλγόριθμο των κ-Κοντινότερων γειτόνων. Ο λόγος είναι οτι θα συγκριθούν με τις δύο μεθόδους βαθιάς μάθησης που θα παρουσιαστούν στο Κεφάλαιο 3 την D-GEX και DanQ όπου και θα αποδειχθεί μέσω των πειραματικών αποτελεσμάτων ότι υστερούν. Στο Κεφάλαιο 2, γίνεται η ανάλυση της Βαθιάς Μάθησης, αλλά και των Βαθιά Νευρωνικών Δικτύων. Επιπλέον, αναδεικνύονται οι δύο θεμελιώδεις αρχιτεκτονικές της Βαθιάς Μάθησης, τα Συνελικτικά και τα Αναδρομικά Νευρωνικά Δίκτυα. Ιδιαίτερο ενδιαφέρον αποτελεί το ”πάντρεμα”, αυτών των δικτύων καθότι παράγεται η DanQ. Συγκεκριμένα, θα περιγραφεί ο τρόπος χρήσης CNN και RNN για τη πρόβλεψη της λειτουργικότητας μη-κωδικοποιητικού DNA (ncDNA). Στη συνέχεια της εργασίας, στο Κεφάλαιο 3, περιγράφουμε σημαντικές έννοιες της Βιολογίας και αναλύονται σημαντικά πεδία της βιοπληροφορικής όπως η γονιδιωματική, η μεταγραφωματική και η ανάλυση δεδομένων γονιδιακής έκφρασης. Το προφίλ έκφρασης γονιδίων μεγάλης κλίμακας έχει χρησιμοποιηθεί ευρέως για τον χαρακτηρισμό των κυτταρικών καταστάσεων ως απόκριση σε διάφορες καταστάσεις ασθένειας. Παρουσιάζεται μια μέθοδος βαθιάς μάθησης (D-GEX) για την ανάλυση γονιδιακής έκφρασης των γονιδίων στόχων από την έκφραση των γονιδιών οροσήμων. Χρησιμοποιήθηκε το σύνολο δεδομένων, Gene Expression Omnibus, αποτελούμενο από 111.009 προφίλ έκφρασης, για την εκπαιδεύση του μοντέλου και τη συγκρίση της απόδοσής του με αλγορίθμους Μηχανικής Μάθησης. Όσον αφορά το μέσο απόλυτο σφάλμα κατά μέσο όρο σε όλα τα γονίδια, η βαθιά μάθηση ξεπερνά σημαντικά την Γραμμική Παλινδρόμηση με 15.33%. Μια συγκριτική ανάλυση βάσει γονιδίων δείχνει ότι η βαθιά μάθηση επιτυγχάνει χαμηλότερο σφάλμα από τη Γραμμική Παλινδρόμηση στο 99.97% των γονιδίων-στόχων. Τέλος, έγινε δοκιμή της απόδοσης του μοντέλου σε ένα ανεξάρτητο σύνολο δεδομένων GTEx, το οποίο αποτελείται από 2.921 προφίλ έκφρασης. Η βαθιά μάθηση εξακολουθεί να ξεπερνά τη Γραμμική Παλινδρόμηση με σχετική βελτίωση 6.57% και επιτυγχάνει χαμηλότερο σφάλμα στο 81.31% των γονιδίων-στόχων. Στο ευρύτερο πεδίο της γονιδιωματικής, η μοντελοποίηση των ιδιοτήτων και των λειτουργιών των αλληλουχιών DNA είναι ένα σημαντικό, αλλά δύσκολο έργο. Γίνεται ακόμα πιο περίπλοκο, στη περίπτωση του μη-κωδικοποιητικό DNA. Ένα ισχυρό μοντέλο πρόβλεψης για τη λειτουργία του μη κωδικοποιητικού DNA μπορεί να έχει τεράστιο όφελος τόσο για τη βασική επιστήμη όσο και για τη μεταγραφική έρευνα, επειδή πάνω από το 98% του ανθρώπινου γονιδιώματος είναι μη-κωδικοποιητικό. Για την αντιμετώπιση αυτής της ανάγκης, προτάθηκε το DanQ, ένα συνελικτικό και αναδρομικό νευρωνικό δίκτυο.