Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα
Οι σύγχρονες εργαστηριακές μέθοδοι παράγουν τεράστιες ποσότητες πειραματικών βιολογικών δεδομένων, σε μορφή βιολογικών ακολουθιών. Η επεξεργασία αυτών των δεδομένων είναι απαιτητική εξαιτίας του μεγάλου όγκου και της πολυπλοκότητάς τους. Η ανάπτυξη νέων εργαλείων ανάλυσης και επεξεργασίας είναι επιτ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2019
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/12448 |
id |
nemertes-10889-12448 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-124482022-09-05T04:59:48Z Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα Deep learning for large scale biological data : sequence processing using convolutional neural networks Ντόκος, Γεώργιος Μακρής, Χρήστος Σγάρμπας, Κυριάκος Χατζηλυγερούδης, Ιωάννης Μακρής, Χρήστος Dokos, Georgios Συνελικτικά vευρωνικά δίκτυα Βιολογικά δεδομένα Βιολογικές ακολουθίες μεγάλης κλίμακας Μηχανική μάθηση Ενισχυτές μεταγραφής Convolutional neural networks Biological data Biological sequences big data Machine learning DNA enhancers 006.37 Οι σύγχρονες εργαστηριακές μέθοδοι παράγουν τεράστιες ποσότητες πειραματικών βιολογικών δεδομένων, σε μορφή βιολογικών ακολουθιών. Η επεξεργασία αυτών των δεδομένων είναι απαιτητική εξαιτίας του μεγάλου όγκου και της πολυπλοκότητάς τους. Η ανάπτυξη νέων εργαλείων ανάλυσης και επεξεργασίας είναι επιτακτική ανάγκη. Από την πλευρά της Πληροφορικής, αναπτύσσονται όλο και ισχυρότερα υπολογιστικά εργαλεία που δίνουν τη δυνατότητα διαχείρησης τέτοιου τύπου δεδομένων. Μας απασχολούν οι μέθοδοι που εντάσσονται στο πεδίο της Μηχανικής Μάθησης και ιδιαίτερα στο Deep Learning. Οι πολυεπίπεδες αρχιτεκτονικές χρησιμοποιούνται ήδη με μεγάλη επιτυχία σε αρκετές εφαρμογές, κυρίως σχετικές με επεξεργασία εικόνας. Οι επιδόσεις τους αποτελούν κίνητρο για να εξερευνήσουμε την αποτελεσματικότητά τους σε εφαρμογές Βιοπληροφορικής που σχετίζονται με δεδομένα σε μορφή ακολουθιών (DNA, RNA, πρωτεϊνες). Στο πρώτο κομμάτι της εργασίας παρουσιάζονται οι σημαντικότερες μεθοδολογίες και περιγράφονται σχετικές εργασίες που χρησιμοποιούν μοντέλα πολυεπίπεδων νευρωνικών δικτύων για επεξεργασία ακολουθιών. Στο δεύτερο κομμάτι της εργασίας επιχειρείται η υλοποίηση ενός τέτοιου μοντέλου με σκοπό την επιβεβαίωση ότι αυτές οι τεχνικές είναι αποτελεσματικότερες από τις συμβατικές μεθόδους, τουλάχιστον όσον αφορά την κατηγοριοποίηση βιολογικών ακολουθιών. Πιο συγκεκριμένα, περιγράφεται η μεθοδολογία για την δημιουργία και εκπαίδευση ενός μοντέλου Συνελικτικών Νευρωνικών Δικτύων που εκτελεί κατηγοριοποίηση ακολουθιών DNA που μπορεί να περιέχουν enhancers (μικρές ακολουθίες που ενισχύουν τη διαδικασία της μεταγραφής του DNA). Παρουσιάζεται βήμα προς βήμα η προεπεξεργασία των δεδομένων, η κατασκευή και εκπαίδευση των νευρωνικών δικτύων, καθώς και όλες οι επιλογές που έγιναν για να βρεθεί η βέλτιστη δομή. Κλείνοντας, γίνεται μια συζήτηση σχετικά με θέματα που απασχολούν ή αναμένεται να απασχολήσουν την έρευνα στον τομέα των συνελικτικών δικτύων, όπως η έλλειψη επαρκούς θεωρητικής κατανόησης και η επιλογή της κατάλληλης αρχιτεκτονικής. Novel high throughput technologies produce a massive amount of experimental biological data, in the form of biological sequences. Processing these data is challenging because of their quantity and complexity. Developing new tools for analysis is crucial. Methods from the field of Machine Learning and, particularly, Deep Learning are extremely promising in applications of Computer Vision. Their performance is our motivation to explore the possibility of using them in applications of Bioinformatics. In the first part of this master thesis we present the major methodologies for multi-layered architectures and relevant work in the field of sequence processing. In the second part we develop a such a model, based on Convolutional Neural Network, in order to verify, experimentally, the validity of using Deep Learning for sequence classification. We present a general framework which classifies DNA enhancers, step by step: preprocessing, network structure, training, as well as the choices that were made in order to improve our model. Lastly, we discuss current or future issues, such as the lack of theoretical understanding or the choice of proper structure for a Convolutional Neural Network. 2019-08-09T09:29:21Z 2019-08-09T09:29:21Z 2019-05-23 Thesis http://hdl.handle.net/10889/12448 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Συνελικτικά vευρωνικά δίκτυα Βιολογικά δεδομένα Βιολογικές ακολουθίες μεγάλης κλίμακας Μηχανική μάθηση Ενισχυτές μεταγραφής Convolutional neural networks Biological data Biological sequences big data Machine learning DNA enhancers 006.37 |
spellingShingle |
Συνελικτικά vευρωνικά δίκτυα Βιολογικά δεδομένα Βιολογικές ακολουθίες μεγάλης κλίμακας Μηχανική μάθηση Ενισχυτές μεταγραφής Convolutional neural networks Biological data Biological sequences big data Machine learning DNA enhancers 006.37 Ντόκος, Γεώργιος Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα |
description |
Οι σύγχρονες εργαστηριακές μέθοδοι παράγουν τεράστιες ποσότητες πειραματικών βιολογικών δεδομένων, σε μορφή βιολογικών ακολουθιών. Η επεξεργασία αυτών των δεδομένων είναι απαιτητική εξαιτίας του μεγάλου όγκου και της πολυπλοκότητάς τους. Η ανάπτυξη νέων εργαλείων ανάλυσης και επεξεργασίας είναι επιτακτική ανάγκη. Από την πλευρά της Πληροφορικής, αναπτύσσονται όλο και ισχυρότερα υπολογιστικά εργαλεία που δίνουν τη δυνατότητα διαχείρησης τέτοιου τύπου δεδομένων.
Μας απασχολούν οι μέθοδοι που εντάσσονται στο πεδίο της Μηχανικής Μάθησης και ιδιαίτερα στο Deep Learning. Οι πολυεπίπεδες αρχιτεκτονικές χρησιμοποιούνται ήδη με μεγάλη επιτυχία σε αρκετές εφαρμογές, κυρίως σχετικές με επεξεργασία εικόνας. Οι επιδόσεις τους αποτελούν κίνητρο για να εξερευνήσουμε την αποτελεσματικότητά τους σε εφαρμογές Βιοπληροφορικής που σχετίζονται με δεδομένα σε μορφή ακολουθιών (DNA, RNA, πρωτεϊνες).
Στο πρώτο κομμάτι της εργασίας παρουσιάζονται οι σημαντικότερες μεθοδολογίες και περιγράφονται σχετικές εργασίες που χρησιμοποιούν μοντέλα πολυεπίπεδων νευρωνικών δικτύων για επεξεργασία ακολουθιών. Στο δεύτερο κομμάτι της εργασίας επιχειρείται η υλοποίηση ενός τέτοιου μοντέλου με σκοπό την επιβεβαίωση ότι αυτές οι τεχνικές είναι αποτελεσματικότερες από τις συμβατικές μεθόδους, τουλάχιστον όσον αφορά την κατηγοριοποίηση βιολογικών ακολουθιών.
Πιο συγκεκριμένα, περιγράφεται η μεθοδολογία για την δημιουργία και εκπαίδευση ενός μοντέλου Συνελικτικών Νευρωνικών Δικτύων που εκτελεί κατηγοριοποίηση ακολουθιών DNA που μπορεί να περιέχουν enhancers (μικρές ακολουθίες που ενισχύουν τη διαδικασία της μεταγραφής του DNA). Παρουσιάζεται βήμα προς βήμα η προεπεξεργασία των δεδομένων, η κατασκευή και εκπαίδευση των νευρωνικών δικτύων, καθώς και όλες οι επιλογές που έγιναν για να βρεθεί η βέλτιστη δομή.
Κλείνοντας, γίνεται μια συζήτηση σχετικά με θέματα που απασχολούν ή αναμένεται να απασχολήσουν την έρευνα στον τομέα των συνελικτικών δικτύων, όπως η έλλειψη επαρκούς θεωρητικής κατανόησης και η επιλογή της κατάλληλης αρχιτεκτονικής. |
author2 |
Μακρής, Χρήστος |
author_facet |
Μακρής, Χρήστος Ντόκος, Γεώργιος |
format |
Thesis |
author |
Ντόκος, Γεώργιος |
author_sort |
Ντόκος, Γεώργιος |
title |
Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα |
title_short |
Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα |
title_full |
Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα |
title_fullStr |
Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα |
title_full_unstemmed |
Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα |
title_sort |
deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα |
publishDate |
2019 |
url |
http://hdl.handle.net/10889/12448 |
work_keys_str_mv |
AT ntokosgeōrgios deeplearninggiabiologikadedomenamegalēsklimakasepexergasiabiologikōnakolouthiōnmesyneliktikaneurōnikadiktya AT ntokosgeōrgios deeplearningforlargescalebiologicaldatasequenceprocessingusingconvolutionalneuralnetworks |
_version_ |
1771297131023302656 |