Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA

Το 1965 έγινε η πρώτη ανακάλυψή των μη κωδικών περιοχών RNA που μέχρι σήμερα αποτελεί καίριο σημείο στον κόσμο της βιολογίας. Ο λόγος είναι πως μέχρι πρότινος οι μη κώδικές περιοχές θεωρούνταν από τους επιστήμονες περιοχές που δεν είχαν κάποια σημαντική επίδραση σε θέματα λειτουργιών και αυτός είναι...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σταυρίδης, Μιχαήλ
Άλλοι συγγραφείς: Σακελλαρόπουλος, Γεώργιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/11510
id nemertes-10889-11510
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μη κωδικές περιοχές RNA
Μη κωδικοποιητικό RNA
Τυχαία δάση
Ταξινόμηση
Ελαχιστοποίηση διαστάσεων
Multi-label classification
Non-coding RNAs
Dimensionality reduction
Random forests
Multi-objective classification
572.880 285
spellingShingle Μη κωδικές περιοχές RNA
Μη κωδικοποιητικό RNA
Τυχαία δάση
Ταξινόμηση
Ελαχιστοποίηση διαστάσεων
Multi-label classification
Non-coding RNAs
Dimensionality reduction
Random forests
Multi-objective classification
572.880 285
Σταυρίδης, Μιχαήλ
Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA
description Το 1965 έγινε η πρώτη ανακάλυψή των μη κωδικών περιοχών RNA που μέχρι σήμερα αποτελεί καίριο σημείο στον κόσμο της βιολογίας. Ο λόγος είναι πως μέχρι πρότινος οι μη κώδικές περιοχές θεωρούνταν από τους επιστήμονες περιοχές που δεν είχαν κάποια σημαντική επίδραση σε θέματα λειτουργιών και αυτός είναι ο λόγος που τις ονόμαζαν ‘’junk RNA’’. Η αλλαγή ήρθε όταν τα μικρά κώδικά μόρια RNA (ncRNA) έδειξαν πως παίζουν σημαντικό ρόλο στη ρύθμιση της έκφρασης των γονιδίων όπως επίσης και σε σημαντικές κυτταρικές λειτουργίες . Με το πέρασμα των χρόνων ο αριθμός των κατηγοριών συνεχώς και μεγαλώνει και σε αυτήν την αύξηση του αριθμού σημαντικός παράγοντας είναι οι σύγχρονες τεχνικές αλληλούχησης υψηλής απόδοσης (high throughput sequencing). Ενδεικτικά, κάποιες γνωστές κατηγορίες μικρών ncRNAs είναι τα snoRNAs, microRNAs, siRNAs, snRNAs, exRNAs, piRNAs. Πρόσφατα ανακαλύφθηκε και μια κατηγορία σημαντικών στη ρύθμιση ncRNAs, τα tRNA-derived fragments (tRfs) τα οποία είναι παράγωγα του tRNA . Εξαιτίας του μικρού μεγέθους των ncRNAs, ο πειραματικός τους εντοπισμός αποτελεί εξαιρετικά δύσκολη διαδικασία και αυτός ήταν ο λόγος που έχουν αναπτυχθεί στον χώρο της βιοπληροφορικής αρκετές μέθοδοι Υπολογιστικής Νοημοσύνης και αλγόριθμοι οι οποίοι μπορούν να εντοπίσουν πιθανά ncRNA [7]. Μέχρι στιγμής έχουν χρησιμοποιηθεί σαν μέθοδοι ταξινόμησης Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines), Μπεΰζιανά δίκτυα (Bayesian Networks) και άλλες πιθανοκρατικές μέθοδοι όπως τα Hidden Markov μοντέλα. Πέρα από τα προβλήματα απόδοσης αρκετών από αυτές τις μεθόδους και τον εντοπισμό πολλών ψευδώς αληθών (false positive) μορίων σαν ncRNAs, οι περισσότερες μπορούν να ταξινομούν τα μόρια σε ένα μικρό αριθμό από τις γνωστές κατηγορίες. Επίσης, κάποιες ακολουθίες RNA μπορεί να δρουν ως διαφορετικά ncRNAs κάθε φορά, π.χ. mature miRNAs και tRfs, miRNAs και mature miRNAs και tRfs και tRNAs. Στην παρούσα διπλωματική εργασία προτείνουμε μια νέα μεθοδολογία υπολογιστικής νοημοσύνης, με στόχο την ταξινόμηση των μη-κωδικών μορίων RNA στις διάφορες κατηγορίες τους βάσει της πληροφορίας που μπορεί να εξαχθεί από την ακολουθία τους, τις θερμοδυναμικές τους ιδιότητες, κλπ. Η μεθοδολογία αυτή θα υποστηρίζει την ταξινόμηση σε μεγάλο αριθμό από τις γνωστές κατηγορίες ncRNAs και ταυτόχρονα θα επιτρέπει μια ακολουθία να μπορεί να ανήκει σε παραπάνω από μία κατηγορίες. Η προτεινόμενη μεθοδολογία αποτελεί υβριδική μεθοδολογία που συνδυάζει έναν ευρετικό αλγόριθμο πολυκριτηριακής βελτιστοποίησης για την επιλογή χαρακτηριστικών και βελτιστοποίηση παραμέτρων με την μεθοδολογία ταξινόμησης τυχαίων δασών. Τα τυχαία δάση επιλέχθηκαν καθώς θεωρούνται από τις ακριβέστερες μεθόδους ταξινόμησης και εμφανίζουν αυξημένη ικανότητα γενίκευσης . Στα πλαίσια της παρούσας εργασίας δε θα χρησιμοποιηθεί η κλασική μέθοδος των τυχαίων δασών, αλλά θα δοκιμαστούν διάφορες παραλλαγές της έτσι ώστε εντοπιστεί η κατάλληλη για τον χειρισμό δεδομένων πολλαπλών κλάσεων και ετικετών. Για την αξιολόγηση της παραχθείσας μεθόδου, θα πραγματοποιηθούν πειράματα σε δεδομένα ncRNAs που θα συλλεχθούν από την βάση δεδομένων Rfam ενώ ο υπολογισμός των χαρακτηριστικών για κάθε μία ακολουθία ncRNAs θα πραγματοποιηθεί με το εργαλείο InSyBio ncRNAseq .
author2 Σακελλαρόπουλος, Γεώργιος
author_facet Σακελλαρόπουλος, Γεώργιος
Σταυρίδης, Μιχαήλ
format Thesis
author Σταυρίδης, Μιχαήλ
author_sort Σταυρίδης, Μιχαήλ
title Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA
title_short Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA
title_full Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA
title_fullStr Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA
title_full_unstemmed Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA
title_sort σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων rna
publishDate 2018
url http://hdl.handle.net/10889/11510
work_keys_str_mv AT stauridēsmichaēl schediasmoskaiylopoiēsēmethodologiasypologistikēsnoēmosynēsgiatēntaxinomēsēdedomenōnpollōnklaseōnkaietiketōnkaiepharmogētēsstoproblēmatēstautopoiēsēskaitaxinomēsēsakolouthiōnmēkōdikōnmoriōnrna
AT stauridēsmichaēl noncodingrnasequencesidentificationandclassificationusingamulticlassandmultilabelensembletechnique
_version_ 1771297146544324608
spelling nemertes-10889-115102022-09-05T05:38:58Z Σχεδιασμός και υλοποίηση μεθοδολογίας υπολογιστικής νοημοσύνης για την ταξινόμηση δεδομένων πολλών κλάσεων και ετικετών και εφαρμογή της στο πρόβλημα της ταυτοποίησης και ταξινόμησης ακολουθιών μη κωδικών μορίων RNA Non-coding RNA sequences identification and classification using a multi-class and multi-label ensemble technique Σταυρίδης, Μιχαήλ Σακελλαρόπουλος, Γεώργιος Σακελλαρόπουλος, Γεώργιος Σταθόπουλος, Κωνσταντίνος Μαυρουδή, Σεφερίνα Stavridis, Michael Μη κωδικές περιοχές RNA Μη κωδικοποιητικό RNA Τυχαία δάση Ταξινόμηση Ελαχιστοποίηση διαστάσεων Multi-label classification Non-coding RNAs Dimensionality reduction Random forests Multi-objective classification 572.880 285 Το 1965 έγινε η πρώτη ανακάλυψή των μη κωδικών περιοχών RNA που μέχρι σήμερα αποτελεί καίριο σημείο στον κόσμο της βιολογίας. Ο λόγος είναι πως μέχρι πρότινος οι μη κώδικές περιοχές θεωρούνταν από τους επιστήμονες περιοχές που δεν είχαν κάποια σημαντική επίδραση σε θέματα λειτουργιών και αυτός είναι ο λόγος που τις ονόμαζαν ‘’junk RNA’’. Η αλλαγή ήρθε όταν τα μικρά κώδικά μόρια RNA (ncRNA) έδειξαν πως παίζουν σημαντικό ρόλο στη ρύθμιση της έκφρασης των γονιδίων όπως επίσης και σε σημαντικές κυτταρικές λειτουργίες . Με το πέρασμα των χρόνων ο αριθμός των κατηγοριών συνεχώς και μεγαλώνει και σε αυτήν την αύξηση του αριθμού σημαντικός παράγοντας είναι οι σύγχρονες τεχνικές αλληλούχησης υψηλής απόδοσης (high throughput sequencing). Ενδεικτικά, κάποιες γνωστές κατηγορίες μικρών ncRNAs είναι τα snoRNAs, microRNAs, siRNAs, snRNAs, exRNAs, piRNAs. Πρόσφατα ανακαλύφθηκε και μια κατηγορία σημαντικών στη ρύθμιση ncRNAs, τα tRNA-derived fragments (tRfs) τα οποία είναι παράγωγα του tRNA . Εξαιτίας του μικρού μεγέθους των ncRNAs, ο πειραματικός τους εντοπισμός αποτελεί εξαιρετικά δύσκολη διαδικασία και αυτός ήταν ο λόγος που έχουν αναπτυχθεί στον χώρο της βιοπληροφορικής αρκετές μέθοδοι Υπολογιστικής Νοημοσύνης και αλγόριθμοι οι οποίοι μπορούν να εντοπίσουν πιθανά ncRNA [7]. Μέχρι στιγμής έχουν χρησιμοποιηθεί σαν μέθοδοι ταξινόμησης Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines), Μπεΰζιανά δίκτυα (Bayesian Networks) και άλλες πιθανοκρατικές μέθοδοι όπως τα Hidden Markov μοντέλα. Πέρα από τα προβλήματα απόδοσης αρκετών από αυτές τις μεθόδους και τον εντοπισμό πολλών ψευδώς αληθών (false positive) μορίων σαν ncRNAs, οι περισσότερες μπορούν να ταξινομούν τα μόρια σε ένα μικρό αριθμό από τις γνωστές κατηγορίες. Επίσης, κάποιες ακολουθίες RNA μπορεί να δρουν ως διαφορετικά ncRNAs κάθε φορά, π.χ. mature miRNAs και tRfs, miRNAs και mature miRNAs και tRfs και tRNAs. Στην παρούσα διπλωματική εργασία προτείνουμε μια νέα μεθοδολογία υπολογιστικής νοημοσύνης, με στόχο την ταξινόμηση των μη-κωδικών μορίων RNA στις διάφορες κατηγορίες τους βάσει της πληροφορίας που μπορεί να εξαχθεί από την ακολουθία τους, τις θερμοδυναμικές τους ιδιότητες, κλπ. Η μεθοδολογία αυτή θα υποστηρίζει την ταξινόμηση σε μεγάλο αριθμό από τις γνωστές κατηγορίες ncRNAs και ταυτόχρονα θα επιτρέπει μια ακολουθία να μπορεί να ανήκει σε παραπάνω από μία κατηγορίες. Η προτεινόμενη μεθοδολογία αποτελεί υβριδική μεθοδολογία που συνδυάζει έναν ευρετικό αλγόριθμο πολυκριτηριακής βελτιστοποίησης για την επιλογή χαρακτηριστικών και βελτιστοποίηση παραμέτρων με την μεθοδολογία ταξινόμησης τυχαίων δασών. Τα τυχαία δάση επιλέχθηκαν καθώς θεωρούνται από τις ακριβέστερες μεθόδους ταξινόμησης και εμφανίζουν αυξημένη ικανότητα γενίκευσης . Στα πλαίσια της παρούσας εργασίας δε θα χρησιμοποιηθεί η κλασική μέθοδος των τυχαίων δασών, αλλά θα δοκιμαστούν διάφορες παραλλαγές της έτσι ώστε εντοπιστεί η κατάλληλη για τον χειρισμό δεδομένων πολλαπλών κλάσεων και ετικετών. Για την αξιολόγηση της παραχθείσας μεθόδου, θα πραγματοποιηθούν πειράματα σε δεδομένα ncRNAs που θα συλλεχθούν από την βάση δεδομένων Rfam ενώ ο υπολογισμός των χαρακτηριστικών για κάθε μία ακολουθία ncRNAs θα πραγματοποιηθεί με το εργαλείο InSyBio ncRNAseq . The first non-coding RNA characterized in 1965 and until now is considered an important breakthrough in the field of biology. The importance of this breakthrough is due to the way in which they are dealing with them as “junk RNA” from the majority of scientific community. The importance of this change came when the micro non-coding RNAs showed the direct influence in the regulation mechanisms of gene expression as well as the importance of cell functions . With the passage of time the number of non-coding RNA categories is growing and the major factor of this growth is the new developments in the field of modern sequencing techniques (high throughput sequencing). Indicatively some of the most popular categories of these non-coding RNAs are the snoRNAs, microRNAs, siRNAs, snRNAs, exRNAs, piRNAS [5]. Recently, a new category has been discovered, tRNA-derived fragments (tRfs) which are products of tRNA and they have shown important signs in the regulation of ncRNAs. Because of their small size (20-100 bases) the identification of their existence is still a difficult procedure and it was and it was one of the important reasons for the development of new bioinformatics tools which are based on computational intelligence as well as in techniques from mathematical, statistical fields which are precise and this is the main reason why we prefer using computational tools from the conventional experimental methods Some of the computational methods are the Bayesian networks, Support Vector Machines (SVM), Hidden Makov models. It is of great importance to mention that in the last few years more and more machine learning techniques are preferred due to their simplicity in such a way which helps us to fully understand the results of these procedures. Despite the fact that these techniques are preferred to conventional methods, the results may differ accordingly to the problem and more precisely to the kind of dataset we have to deal with in each case. In non-coding RNA datasets, some of these methods have shown that they can handle the false positive ncRNAs and their success to classify most of the experiments known as ncRNAs. Furthermore, in the past a few years ago the way of interpreting the classification of ncRNAs was simpleminded because the scientific community claimed for many years that every ncRNA can be classified in only one category. Now the most efficient methods can handle the multilabeling existence of ncRNAs, for example a mature micro RNA can have same the same properties and functions as a snoRNA and for this reason we tried to capture this multifunctionality in the present thesis with the development of GARF algorithm for which we will refer to later on. In the present thesis, a new hybrid computational intelligence methodology is proposed whose target is to classify non-coding RNA molecules in many categories with different features as a result of sequencing analysis. Some of these features are thermodynamic properties, the per-base nucleotides, etc. The proposed methodology can classify all the known ncRNAs molecules and in a parallel way it will allow a sequence to be classified to more than one category. The proposed methodology is considered a hybrid methodology that combines a heuristic multicriterial optimization algorithm [9] for the selection of characteristics and optimization of the parameters based on random forests technique which is an ensemble learning method for classification. The Random forests approach method was chosen as it has been considered one of the most accurate machine learning methods for every kind of datasets and they have shown a unique characteristic of generalization. It is important to add that in the present thesis we will not make usage of the original version of Random Forest but we will try to capture the full potential of this algorithm with every parameter optimization with a final purpose the best handling of our biological multilabeled dataset. For the validation of our methodology, we will use a majority of experiments in ncRNAs sequences which will be collected from databases such as Rfam In addition we will use the InSybio ncRNAseq tool for the feature extraction in every sequence of ncRNA molecules. 2018-08-28T08:15:07Z 2018-08-28T08:15:07Z 2018-02-26 Thesis http://hdl.handle.net/10889/11510 gr 0 application/pdf