Χρήση ευφυών αλγοριθμικών τεχνικών για επεξεργασία πρωτεϊνικών δεδομένων

H παρούσα διατριβή εκπονήθηκε στο Εργαστήριο Αναγνώρισης Προτύπων, του Τμήματος Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής του Πανεπιστημίου Πατρών. Αποτελεί μέρος της ευρύτερης ερευνητικής δραστηριότητας του Εργαστηρίου στον τομέα του σχεδιασμού και της εφαρμογής των τεχνολογιών Υπολογιστι...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Θεοφιλάτος, Κωνσταντίνος
Άλλοι συγγραφείς: Λυκοθανάσης, Σπυρίδων
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2014
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/7778
Περιγραφή
Περίληψη:H παρούσα διατριβή εκπονήθηκε στο Εργαστήριο Αναγνώρισης Προτύπων, του Τμήματος Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής του Πανεπιστημίου Πατρών. Αποτελεί μέρος της ευρύτερης ερευνητικής δραστηριότητας του Εργαστηρίου στον τομέα του σχεδιασμού και της εφαρμογής των τεχνολογιών Υπολογιστικής Νοημοσύνης στην ανάλυση βιολογικών δεδομένων. Η διδακτορική αυτή διατριβή χρηματοδοτήθηκε από το πρόγραμμα Ηράκλειτος ΙΙ. Ο τομέας της πρωτεωμικής είναι ένα σχετικά καινούργιο και γρήγορα αναπτυσσόμενο ερευνητικό πεδίο. Μια από τις μεγαλύτερες προκλήσεις στον τομέα της πρωτεωμικής είναι η αναδόμηση του πλήρους πρωτεϊνικού αλληλεπιδραστικού δικτύου μέσα στα κύτταρα. Εξαιτίας του γεγονότος, ότι οι πρωτεϊνικές αλληλεπιδράσεις παίζουν πολύ σημαντικό ρόλο στις βασικές λειτουργίες ενός κυττάρου, η ανάλυση αυτών των δικτύων μπορεί να αποκαλύψει τον ρόλο αυτών των αλληλεπιδράσεων στις ασθένειες καθώς και τον τρόπο με τον οποίο οι τελευταίες αναπτύσσονται. Παρόλα αυτά, είναι αρκετά δύσκολο να καταγραφούν και να μελετηθούν οι πρωτεϊνικές αλληλεπιδράσεις ενός οργανισμού, καθώς το πρωτέωμα διαφοροποιείται από κύτταρο σε κύτταρο και αλλάζει συνεχώς μέσα από τις βιοχημικές του αλληλεπιδράσεις με το γονιδίωμα και το περιβάλλον. Ένας οργανισμός έχει ριζικά διαφορετική πρωτεϊνική έκφραση στα διάφορα σημεία του σώματός του, σε διαφορετικά στάδια του κύκλου ζωής του και υπό διαφορετικές περιβαλλοντικές συνθήκες. Δημιουργούνται, λοιπόν, δύο πάρα πολύ σημαντικοί τομείς έρευνας, που είναι, πρώτον, η εύρεση των πραγματικών πρωτεϊνικών αλληλεπιδράσεων ενός οργανισμού που θα συνθέσουν το πρωτεϊνικό δίκτυο αλληλεπιδράσεων και, δεύτερον, η περαιτέρω ανάλυση του πρωτεϊνικού δικτύου για εξόρυξη πληροφορίας (εύρεση πρωτεϊνικών συμπλεγμάτων, καθορισμός λειτουργίας πρωτεϊνών κτλ). Στην παρούσα διδακτορική διατριβή παρουσιάζονται καινοτόμες αλγοριθμικές τεχνικές Υπολογιστικής Νοημοσύνης για την πρόβλεψη πρωτεϊνικών αλληλεπιδράσεων, τον υπολογισμό ενός βαθμού εμπιστοσύνης για κάθε προβλεφθείσα αλληλεπίδραση, την πρόβλεψη πρωτεϊνικών συμπλόκων από δίκτυα πρωτεϊνικών αλληλεπιδράσεων και την πρόβλεψη της λειτουργίας πρωτεϊνών. Συγκεκριμένα, στο κομμάτι της πρόβλεψης και βαθμολόγησης πρωτεϊνικών αλληλεπιδράσεων αναπτύχθηκε μια πληθώρα καινοτόμων τεχνικών ταξινόμησης. Αυτές κυμαίνονται από υβριδικούς συνδυασμούς μετα-ευρετικών μεθόδων και ταξινομητών μηχανικής μάθησης, μέχρι μεθόδους γενετικού προγραμματισμού και υβριδικές μεθοδολογίες ασαφών συστημάτων. Στο κομμάτι της πρόβλεψης πρωτεϊνικών συμπλόκων υλοποιήθηκαν δύο βασικές καινοτόμες μεθοδολογίες μη επιβλεπόμενης μάθησης, οι οποίες θεωρητικά και πειραματικά ξεπερνούν τα μειονεκτήματα των υπαρχόντων αλγορίθμων. Για τις περισσότερες από αυτές τις υλοποιηθείσες μεθοδολογίες υλοποιήθηκαν φιλικές προς τον χρήστη διεπαφές. Οι περισσότερες από αυτές τις μεθοδολογίες μπορούν να χρησιμοποιηθούν και σε άλλους τομείς. Αυτό πραγματοποιήθηκε με μεγάλη επιτυχία σε προβλήματα βιοπληροφορικής όπως η πρόβλεψη microRNA γονιδίων και mRNA στόχων τους και η μοντελοποίηση - πρόβλεψη οικονομικών χρονοσειρών. Πειραματικά, η μελέτη αρχικά επικεντρώθηκε στον οργανισμό της ζύμης (Saccharomyces cerevisiae), έτσι ώστε να αξιολογηθούν οι αλγόριθμοι, που υλοποιήθηκαν και να συγκριθούν με τις υπάρχουσες αλγοριθμικές μεθοδολογίες. Στη συνέχεια, δόθηκε ιδιαίτερη έμφαση στις πρωτεΐνες του ανθρώπινου οργανισμού. Συγκεκριμένα, οι καλύτερες αλγοριθμικές τεχνικές για την ανάλυση δεδομένων πρωτεϊνικών αλληλεπιδράσεων εφαρμόστηκαν σε ένα σύνολο δεδομένων που δημιουργήθηκε για τον ανθρώπινο οργανισμό. Αυτό είχε σαν αποτέλεσμα την δημιουργία ενός πλήρους, σταθμισμένου δικτύου πρωτεϊνικών αλληλεπιδράσεων για τον άνθρωπο και την εξαγωγή των πρωτεϊνικών συμπλόκων, που υπάρχουν σε αυτό καθώς και τον λειτουργικό χαρακτηρισμό πολλών αχαρακτήριστων πρωτεϊνών. Τα αποτελέσματα της ανάλυσης των δεδομένων πρωτεϊνικών αλληλεπιδράσεων για τον άνθρωπο είναι διαθέσιμα μέσω μίας διαδικτυακής βάσης γνώσης HINT-KB (http://hintkb.ceid.upatras.gr), που υλοποιήθηκε στα πλαίσια αυτής της διδακτορικής διατριβής. Σε αυτή την βάση γνώσης ενσωματώνεται, από διάφορες πηγές, ακολουθιακή, δομική και λειτουργική πληροφορία για ένα τεράστιο πλήθος ζευγών πρωτεϊνών του ανθρώπινου οργανισμού. Επίσης, οι χρήστες μπορούν να έχουν προσβαση στις προβλεφθείσες πρωτεϊνικές αλληλεπιδράσεις και στον βαθμό εμπιστοσύνης τους. Τέλος, παρέχονται εργαλεία οπτικοποίησης του δικτύου πρωτεϊνικών αλληλεπιδράσεων, αλλά και εργαλεία ανάκτησης των πρωτεϊνικών συμπλόκων που υπάρχουν σε αυτό και της λειτουργίας πρωτεϊνών και συμπλόκων. Το προβλήματα με τα οποία καταπιάνεται η παρούσα διδακτορική διατριβή έχουν σημαντικό ερευνητικό ενδιαφέρον, όπως τεκμηριώνεται και από την παρατιθέμενη στη διατριβή εκτενή βιβλιογραφία. Μάλιστα, βασικός στόχος είναι οι παρεχόμενοι αλγόριθμοι και υπολογιστικά εργαλεία να αποτελέσουν ένα οπλοστάσιο στα χέρια των βιοπληροφορικάριων για την επίτευξη της κατανόησης των κυτταρικών λειτουργιών και την χρησιμοποίηση αυτής της γνώσης για γονιδιακή θεραπεία διαφόρων πολύπλοκων πολυπαραγοντικών ασθενειών όπως ο καρκίνος. Τα σημαντικόταρα επιτεύγματα της παρούσας διατριβής μπορούν να συνοψισθούν στα ακόλουθα σημεία: • Παροχή ολοκληρωμένης υπολογιστικής διαδικασίας ανάλυσης δεδομένων πρωτεϊνικών αλληλεπιδράσεων • Σχεδιασμός και υλοποίηση ευφυών τεχνικών πρόβλεψης και βαθμολόγησης πρωτεϊνικών αλληλεπιδράσεων, που θα παρέχουν αποδοτικά και ερμηνεύσιμα μοντέλα πρόβλεψης. • Σχεδιασμός και υλοποίηση αποδοτικών αλγορίθμων μη επιβλεπόμενης μάθησης για την εξόρυξη πρωτεϊνικών συμπλόκων από δίκτυα πρωτεϊνικών αλληλλεπιδράσεων. • Δημιουργία μιας βάσης γνώσης που θα παρέχει στην επιστημονική κοινότητα όλα τα ευρήματα της ανάλυσης των δεδομένων πρωτεϊνικών αλληλεπιδράσεων για τον ανθρώπινο οργανισμό.