Ανάπτυξη ολοκληρωμένου συστήματος για προεπεξεργασία και αναγνώριση προτύπων από δεδομένα πρωτεωμικής

Οι ραγδαίες εξελίξεις στη Φασματομετρία Μάζας και η εισαγωγή νέων πειραματικών τεχνικών ιονισμού, όπως οι τεχνικές Matrix-Assisted Laser Desorption Ionization (MALDI) και Surface-Enhanced Laser Desorption Ionization (SELDI) έχει καταστήσει δυνατή τη μελέτη των επιπέδων της πρωτεϊνικής έκφρασης σε σ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ραψομανίκη, Μαρία Άννα
Άλλοι συγγραφείς: Τσακαλίδης, Αθανάσιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2011
Θέματα:
Διαθέσιμο Online:http://nemertes.lis.upatras.gr/jspui/handle/10889/4151
Περιγραφή
Περίληψη:Οι ραγδαίες εξελίξεις στη Φασματομετρία Μάζας και η εισαγωγή νέων πειραματικών τεχνικών ιονισμού, όπως οι τεχνικές Matrix-Assisted Laser Desorption Ionization (MALDI) και Surface-Enhanced Laser Desorption Ionization (SELDI) έχει καταστήσει δυνατή τη μελέτη των επιπέδων της πρωτεϊνικής έκφρασης σε σύνθετα μείγματα πρωτεϊνών από διάφορα βιολογικά δείγματα, όπως serum, πλάσμα και ούρα. Τα δεδομένα που προκύπτουν από αυτές τις τεχνολογίες μπορούν να χρησιμοποιηθούν για την αναγνώριση πρωτεϊνικών προτύπων, τα οποία θα μπορούν επιτυχώς να διαχωρίζουν καταστάσεις (π.χ. υγιής – ασθενής) καθώς και για την ανακάλυψη νέων πιθανών βιοδεικτών (biomarkers). Αυτά τα πρότυπα έχουν υψηλή διαγνωστική σημασία, καθώς μπορούν να χρησιμοποιηθούν για έγκαιρη διάγνωση, πρόγνωση, παρακολούθηση της εξέλιξης μιας ασθένειας ή της απόδοσης μιας συγκεκριμένης θεραπείας. Αυτή η στρατηγική έχει ήδη χρησιμοποιηθεί σε διάφορους τύπους καρκίνου, όπως ωοθηκών, μαστού και προστάτη, δίνοντας πολύ ενδιαφέροντα αποτελέσματα. Παρόλα αυτά, η σύνθετη φύση των πρωτεϊνικών δεδομένων κάνει την ανάλυση τους αρκετά απαιτητική, καθώς τα αρχικά, ακατέργαστα δεδομένα είναι πολύ δύσκολο να επεξεργαστούν. Πιο συγκεκριμένα, τα δεδομένα που ανακτώνται μετά από ένα πείραμα Φασματομετρίας Μάζας περιέχουν κάποιες εκατοντάδες δείγματα (δηλαδή φάσματα μάζας) και σε κάθε δείγμα αντιστοιχούν δεκάδες χιλιάδες χαρακτηριστικά. Επιπρόσθετα με το πρόβλημα των μεγάλων διαστάσεων και ταυτόχρονα λίγων δειγμάτων, κάθε φάσμα περιέχει σημαντικό ποσοστό θορύβου και τεχνουργημάτων, κυρίως εξαιτίας της υψηλής ευαισθησίας του μηχανήματος, της επιμόλυνση του δείγματος αλλά και διαφόρων ηλεκτρικών πηγών θορύβου. Ένα άλλο κοινό πρόβλημα είναι η λάθος βαθμονόμηση (calibration) των φασμάτων, που καθιστά τα δεδομένα αδύνατον να συγκριθούν. Για όλους αυτούς τους λόγους, είναι παραπάνω από προφανές ότι για να καταφέρουμε να εξάγουμε γνώση σχετικά με τις πραγματικές υποκείμενες βιολογικές διαφοροποιήσεις του πρωτεώματος πρέπει να εκτελέσουμε διάφορα βήματα προεπεξεργασίας. Ο βασικός στόχος της προεπεξεργασίας είναι η δημιουργία ενός πίνακα που θα περιέχει τα σημαντικά χαρακτηριστικά (δηλαδή τις κορυφές) και τις αντίστοιχες τιμές έντασης, ο οποίος θα αναλυθεί περαιτέρω χρησιμοποιώντας μια ποικιλία υπολογιστικών μεθόδων. Για να επιτύχουμε κάτι τέτοιο, πρέπει αρχικά να αφαιρέσουμε το θόρυβο, τα τεχνουργήματα και τη συστηματική απόκλιση χωρίς απώλεια πληροφορίας και έπειτα να ανιχνεύσουμε και να ποσοτικοποιήσουμε ένα σύνολο κορυφών. Η προεπεξεργασία περιλαμβάνει ένα σύνολο βημάτων τα οποία αλληλεπιδρούν μεταξύ τους και έχει δειχθεί ότι αν δεν εφαρμοστεί προσεκτικά θα είναι πολύ δύσκολο να εξαχθούν συμπεράσματα για την υποκείμενη ασθένεια. Η επιλογή του καλύτερου συνδυασμού μεθόδων είναι ιδιαίτερα δύσκολη, καθώς για κάθε βήμα έχουν προταθεί αρκετές εναλλακτικές μέθοδοι. Επιπλέον, είναι δύσκολο να αποτιμηθεί η απόδοση κάθε μεθόδου και να προταθεί μια μοναδική στρατηγική, καθώς για κάθε σύνολο δεδομένων προκύπτει και διαφορετικός συνδυασμός ως πιο κατάλληλος. Στα πλαίσια της παρούσας διπλωματικής εργασίας δημιουργήθηκε ένα ολοκληρωμένο σύστημα ανάλυσης πρωτεϊνικών δεδομένων, το οποίο ενσωματώνει μια καινούρια μέθοδο προεπεξεργασίας πρωτεϊνικών δεδομένων. Η μέθοδος αυτή αντιμετωπίζει τα προβληματικά χαρακτηριστικά αυτού του τύπου δεδομένων και εκμεταλλεύεται τα πλεονεκτήματα διάφορων γνωστών μεθόδων. Πιο συγκεκριμένα, η στρατηγική που προτείνουμε εστιάζει σε τρία σημαντικά προβλήματα: τη διόρθωση των λαθών της βαθμονόμησης, την ανίχνευση των κορυφών με ευαίσθητο αλλά και σταθερό τρόπο και την ακριβή ποσοτικοποίηση κάθε κορυφής. Η ανίχνευση κορυφής πραγματοποιήθηκε μέσω μιας μεθόδου βασισμένης στη λογική της χρήσης του μέσου φάσματος, όπου πρώτα ανιχνεύουμε τις κορυφές ανά κατηγορία, έπειτα εφαρμόζουμε διάφορα κριτήρια αποκοπής για να βεβαιώσουμε την αναπαραγωγιμότητα τους και μετά τις συνενώνουμε σε ένα σύνολο κορυφών, κοινό για όλες τις κατηγορίες. Αντί να χρησιμοποιούμε συγκεκριμένες θέσεις για κάθε κορυφή, προτείνουμε τη χρήση διαστημάτων κορυφής, έτσι ώστε να βεβαιώσουμε ότι οι μικρές αποκλίσεις δε δημιουργούν σφάλματα στην ποσοτικοποίηση. Για να αποτιμήσουμε τα αποτελέσματα της μεθόδου μας, στα δεδομένα που προέκυψαν μετά την προεπεξεργασία εφαρμόστηκε ένα τελικό βήμα επιλογής χαρακτηριστικών και ταξινόμησης, με χρήση του αλγορίθμου ταξινόμησης Support Vector Machines. Η προτεινόμενη μέθοδος μας εφαρμόστηκε σε ένα σύνολο MALDI MS δεδομένων, το οποίο μας παρείχε η Ερευνητική Μονάδα Πρωτεωμικής του Ιδρύματος Ιατροβιολογικών Εφαρμογών Ακαδημίας Αθηνών (ΙΙΒΕΑΑ). Το συγκεκριμένο σύνολο δεδομένων περιέχει 200 περίπου δείγματα από ασθενείς με καρκίνο ουροδόχου κύστεως (υψηλού ή χαμηλού βαθμού) ή καλοήθη ασθένεια. Μετά την εφαρμογή της προτεινόμενης μεθόδου, καταλήξαμε σε έναν πίνακα 456 κορυφών και αντίστοιχων εντάσεων. Η εφαρμογή του βήματος της ταξινόμησης πέτυχε πολύ υψηλά ποσοστά ακρίβειας, ευαισθησίας και ειδικότητας. Επιπλέον, αναγνωρίστηκαν 31 στατιστικά σημαντικά χαρακτηριστικά, μερικά από τα οποία δεν ανιχνεύονται από τις υπάρχουσες μεθόδους.