Σχεδιασμός & ανάπτυξη μιας μετα-βάσης δεδομένων για το δίκτυο πρωτεϊνικών αλληλεπιδράσεων στον άνθρωπο

Η αποσαφήνιση της σχέσης του γονοτύπου με το φαινότυπο ενός οργανισμού είναι μια από τις μεγαλύτερες προκλήσεις των επιστημών ζωής σήμερα. Για την επίτευξη του στόχου αυτού, η κατανόηση της δομής και της ρύθμισης του δικτύου πρωτεϊνικών αλληλεπιδράσεων (ΔΠΑ) είναι ένα από τα καθοριστικά στάδια αυτής...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Γιουτλάκης, Άρης
Άλλοι συγγραφείς: Μοσχονάς, Νικόλαος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2013
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/6248
Περιγραφή
Περίληψη:Η αποσαφήνιση της σχέσης του γονοτύπου με το φαινότυπο ενός οργανισμού είναι μια από τις μεγαλύτερες προκλήσεις των επιστημών ζωής σήμερα. Για την επίτευξη του στόχου αυτού, η κατανόηση της δομής και της ρύθμισης του δικτύου πρωτεϊνικών αλληλεπιδράσεων (ΔΠΑ) είναι ένα από τα καθοριστικά στάδια αυτής της συσχέτισης. Πρώτο βήμα προς την κατεύθυνση αυτή αποτελεί η λεπτομερής και ακριβής ανακατασκευή του ΔΠΑ. Πειραματικά αποτελέσματα που υποστηρίζουν πρωτεϊνικές αλληλεπιδράσεις δημοσιεύονται στη βιβλιογραφία, από όπου η γνώση αυτή εξορύσσεται είτε μέσω άμεσης καταγραφής από ερευνητές είτε μέσω υπολογιστικών αλγορίθμων ανάλυσης κειμένου, και αποθηκεύεται σε πρωτογενείς βάσεις δεδομένων πρωτεϊνικών αλληλεπιδράσεων (ΒΔΠΑ). Για το ΔΠΑ στον άνθρωπο, υπάρχουν αρκετές ΒΔΠΑ, οι οποίες λόγω διαφορετικών στόχων, τρόπων εξόρυξης γνώσης από τη βιβλιογραφία και διαφορετικής διαχείρισης της βάσης, παρουσιάζουν μικρή επικάλυψη, περιγράφουν τα δεδομένα τους με ασύμβατο μεταξύ τους τρόπο και ορολογία, και ορίζουν τις πρωτεϊνικές αλληλεπιδράσεις μέσω διαφορετικών επιπέδων αναφοράς της γονιδιακής πληροφορίας. Για την ενοποίηση δεδομένων πρωτεϊνικών αλληλεπιδράσεων από διάφορες πρωτογενείς βάσεις έχουν αναπτυχθεί μετα-βάσεις, οι οποίες προσπαθούν να ξεπεράσουν τα προβλήματα που προκύπτουν από την ετερογένεια των ΒΔΠΑ. Και στην περίπτωση των μεταβάσεων, όμως, ανακύπτουν προβλήματα, που αφορούν: α) στο ότι το δίκτυο ορίζεται με βάση τις πρωτεϊνικές αλληλεπιδράσεις και όχι τις πρωτεΐνες-κόμβους του ΔΠΑ, β) στον πλεονασμό κωδικών ταυτοποίησης των πρωτεϊνών στα διάφορα επίπεδα αναφοράς της γονιδιακής πληροφορίας, γ) στην ετερογένεια του τρόπου κανονικοποίησης των κωδικών ταυτοποίησης πρωτεϊνών, δ) στην υστέρηση της ανανέωσής τους σε σχέση με τις πρωτογενείς βάσεις και ε) στην επιλογή των δεδομένων που καταγράφονται από τις ΒΔΠΑ. Ο σκοπός αυτής της εργασίας είναι ο σχεδιασμός και η ανάπτυξη μιας μετα-βάσης δεδομένων για το δίκτυο πρωτεϊνικών αλληλεπιδράσεων στον άνθρωπο, PICKLE, που να προσφέρει επαρκείς λύσεις στα προβλήματα αυτά. Η μεγάλη διαφορά σε σχέση με τις υπάρχουσες μετα-βάσεις είναι ο ορισμός του ΔΠΑ με βάση το αξιολογημένο πλήρες ανθρώπινο πρωτεϊνωμα (Reviewed complete Human Proteome), όπως αυτό ορίζεται από τη βάση δεδομένων γνώσης πρωτεϊνικής πληροφορίας UniProt ΚΒ. Για τις πρωτεΐνες αυτές αναζητήθηκε η σχετική πληροφορία αλληλεπιδράσεων στις πέντε κύριες δημόσιες βάσεις πρωτεϊνικών αλληλεπιδράσεων στον άνθρωπο, DIP, HPRD, IntAct, MINT και BioGRID. Τα προβλήματα του πλεονασμού και της κανονικοποίησης λύθηκαν μέσω της ανάπτυξης μίας κατάλληλης γονιδιακής οντολογίας, η οποία μας επέτρεψε να συνδέσουμε το πλήρες ανθρώπινο πρωτεϊνωμα με τα υπόλοιπα επίπεδα αναφοράς της γενετικής πληροφορίας, δρώντας παράλληλα ως ένας ευέλικτος και ακριβής μηχανισμός κανονικοποίησης. Για τη γρήγορη ανανέωση των δεδομένων της μετα-βάσης, αναπτύχθηκε μια αυτοματοποιημένη διαδικασία σύνδεσης και ενημέρωσής της από τις PPIDBs. Η πρώτη έκδοση της PICKLE κατέγραψε 83720 αλληλεπιδράσεις για 12418 UNIPROT IDs από το σύνολο των 20225 του πλήρους ανθρώπινου πρωτεϊνωματος, που υποστηρίζονται από 27.590 δημοσιεύσεις. Η PICKLE θα εμπλουτιστεί με ένα φιλικό προς το χρήστη γραφικό περιβάλλον και θα συνδεθεί με εργαλεία ανάλυσης δικτύων και ομικών δεδομένων, για να αποτελέσει πολύτιμο εργαλείο σε βιοϊατρικές μελέτες και εφαρμογές.