Περίληψη: | Καθώς η επίδραση της τεχνολογίας αυξάνεται σε όλους τους κλάδους, αυξάνονται ταυτόχρονα και οι απαιτήσεις. Μέσω του τομέα της βιοπληροφορικής έχει δοθεί η δυνατότητα στους επιστήμονες να εξερευνήσουν, να πειραματιστούν και να ανακαλύψουν σε μεγαλύτερο και βαθύτερο εύρος τις λειτουργίες των ζωντανών οργανισμών και την αντιμετώπιση ασθενειών. Πάνω στο μοριακό επίπεδο, ο τομέας έχει συμβάλλει στη μαζική ανάλυση συνόλων κυττάρων αλλά και των εσωτερικών τους διεργασιών. Για την ανάλυση του γενετικού κώδικα και συγκεκριμένα του μεταφορικού RNA που μεταφέρει τη πληροφορία για τη δημιουργία κάποιας πρωτεΐνης, δημιουργήθηκαν οι αλληλουχίες RNA μεμονωμένων κυττάρων οι οποίες παρουσιάζουν την ακριβή έκφραση των γονιδίων ώστε να παραχθεί συγκεκριμένη ποσότητα πρωτεϊνών που απαιτούνται για την εκτέλεση κάποιας κυτταρικής διαδικασίας.
Ένα σημαντικό εργαλείο των τελευταίων ετών που έχει συμβάλλει στην ανάλυση των γονιδίων από δεδομένα scRNA είναι τα γονιδιακά ρυθμιστικά δίκτυα (GRN), δηλαδή δίκτυα γονιδίων που παρουσιάζουν τις επιδράσεις που ασκούνται στα γονίδια, μεταβάλλοντας τα επίπεδα έκφρασής τους. Τα γονίδια παίζουν πολύ σημαντικό ρόλο για τις διαδικασίες που λαμβάνουν μέρος στο εσωτερικό του κυττάρου με τις οποίες να μπορούν να επηρεάσουν τόσο το ίδιο αλλά και ολόκληρο τον οργανισμό σε συγκεκριμένες περιπτώσεις. Καθώς όμως σε κάθε διαδικασία δεν συμμετέχουν όλα τα γονίδια, είναι σημαντικό να βρεθούν ποια είναι ενεργοποιημένα αλλά και ποιοι παράγοντες ελέγχουν την ενεργοποίησή τους. Ο σκοπός ενός GRN είναι η απεικόνιση των ρυθμιστικών σχέσεων των γονιδίων ώστε να βρεθούν οι ρυθμιστές τους καθώς και ποια γονίδια ενεργοποιούνται σε κάθε διαδικασία.
Τα τελευταία χρόνια, έχει δημιουργηθεί πληθώρα στοχαστικών αλγορίθμων που κατασκευάζουν τέτοιου είδους δίκτυα με σκοπό την πρόβλεψη των ρυθμιστικών σχέσεων πάνω σε ένα σύνολο δεδομένων γονιδιακής έκφρασης. Η παρούσα διπλωματική εστιάζει στην ανάλυση οκτώ αλγορίθμων κατασκευής GRN από δεδομένα scRNA αλλά και στην αξιολόγηση αυτών ώστε να φανεί η ικανότητα που έχουν να προβλέπουν σωστά τα αποτελέσματα. Οι αλγόριθμοι που αναλύονται είναι οι εξής: GENIE3, GRISLI, GRNBOOST2, GRNVBEM, LEAP, PPCOR, SCODE, SINGE. Ορισμένοι εξ αυτών απαιτούν σαν είσοδο ένα σύνολο χρόνων που να δείχνει το στάδιο που βρίσκεται το κάθε κύτταρο. Καθώς στα δεδομένα scRNA είναι δύσκολο να βρεθούν αυτοί οι χρόνοι, έχουν αναπτυχθεί εργαλεία τα οποία κατασκευάζουν ψευδοχρόνους, δηλαδή πειραματικές τιμές που παρουσιάζουν το στάδιο του κυττάρου με βάση τον υπόλοιπο πληθυσμό κυττάρων του δείγματος. Για τους οκτώ παραπάνω αλγορίθμους δόθηκαν ως είσοδοι δύο μητρώα διαφορετικού μεγέθους με σκοπό την καλύτερη σύγκρισή τους. Οι ψευδοχρόνοι βρέθηκαν μέσω ενός εργαλείου, του TSCAN.
Προκειμένου να αξιολογηθούν τα αποτελέσματα των αλγορίθμων έπρεπε να βρεθούν δύο λίστες αναφοράς (gold standard) που θα παρείχαν τις σωστές ρυθμιστικές σχέσεις των δεδομένων εισόδου. Η σύγκριση μεταξύ των αποτελεσμάτων των αλγορίθμων με τα δεδομένα αναφοράς έγινε κάνοντας χρήση του κώδικα αξιολόγησης από το Dream 5, με την αξιολόγηση να γίνεται μέσω των μετρικών AUROC και AUPR. Μέσω της συγκεκριμένης εργασίας θα παρουσιαστούν και θα αναλυθούν τα αποτελέσματα των παραπάνω αλγορίθμων φανερώνοντας τη σημαντικότητα ενός τέτοιου αλγορίθμου αλλά και τις δυσκολίες που υπάρχουν ώστε να βελτιστοποιηθεί το τελικό αποτέλεσμα.
|