Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών

Τα SNPs είναι οι πιο συχνές γενετικές τροποποιήσεις στον άνθρωπο και έχουν συνδεθεί με ασθένειες όπως ο καρκίνος, το Αlzheimer και οι νευροεκφυλιστικές ασθένειες. Συνεπώς η κατάλληλη πρόβλεψη της παθογένειας τους αποτελεί χρήσιμο εργαλείο για εργαστήρια, κλινικές και την εξατομικευμένη ιατρική. Ο στ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μαντάς, Ελευθέριος
Άλλοι συγγραφείς: Mantas, Eleftherios
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15022
Περιγραφή
Περίληψη:Τα SNPs είναι οι πιο συχνές γενετικές τροποποιήσεις στον άνθρωπο και έχουν συνδεθεί με ασθένειες όπως ο καρκίνος, το Αlzheimer και οι νευροεκφυλιστικές ασθένειες. Συνεπώς η κατάλληλη πρόβλεψη της παθογένειας τους αποτελεί χρήσιμο εργαλείο για εργαστήρια, κλινικές και την εξατομικευμένη ιατρική. Ο στόχος της παρούσας διπλωματικής εργασίας είναι η κατασκευή ενός ταξινομητή ικανού να προβλέψει τη παθογένεια των μονονοκλεοτιδικών πολυμορφισμών (SNPs). Οι υπάρχουσες μεθοδολογίες είτε δεν έχουν εξετάσει όλα τα δυνατά χαρακτηριστικά των πολυμορφισμών, είτε έχουν προβλήματα στον χειρισμό των ελλειπών τιμών, είτε βασίζονται σε μη προηγμένες υπολογιστικές τεχνικές. Για τον σκοπό αυτό στα πλαίσια της παρούσας διπλωματικής εργασίας επεκτάθηκε το σύνολο τον χαρακτηριστικών που χρησιμοποιούνται για αυτό το πρόβλημα ταξινόμησης με χαρακτηριστικά που σχετίζονται με τους συνήθεις πρωτεϊνικούς τομείς και την ευαισθησία τους προς τη παθογένεια, τη γλυκοζυλίωση, την ύπαρξη πρωτεϊνικών συμπλόκων, τις συχνότερες μετα-μεταφραστικές τροποποιήσεις, η επιφάνεια διαλύτη και το ενδεχόμενο η μετάλλαξη να συμβαίνει εντός πρωτεϊνικών αλληλεπιδράσεων. Ένα επικαιροποιημένο σύνολο δεδομένων δημιουργήθηκε με χρήση, συλλογής παθογενών και ουδέτερων δεδομένων, και στη συνέχεια υπολογίστηκαν όλα τα χαρακτηριστικά για κάθε μετάλλαξη του συνόλου δεδομένων αλλά και μερικών επιπλέον συνόλων δεδομένων που χρησιμοποιήθηκαν για έλεγχο. Στη συνέχεια τα δεδομένα προεπεξεργάστηκαν και αναλύθηκαν με ένα σύνολο από σύγχρονες μεθόδους μηχανικής μάθησης βασισμένες στα τυχαία δάση και τις μηχανές διαυσμάτων υποστήριξης. Τα αποτελέσματα είναι αρκετά ικανοποιητικά καθώς διατηρείται πολύ καλή ιδιότητα γενίκευσης και υψηλή ακρίβεια.