Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών
Τα SNPs είναι οι πιο συχνές γενετικές τροποποιήσεις στον άνθρωπο και έχουν συνδεθεί με ασθένειες όπως ο καρκίνος, το Αlzheimer και οι νευροεκφυλιστικές ασθένειες. Συνεπώς η κατάλληλη πρόβλεψη της παθογένειας τους αποτελεί χρήσιμο εργαλείο για εργαστήρια, κλινικές και την εξατομικευμένη ιατρική. Ο στ...
Main Author: | |
---|---|
Other Authors: | |
Language: | Greek |
Published: |
2021
|
Subjects: | |
Online Access: | http://hdl.handle.net/10889/15022 |
id |
nemertes-10889-15022 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-150222022-09-05T20:21:05Z Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών Machine learning algorithms for pathogenic single nucleotide polymorphisms prediction Μαντάς, Ελευθέριος Mantas, Eleftherios Μονονουκλεοτιδικοί πολυμορφισμοί Μηχανική μάθηση Εξόρυξη δεδομένων Βιοπληροφορική Single nucleotide polymorphisms (SNPs) Machine learning Data mining Bioinformatics Τα SNPs είναι οι πιο συχνές γενετικές τροποποιήσεις στον άνθρωπο και έχουν συνδεθεί με ασθένειες όπως ο καρκίνος, το Αlzheimer και οι νευροεκφυλιστικές ασθένειες. Συνεπώς η κατάλληλη πρόβλεψη της παθογένειας τους αποτελεί χρήσιμο εργαλείο για εργαστήρια, κλινικές και την εξατομικευμένη ιατρική. Ο στόχος της παρούσας διπλωματικής εργασίας είναι η κατασκευή ενός ταξινομητή ικανού να προβλέψει τη παθογένεια των μονονοκλεοτιδικών πολυμορφισμών (SNPs). Οι υπάρχουσες μεθοδολογίες είτε δεν έχουν εξετάσει όλα τα δυνατά χαρακτηριστικά των πολυμορφισμών, είτε έχουν προβλήματα στον χειρισμό των ελλειπών τιμών, είτε βασίζονται σε μη προηγμένες υπολογιστικές τεχνικές. Για τον σκοπό αυτό στα πλαίσια της παρούσας διπλωματικής εργασίας επεκτάθηκε το σύνολο τον χαρακτηριστικών που χρησιμοποιούνται για αυτό το πρόβλημα ταξινόμησης με χαρακτηριστικά που σχετίζονται με τους συνήθεις πρωτεϊνικούς τομείς και την ευαισθησία τους προς τη παθογένεια, τη γλυκοζυλίωση, την ύπαρξη πρωτεϊνικών συμπλόκων, τις συχνότερες μετα-μεταφραστικές τροποποιήσεις, η επιφάνεια διαλύτη και το ενδεχόμενο η μετάλλαξη να συμβαίνει εντός πρωτεϊνικών αλληλεπιδράσεων. Ένα επικαιροποιημένο σύνολο δεδομένων δημιουργήθηκε με χρήση, συλλογής παθογενών και ουδέτερων δεδομένων, και στη συνέχεια υπολογίστηκαν όλα τα χαρακτηριστικά για κάθε μετάλλαξη του συνόλου δεδομένων αλλά και μερικών επιπλέον συνόλων δεδομένων που χρησιμοποιήθηκαν για έλεγχο. Στη συνέχεια τα δεδομένα προεπεξεργάστηκαν και αναλύθηκαν με ένα σύνολο από σύγχρονες μεθόδους μηχανικής μάθησης βασισμένες στα τυχαία δάση και τις μηχανές διαυσμάτων υποστήριξης. Τα αποτελέσματα είναι αρκετά ικανοποιητικά καθώς διατηρείται πολύ καλή ιδιότητα γενίκευσης και υψηλή ακρίβεια. Single Nucleotide Polymorphisms (SNPs) are the most frequent genetic variations in human and they have been linked to many diseases, such as cancer, Alzheimer and neurodegenerative diseases. Τhus, proper prediction of their pathogenity is a useful tool for laboratories, clinical trials and personalized medicine. The main goal of this thesis is the development of a classifier able to predict the pathogenity of SNPs. The already existing methods either do not exploit all possible features of polymorphisms, or they mishandle the missing values or depend on non advanced computational techniques. In this thesis, we expand the features set that is currently being used with features related to frequent protein domains and their sensitivity towards pathogenity, O-glycosylation, the formation of protein complexes, the most frequent post-translational modifications, the solvent accessibility surface and the fact wheather mutation’s position falls into protein-protein interactions or not. A fully updated data set was created by collecting both pathogenic and benign data and subsequently computing all features for each of these variants. Also, some testing sets were collected using the same process. Afterwards, data were preprocessed and analyzed using a set of modern machine learning techniques based on random forests and support vector machines. The results are very satisfying while generalization property and high accuracy are achieved. 2021-07-15T06:32:03Z 2021-07-15T06:32:03Z 2021-07-14 http://hdl.handle.net/10889/15022 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μονονουκλεοτιδικοί πολυμορφισμοί Μηχανική μάθηση Εξόρυξη δεδομένων Βιοπληροφορική Single nucleotide polymorphisms (SNPs) Machine learning Data mining Bioinformatics |
spellingShingle |
Μονονουκλεοτιδικοί πολυμορφισμοί Μηχανική μάθηση Εξόρυξη δεδομένων Βιοπληροφορική Single nucleotide polymorphisms (SNPs) Machine learning Data mining Bioinformatics Μαντάς, Ελευθέριος Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών |
description |
Τα SNPs είναι οι πιο συχνές γενετικές τροποποιήσεις στον άνθρωπο και έχουν συνδεθεί με ασθένειες όπως ο καρκίνος, το Αlzheimer και οι νευροεκφυλιστικές ασθένειες. Συνεπώς η κατάλληλη πρόβλεψη της παθογένειας τους αποτελεί χρήσιμο εργαλείο για εργαστήρια, κλινικές και την εξατομικευμένη ιατρική. Ο στόχος της παρούσας διπλωματικής εργασίας είναι η κατασκευή ενός ταξινομητή ικανού να προβλέψει τη παθογένεια των μονονοκλεοτιδικών πολυμορφισμών (SNPs). Οι υπάρχουσες μεθοδολογίες είτε δεν έχουν εξετάσει όλα τα δυνατά χαρακτηριστικά των πολυμορφισμών, είτε έχουν προβλήματα στον χειρισμό των ελλειπών τιμών, είτε βασίζονται σε μη προηγμένες υπολογιστικές τεχνικές. Για τον σκοπό αυτό στα πλαίσια της παρούσας διπλωματικής εργασίας επεκτάθηκε το σύνολο τον χαρακτηριστικών που χρησιμοποιούνται για αυτό το πρόβλημα ταξινόμησης με χαρακτηριστικά που σχετίζονται με τους συνήθεις πρωτεϊνικούς τομείς και την ευαισθησία τους προς τη παθογένεια, τη γλυκοζυλίωση, την ύπαρξη πρωτεϊνικών συμπλόκων, τις συχνότερες μετα-μεταφραστικές τροποποιήσεις, η επιφάνεια διαλύτη και το ενδεχόμενο η μετάλλαξη να συμβαίνει εντός πρωτεϊνικών αλληλεπιδράσεων. Ένα επικαιροποιημένο σύνολο δεδομένων δημιουργήθηκε με χρήση, συλλογής παθογενών και ουδέτερων δεδομένων, και στη συνέχεια υπολογίστηκαν όλα τα χαρακτηριστικά για κάθε μετάλλαξη του συνόλου δεδομένων αλλά και μερικών επιπλέον συνόλων δεδομένων που χρησιμοποιήθηκαν για έλεγχο. Στη συνέχεια τα δεδομένα προεπεξεργάστηκαν και αναλύθηκαν με ένα σύνολο από σύγχρονες μεθόδους μηχανικής μάθησης βασισμένες στα τυχαία δάση και τις μηχανές διαυσμάτων υποστήριξης. Τα αποτελέσματα είναι αρκετά ικανοποιητικά καθώς διατηρείται πολύ καλή ιδιότητα γενίκευσης και υψηλή ακρίβεια. |
author2 |
Mantas, Eleftherios |
author_facet |
Mantas, Eleftherios Μαντάς, Ελευθέριος |
author |
Μαντάς, Ελευθέριος |
author_sort |
Μαντάς, Ελευθέριος |
title |
Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών |
title_short |
Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών |
title_full |
Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών |
title_fullStr |
Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών |
title_full_unstemmed |
Χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών |
title_sort |
χρήση αλγορίθμων μηχανικής μάθησης για πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/15022 |
work_keys_str_mv |
AT mantaseleutherios chrēsēalgorithmōnmēchanikēsmathēsēsgiaproblepsēpathogonōnmononoukleotidikōnpolymorphismōn AT mantaseleutherios machinelearningalgorithmsforpathogenicsinglenucleotidepolymorphismsprediction |
_version_ |
1771297334380986368 |