Πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης
Τα εγκεφαλικά επεισόδια αποτελούν μια από τις σημαντικότερες αιτίες θανάτου τόσο στις Ηνωμένες πολιτείες όσο και στην Ευρώπη και τις αναπτυσσόμενες χώρες γενικά. Οι δύο κύριοι τύποι εγκεφαλικών που συναντώνται είναι τα ισχαιμικά και τα αιμορραγικά κάθε ένας από τους οποίους εμφανίζει ιδιαίτερα και ξ...
Main Author: | |
---|---|
Other Authors: | |
Language: | Greek |
Published: |
2022
|
Subjects: | |
Online Access: | http://hdl.handle.net/10889/16101 |
id |
nemertes-10889-16101 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική μάθηση Μοντέλα πρόβλεψης Εξόρυξη γνώσης Εγκεφαλικά επεισόδια Machine learning Prediction models Data mining Stroke events |
spellingShingle |
Μηχανική μάθηση Μοντέλα πρόβλεψης Εξόρυξη γνώσης Εγκεφαλικά επεισόδια Machine learning Prediction models Data mining Stroke events Ξυλιά, Κωνσταντίνα Πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης |
description |
Τα εγκεφαλικά επεισόδια αποτελούν μια από τις σημαντικότερες αιτίες θανάτου τόσο στις Ηνωμένες πολιτείες όσο και στην Ευρώπη και τις αναπτυσσόμενες χώρες γενικά. Οι δύο κύριοι τύποι εγκεφαλικών που συναντώνται είναι τα ισχαιμικά και τα αιμορραγικά κάθε ένας από τους οποίους εμφανίζει ιδιαίτερα και ξεχωριστά χαρακτηριστικά ενώ παράλληλα οι προδιαθεσικοί παράγοντες που πρωτοστατούν σε κάθε είδος διαφέρουν επίσης. Παρά τις διαφορές που εμφανίζουν, το κοινό τους χαρακτηριστικό είναι πως επηρεάζουν τις ζωές των ασθενών πολλές φορές ανεπανόρθωτα κάτι που υπογραμμίζει τη σημασία της μελέτης συσχετιζόμενων παραγόντων και τελικά έγκαιρης πρόβλεψης, συναρτήσει αυτών, ενός τέτοιου επεισοδίου. Κινούμενοι σε αυτό το μήκος κύματος, στην παρούσα εργασία, διεξάγεται μελέτη σε 81 ασθενείς που πάσχουν από καρωτιδική νόσο και είναι είτε συμπτωματικοί είτε ασυμπτωματικοί ενώ παράλληλα φέρουν επιπρόσθετα χαρακτηριστικά, κλινικά και μη. Σε πρώτο στάδιο, πραγματοποιείται στατιστική ανάλυση για τη μελέτη της στατιστικής σημαντικότητας τους δείγματος ενώ στη συνέχεια, γίνεται προσπάθεια εξόρυξης γνώσης από τα δεδομένα αυτά ώστε καταγραφούν οι αντίστοιχες παρατηρήσεις σχετικά με τον τρόπο συσχέτισης των προδιαθεσικών παραγόντων που έχουμε στη διάθεσή μας με την πιθανότητα ο αντίστοιχος ασθενής θα εμφανίσει εγκεφαλικό ή όχι. Σχετικά με τη στατιστική σημαντικότητα των δεδομένων πραγματοποιούνται τα αντίστοιχα τεστ Chi – squared και Fisher ενώ όσον αφορά τη μελέτη των συσχετίσεων γίνεται χρήση των αντίστοιχων correlation matrices και ιστογραμμάτων ενώ επιπλέον εφαρμόζεται και η μέθοδος PCA για να δειχθεί πως η μεγαλύτερη συσχέτιση παρουσιάζουν τα χαρακτηριστικά ηλικία, φύλο, ύπαρξη στεφανιαίας νόσου, σακχαρώδους διαβήτη, αορτικής υπέρτασης, το ποσοστό της καρωτιδικής στένωσης, το κάπνισμα και η θέση της καρωτιδικής αρτηρίας. Στη συνέχεια, ύστερα από κατάλληλα προεπεξεργασία των δεδομένων διεξάγεται το κομμάτι της ταξινόμησης ώστε βάσει των συσχετίσεων που αναλύονται προηγουμένως να γίνει η πρόβλεψη ενός εγκεφαλικού επεισοδίου. Οι ταξινομητές που επιλέχθηκαν για το σκοπό αυτό είναι οι ακόλουθοι: logistic regression, C5.0, Rpart Trees, Naive Bayes, SVM με διάφορους kernels όπως linear, radial, polynomial, sigmoid ενώ τέλος κατασκευάζεται ένα νευρωνικό δίκτυο. Προς βελτίωση των αποτελεσμάτων εφαρμόστηκαν και μέθοδοι Boosting/Bagging και συγκεκριμένα, Random Forest, Adaboost ενώ παράλληλα έγιναν και συνδυασμοί των ταξινομητών C5.0, Naive Bayes και SVM (με όλους τους προαναφερθέντες kernels) με τον Adam2. Προχωρώντας στην αξιολόγηση των κατάλληλων μετρικών αξιολόγησης ως καλύτερος ταξινομητής χαρακτηρίζεται ο Adam2 – SVM Polynomial με ακρίβεια 85%, sensitivity 90%, specificity 80% και p – value = 0.001. |
author2 |
Xylia, Konstantina |
author_facet |
Xylia, Konstantina Ξυλιά, Κωνσταντίνα |
author |
Ξυλιά, Κωνσταντίνα |
author_sort |
Ξυλιά, Κωνσταντίνα |
title |
Πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης |
title_short |
Πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης |
title_full |
Πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης |
title_fullStr |
Πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης |
title_full_unstemmed |
Πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης |
title_sort |
πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/16101 |
work_keys_str_mv |
AT xyliakōnstantina problepsēenkephalikōnepeisodiōnseastheneismekarōtidikēnosoaxiologōntassynkekrimenousprodiathesikousparagontesmetēchrēsēeuphyōnalgorithmōnexoryxēsgnōsēs AT xyliakōnstantina preditionofstrokeeventsinpatientswithcarotidarterydiseaseevaluatingspecificriskfactorsusingdataminingtechnics |
_version_ |
1771297242403045376 |
spelling |
nemertes-10889-161012022-09-05T14:03:52Z Πρόβλεψη εγκεφαλικών επεισοδίων σε ασθενείς με καρωτιδική νόσο αξιολογώντας συγκεκριμένους προδιαθεσικούς παράγοντες με τη χρήση ευφυών αλγορίθμων εξόρυξης γνώσης Predition of stroke events in patients with carotid artery disease evaluating specific risk factors using data mining technics Ξυλιά, Κωνσταντίνα Xylia, Konstantina Μηχανική μάθηση Μοντέλα πρόβλεψης Εξόρυξη γνώσης Εγκεφαλικά επεισόδια Machine learning Prediction models Data mining Stroke events Τα εγκεφαλικά επεισόδια αποτελούν μια από τις σημαντικότερες αιτίες θανάτου τόσο στις Ηνωμένες πολιτείες όσο και στην Ευρώπη και τις αναπτυσσόμενες χώρες γενικά. Οι δύο κύριοι τύποι εγκεφαλικών που συναντώνται είναι τα ισχαιμικά και τα αιμορραγικά κάθε ένας από τους οποίους εμφανίζει ιδιαίτερα και ξεχωριστά χαρακτηριστικά ενώ παράλληλα οι προδιαθεσικοί παράγοντες που πρωτοστατούν σε κάθε είδος διαφέρουν επίσης. Παρά τις διαφορές που εμφανίζουν, το κοινό τους χαρακτηριστικό είναι πως επηρεάζουν τις ζωές των ασθενών πολλές φορές ανεπανόρθωτα κάτι που υπογραμμίζει τη σημασία της μελέτης συσχετιζόμενων παραγόντων και τελικά έγκαιρης πρόβλεψης, συναρτήσει αυτών, ενός τέτοιου επεισοδίου. Κινούμενοι σε αυτό το μήκος κύματος, στην παρούσα εργασία, διεξάγεται μελέτη σε 81 ασθενείς που πάσχουν από καρωτιδική νόσο και είναι είτε συμπτωματικοί είτε ασυμπτωματικοί ενώ παράλληλα φέρουν επιπρόσθετα χαρακτηριστικά, κλινικά και μη. Σε πρώτο στάδιο, πραγματοποιείται στατιστική ανάλυση για τη μελέτη της στατιστικής σημαντικότητας τους δείγματος ενώ στη συνέχεια, γίνεται προσπάθεια εξόρυξης γνώσης από τα δεδομένα αυτά ώστε καταγραφούν οι αντίστοιχες παρατηρήσεις σχετικά με τον τρόπο συσχέτισης των προδιαθεσικών παραγόντων που έχουμε στη διάθεσή μας με την πιθανότητα ο αντίστοιχος ασθενής θα εμφανίσει εγκεφαλικό ή όχι. Σχετικά με τη στατιστική σημαντικότητα των δεδομένων πραγματοποιούνται τα αντίστοιχα τεστ Chi – squared και Fisher ενώ όσον αφορά τη μελέτη των συσχετίσεων γίνεται χρήση των αντίστοιχων correlation matrices και ιστογραμμάτων ενώ επιπλέον εφαρμόζεται και η μέθοδος PCA για να δειχθεί πως η μεγαλύτερη συσχέτιση παρουσιάζουν τα χαρακτηριστικά ηλικία, φύλο, ύπαρξη στεφανιαίας νόσου, σακχαρώδους διαβήτη, αορτικής υπέρτασης, το ποσοστό της καρωτιδικής στένωσης, το κάπνισμα και η θέση της καρωτιδικής αρτηρίας. Στη συνέχεια, ύστερα από κατάλληλα προεπεξεργασία των δεδομένων διεξάγεται το κομμάτι της ταξινόμησης ώστε βάσει των συσχετίσεων που αναλύονται προηγουμένως να γίνει η πρόβλεψη ενός εγκεφαλικού επεισοδίου. Οι ταξινομητές που επιλέχθηκαν για το σκοπό αυτό είναι οι ακόλουθοι: logistic regression, C5.0, Rpart Trees, Naive Bayes, SVM με διάφορους kernels όπως linear, radial, polynomial, sigmoid ενώ τέλος κατασκευάζεται ένα νευρωνικό δίκτυο. Προς βελτίωση των αποτελεσμάτων εφαρμόστηκαν και μέθοδοι Boosting/Bagging και συγκεκριμένα, Random Forest, Adaboost ενώ παράλληλα έγιναν και συνδυασμοί των ταξινομητών C5.0, Naive Bayes και SVM (με όλους τους προαναφερθέντες kernels) με τον Adam2. Προχωρώντας στην αξιολόγηση των κατάλληλων μετρικών αξιολόγησης ως καλύτερος ταξινομητής χαρακτηρίζεται ο Adam2 – SVM Polynomial με ακρίβεια 85%, sensitivity 90%, specificity 80% και p – value = 0.001. Nowadays it’s known that stroke events are one of the most common causes of death not only in United States but also in Europe and other developing countries. There are two main kinds of strokes, the ischemic strokes and hemorrhagic events, each of them characterized from different features while at the same time the risk factors concerning each kind are also differentiated. Despite the differences are found, ischemic and hemorrhagic events have some intersect points like the effects on patients’ lives which sometimes are severe or even fatal. This fact emphasizes the importance of studies conduction concerning the correlations between the corresponding risk factors and stroke events with an ultimate goal a safe and precise prediction of an event before it finally happens. In this way, the purpose of this project concerns the prediction of stroke events in patients with carotid artery disease evaluating specific risk factors using data mining technics. Our data collected from 81 patients with carotid artery disease. In the beginning, a statistical analysis is carried out in order to learn our data, in detail, and recognize the corresponding challenges. So, we are able to indicate the correlations between the features and the response variable in our dataset. In addition, the statistical importance of the data is checked. The methods we used were correlation matrices, histograms, statistical tests like chi – squared and fisher and finally PCA was used too. The results of this process showed that the features with the most significant importance were the Age, Sex, the presence of coronary artery disease, diabetes mellitus, aortic hypertension, smoking and the location of carotid artery. Subsequently, classification part follows. After preprocessing of the data, the following classifiers evaluated the correlations between predictors and response variable in order to make predictions as good as possible. The classifiers are: logistic regression, C5.0, Rpart Trees, Naive Bayes, SVM with different kernels in each trial like linear, radial, polynomial, sigmoid kernel and eventually a neural network is constructed. Afterwards, boosting and bagging methods like Random Forest and Adaboost are tried as to optimize our results while at the final part some combinations of algorithms are used. These combinations consisted of the classifier Adam2 and C5.0, Naive Bayes and the SVM classifier (with all the kernels referred above) for each trial. The best of all was the classifier Adam2 – SVM Polynomial with accuracy 85%, sensitivity 90%, specificity 80% and p – value = 0.001. 2022-03-17T11:08:46Z 2022-03-17T11:08:46Z 2020-07-31 http://hdl.handle.net/10889/16101 gr application/pdf |