Ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data)

Η επεξεργασία και η ανάλυση ιατρικών δεδομένων μεγάλου όγκου (ΜΟΙΔ) είναι ιδιαίτερα σημαντική σε αυτή την εποχή, όχι μόνο για την τροφοδότηση της ίδιας της Ιατρικής αυτής καθ’ αυτής με χρήσιμες πληροφορίες αλλά και για την ανάπτυξη ποικίλων αλγορίθμων κατηγοριοποίησης. Ο σκοπός των Αλγορίθμων Κατηγ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Φουρφουρής, Γεώργιος
Άλλοι συγγραφείς: Λυκοθανάσης, Σπυρίδων
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/11006
id nemertes-10889-11006
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Επιβλεπόμενη μάθηση
Κατηγοριοποίηση
Στατιστική ανάλυση
Supervised machine learning
Classification
Statistical analysis
005.74
spellingShingle Επιβλεπόμενη μάθηση
Κατηγοριοποίηση
Στατιστική ανάλυση
Supervised machine learning
Classification
Statistical analysis
005.74
Φουρφουρής, Γεώργιος
Ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data)
description Η επεξεργασία και η ανάλυση ιατρικών δεδομένων μεγάλου όγκου (ΜΟΙΔ) είναι ιδιαίτερα σημαντική σε αυτή την εποχή, όχι μόνο για την τροφοδότηση της ίδιας της Ιατρικής αυτής καθ’ αυτής με χρήσιμες πληροφορίες αλλά και για την ανάπτυξη ποικίλων αλγορίθμων κατηγοριοποίησης. Ο σκοπός των Αλγορίθμων Κατηγοριοποίησης της Μηχανικής Μάθησης είναι η παρατήρηση της συμπεριφοράς των δεδομένων σε σχέση με κάποια επιθυμητή έξοδο ή κάποιες επιθυμητές εξόδους. Η σημασία αυτών των αλγορίθμων είναι αξιοσημείωτη μιας και όχι μόνο μπορούν να εξάγουν αυτά τα χρήσιμα αποτελέσματα για την εκπαίδευση του νέου ιατρικού προσωπικού στο μέλλον ή τη δημιουργία εκπαιδευτικών προτύπων περιστατικών, αλλά επιπλέον μπορούν να το κάνουν και με μικρό ποσοστό λάθους, που στην πλειονότητα των περιπτώσεων είναι ελέγξιμο. Με άλλα λόγια, οι αλγόριθμοι αυτοί μπορούν να εκτιμήσουν τα ιατρικά δεδομένα με συγκεκριμένους παράγοντες επεξεργασίας, που έχουν εξαχθεί ή “εκμαιευτεί” από το έμπειρο ιατρικό προσωπικό, σε αντίθεση με τον άνθρωπο που δεν μπορεί πάντοτε να τα επεξεργάζεται με τον ίδιο ακριβώς τρόπο. Σε αυτή τη Διπλωματική Εργασία αρχικά θα αναλυθεί ένα μεγάλο πλήθος από ιατρικά δεδομένα που αφορούν στην πάθηση της καρδιακής αρρυθμίας και θα γίνει η προσπάθεια για κατηγοριοποίηση πάνω σε αυτά τα δεδομένα. Οι εν λόγω κατηγορίες είναι ήδη καθορισμένες από την Ιατρική. Πιο συγκεκριμένα, γίνεται λόγος για 16 κατηγορίες καρδιακής αρρυθμίας εκ των οποίων μία αναφέρεται στις φυσιολογικές μετρήσεις και άλλη μία σε όσες περιπτώσεις δεν υπάγονται στις υπόλοιπες 15 κατηγορίες. Με αυτόν τον τρόπο, η εργασία θα έχει σαν βασικό αντικείμενο μελέτης, ορισμένους αλγόριθμους Μηχανικής Μάθησης παρμένους από τη βιβλιογραφία, όπως ο Vote on Feature Intervals, ο K-Nearest Neighbors, είτε ο K-Nearest Neighbors on Feature Projections. Παρ’ όλ’ αυτά, η εργασία αυτή διαφοροποιείται σε σχέση με την υπάρχουσα βιβλιογραφία μέσα από την μελέτη όλων εκείνων των περιπτώσεων που αφενός μεν είναι απαραίτητοι για τη σωστή λειτουργία και εκτέλεση των αλγορίθμων κατηγοριοποίησης αφετέρου δε βελτιώνουν τα εξαγόμενα αποτελέσματα όπως είναι για παράδειγμα η ακρίβεια. Επιπρόσθετα, η έρευνα αυτή επεκτείνεται και μελετάει την ύπαρξη πλεοναζόντων ιατρικών μετρήσεων, τα οποία όποια ενδεχομένως επηρεάζουν την διαδικασία της κατηγοριοποίησης και κατά συνέπεια της ιατρικής διάγνωσης. Επομένως, μέσα από αυτή την μελέτη γίνεται προσπάθεια να επιτευχθεί η καλύτερη και αποδοτικότερη αξιοποίηση των εν λόγω ιατρικών δεδομένων και επιπλέον των διαφορετικών ή αντίστοιχου τύπου στοιχείων, μελλοντικά.
author2 Λυκοθανάσης, Σπυρίδων
author_facet Λυκοθανάσης, Σπυρίδων
Φουρφουρής, Γεώργιος
format Thesis
author Φουρφουρής, Γεώργιος
author_sort Φουρφουρής, Γεώργιος
title Ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data)
title_short Ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data)
title_full Ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data)
title_fullStr Ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data)
title_full_unstemmed Ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data)
title_sort ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data)
publishDate 2018
url http://hdl.handle.net/10889/11006
work_keys_str_mv AT phourphourēsgeōrgios anaptyxēkaibeltistopoiēsēmethodōnkatēgoriopoiēsēsseiatrikadedomenamegalouonkoubigdata
_version_ 1771297134569586688
spelling nemertes-10889-110062022-09-05T04:59:29Z Ανάπτυξη και βελτιστοποίηση μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα μεγάλου όγκου (big data) Φουρφουρής, Γεώργιος Λυκοθανάσης, Σπυρίδων Λυκοθανάσης, Σπυρίδων Χατζηλυγερούδης, Ιωάννης Μακρής, Χρληστος Fourfouris, George Επιβλεπόμενη μάθηση Κατηγοριοποίηση Στατιστική ανάλυση Supervised machine learning Classification Statistical analysis 005.74 Η επεξεργασία και η ανάλυση ιατρικών δεδομένων μεγάλου όγκου (ΜΟΙΔ) είναι ιδιαίτερα σημαντική σε αυτή την εποχή, όχι μόνο για την τροφοδότηση της ίδιας της Ιατρικής αυτής καθ’ αυτής με χρήσιμες πληροφορίες αλλά και για την ανάπτυξη ποικίλων αλγορίθμων κατηγοριοποίησης. Ο σκοπός των Αλγορίθμων Κατηγοριοποίησης της Μηχανικής Μάθησης είναι η παρατήρηση της συμπεριφοράς των δεδομένων σε σχέση με κάποια επιθυμητή έξοδο ή κάποιες επιθυμητές εξόδους. Η σημασία αυτών των αλγορίθμων είναι αξιοσημείωτη μιας και όχι μόνο μπορούν να εξάγουν αυτά τα χρήσιμα αποτελέσματα για την εκπαίδευση του νέου ιατρικού προσωπικού στο μέλλον ή τη δημιουργία εκπαιδευτικών προτύπων περιστατικών, αλλά επιπλέον μπορούν να το κάνουν και με μικρό ποσοστό λάθους, που στην πλειονότητα των περιπτώσεων είναι ελέγξιμο. Με άλλα λόγια, οι αλγόριθμοι αυτοί μπορούν να εκτιμήσουν τα ιατρικά δεδομένα με συγκεκριμένους παράγοντες επεξεργασίας, που έχουν εξαχθεί ή “εκμαιευτεί” από το έμπειρο ιατρικό προσωπικό, σε αντίθεση με τον άνθρωπο που δεν μπορεί πάντοτε να τα επεξεργάζεται με τον ίδιο ακριβώς τρόπο. Σε αυτή τη Διπλωματική Εργασία αρχικά θα αναλυθεί ένα μεγάλο πλήθος από ιατρικά δεδομένα που αφορούν στην πάθηση της καρδιακής αρρυθμίας και θα γίνει η προσπάθεια για κατηγοριοποίηση πάνω σε αυτά τα δεδομένα. Οι εν λόγω κατηγορίες είναι ήδη καθορισμένες από την Ιατρική. Πιο συγκεκριμένα, γίνεται λόγος για 16 κατηγορίες καρδιακής αρρυθμίας εκ των οποίων μία αναφέρεται στις φυσιολογικές μετρήσεις και άλλη μία σε όσες περιπτώσεις δεν υπάγονται στις υπόλοιπες 15 κατηγορίες. Με αυτόν τον τρόπο, η εργασία θα έχει σαν βασικό αντικείμενο μελέτης, ορισμένους αλγόριθμους Μηχανικής Μάθησης παρμένους από τη βιβλιογραφία, όπως ο Vote on Feature Intervals, ο K-Nearest Neighbors, είτε ο K-Nearest Neighbors on Feature Projections. Παρ’ όλ’ αυτά, η εργασία αυτή διαφοροποιείται σε σχέση με την υπάρχουσα βιβλιογραφία μέσα από την μελέτη όλων εκείνων των περιπτώσεων που αφενός μεν είναι απαραίτητοι για τη σωστή λειτουργία και εκτέλεση των αλγορίθμων κατηγοριοποίησης αφετέρου δε βελτιώνουν τα εξαγόμενα αποτελέσματα όπως είναι για παράδειγμα η ακρίβεια. Επιπρόσθετα, η έρευνα αυτή επεκτείνεται και μελετάει την ύπαρξη πλεοναζόντων ιατρικών μετρήσεων, τα οποία όποια ενδεχομένως επηρεάζουν την διαδικασία της κατηγοριοποίησης και κατά συνέπεια της ιατρικής διάγνωσης. Επομένως, μέσα από αυτή την μελέτη γίνεται προσπάθεια να επιτευχθεί η καλύτερη και αποδοτικότερη αξιοποίηση των εν λόγω ιατρικών δεδομένων και επιπλέον των διαφορετικών ή αντίστοιχου τύπου στοιχείων, μελλοντικά. Processing and analyzing Medical Big Data is particularly important at this time, not only to provide useful information in Medicine itself, but also to develop a variety of categorization algorithms. The purpose of Machine Learning Classification Algorithms is to observe the behavior of the data in relation to one or more desired outputs. The importance of these algorithms is remarkable, since they are not only able either to extract these useful outcomes for new medical staff training in the future or create educational incidents, but they are also able to proceed with a small error rate, which for the majority of cases is verifiable. In other words, these algorithms are able to assess medical data with specific processing factors, which have been exported or "ejected" by experienced medical staff, in contradiction with a person, who is not able always to process these data in the same way, exactly. In this Thesis, a big medical data set will be analyzed. The data set is related to the cardiac arrhythmia disease. Furthermore an attempt will be placed to categorize these data. The categories are already defined by Medicine. More specifically, there are 16 categories of cardiac arrhythmia, one of which refers to normal measurements and one in those cases that do not fall under the other 15 categories. In this way, the Thesis will mainly study, some essential Machine Learning bibliography algorithms such as Vote on Feature Intervals, K-Nearest Neighbors, or K-Nearest Neighbors on Feature Projections. Nevertheless, this work is differentiated in relation to existing bibliography and focuses on research of all those scenarios that are both necessary for the proper functioning and execution of classification algorithms and improve the exported results such as accuracy. Additionally, this research is expanded and studies the existence of extra medical measurements, which may affect the classification process and, furthermore, the medical diagnosis. Therefore, this study attempts to achieve the best and more efficient use of both medical data and different or similar types of data in the future, additionally. 2018-02-13T14:01:39Z 2018-02-13T14:01:39Z 2017-10-24 Thesis http://hdl.handle.net/10889/11006 gr 0 application/pdf