Development of a biomedical data classification tool with the use of boosting techniques

High throughput methods have become the standard in current times given that the technology is available and more accessible than ever. The massive amounts of data produced are of high value for scientists and along with clinical and meta-data can lead to breakthroughs and improvements in personaliz...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Παναγιωτόπουλος, Κωνσταντίνος
Άλλοι συγγραφείς: Panagiotopoulos, Konstantinos
Γλώσσα:English
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://nemertes.library.upatras.gr/handle/10889/23331
id nemertes-10889-23331
record_format dspace
institution UPatras
collection Nemertes
language English
topic Biomarkers discovery
Machine learning
Evolutionary algorithms
Boosting
XGBoost
Ανακάλυψη βιοδεικτών
Μηχανική μάθηση
Εξελικτικός αλγόριθμος
spellingShingle Biomarkers discovery
Machine learning
Evolutionary algorithms
Boosting
XGBoost
Ανακάλυψη βιοδεικτών
Μηχανική μάθηση
Εξελικτικός αλγόριθμος
Παναγιωτόπουλος, Κωνσταντίνος
Development of a biomedical data classification tool with the use of boosting techniques
description High throughput methods have become the standard in current times given that the technology is available and more accessible than ever. The massive amounts of data produced are of high value for scientists and along with clinical and meta-data can lead to breakthroughs and improvements in personalized medicine and prognosis. Bioinformatics bridges the gap between traditional biology and computer science by developing computational tools that extract useful knowledge from the biological data. Very often though, real-world problems have more than one objectives, with some of them being conflicting to each other. This rises the need for algorithms that can handle multi-objectives and high dimensional problems reliably. The goal of this thesis is to harness the power of multi-objective optimization techniques in order to optimize the feature subset and parameters of boosting classifiers when applied on two-dimensional quantitative datasets, in an attempt to increase predictive accuracy and decrease the size of the revealed biosignatures. XGBoost was used as the boosting classification algorithm, because of the increasing popularity it gained in recent years and its performance advantages as proved in machine learning competitions. This type of algorithms has a great number of hyper-parameters, so an evolutionary algorithm is used to handle both parameter optimization and biomarkers detection in a vast search space. For evaluating the solutions, a niched Pareto rank scheme was used to avoid premature convergence to a local minimum and promote the exploration of the search space. When the termination criteria are reached, the final population is evaluated and the solutions are ranked based on their performance in multiple objectives. Finally, the problems we oppose are multi-objective ones and thus, the algorithm returns multiple Pareto-optimal trained models. For the purpose of the present thesis, two datasets were used in order to test the performance of this pipeline. The first dataset used is the "Ornish” dataset, which refers to Gene Expression profiling by microarrays conducted to people that undergo an intensive lifestyle interventions to study the effects on weight loss and lowering of CardioVascular Disease (CVD) risk. The second one is from the “OPERA” study and consists mostly of nominal features in the form of survey questions to explore the effects of replacing opioid drugs with topical painkillers in four different outcomes of the study. The machine learning models produced with the presented method, significantly improved the discrimination power of state-of-the-art machine learning methods, which were also deployed for comparative reasons. The results of this work are very encouraging and the produced method has the potential to increase predictive accuracy and help with the biomarkers discovery when applied in personalized medicine and biomedical applications in the future.
author2 Panagiotopoulos, Konstantinos
author_facet Panagiotopoulos, Konstantinos
Παναγιωτόπουλος, Κωνσταντίνος
author Παναγιωτόπουλος, Κωνσταντίνος
author_sort Παναγιωτόπουλος, Κωνσταντίνος
title Development of a biomedical data classification tool with the use of boosting techniques
title_short Development of a biomedical data classification tool with the use of boosting techniques
title_full Development of a biomedical data classification tool with the use of boosting techniques
title_fullStr Development of a biomedical data classification tool with the use of boosting techniques
title_full_unstemmed Development of a biomedical data classification tool with the use of boosting techniques
title_sort development of a biomedical data classification tool with the use of boosting techniques
publishDate 2022
url https://nemertes.library.upatras.gr/handle/10889/23331
work_keys_str_mv AT panagiōtopouloskōnstantinos developmentofabiomedicaldataclassificationtoolwiththeuseofboostingtechniques
AT panagiōtopouloskōnstantinos anaptyxēergaleioutaxinomēsēsclassificationgiaepharmogesbioiatrikōndedomenōnmetēchrēsētechnologiōnboosting
_version_ 1771297155680567296
spelling nemertes-10889-233312022-10-06T17:53:20Z Development of a biomedical data classification tool with the use of boosting techniques Ανάπτυξη εργαλείου ταξινόμησης (classification) για εφαρμογές βιοιατρικών δεδομένων με τη χρήση τεχνολογιών boosting Παναγιωτόπουλος, Κωνσταντίνος Panagiotopoulos, Konstantinos Biomarkers discovery Machine learning Evolutionary algorithms Boosting XGBoost Ανακάλυψη βιοδεικτών Μηχανική μάθηση Εξελικτικός αλγόριθμος High throughput methods have become the standard in current times given that the technology is available and more accessible than ever. The massive amounts of data produced are of high value for scientists and along with clinical and meta-data can lead to breakthroughs and improvements in personalized medicine and prognosis. Bioinformatics bridges the gap between traditional biology and computer science by developing computational tools that extract useful knowledge from the biological data. Very often though, real-world problems have more than one objectives, with some of them being conflicting to each other. This rises the need for algorithms that can handle multi-objectives and high dimensional problems reliably. The goal of this thesis is to harness the power of multi-objective optimization techniques in order to optimize the feature subset and parameters of boosting classifiers when applied on two-dimensional quantitative datasets, in an attempt to increase predictive accuracy and decrease the size of the revealed biosignatures. XGBoost was used as the boosting classification algorithm, because of the increasing popularity it gained in recent years and its performance advantages as proved in machine learning competitions. This type of algorithms has a great number of hyper-parameters, so an evolutionary algorithm is used to handle both parameter optimization and biomarkers detection in a vast search space. For evaluating the solutions, a niched Pareto rank scheme was used to avoid premature convergence to a local minimum and promote the exploration of the search space. When the termination criteria are reached, the final population is evaluated and the solutions are ranked based on their performance in multiple objectives. Finally, the problems we oppose are multi-objective ones and thus, the algorithm returns multiple Pareto-optimal trained models. For the purpose of the present thesis, two datasets were used in order to test the performance of this pipeline. The first dataset used is the "Ornish” dataset, which refers to Gene Expression profiling by microarrays conducted to people that undergo an intensive lifestyle interventions to study the effects on weight loss and lowering of CardioVascular Disease (CVD) risk. The second one is from the “OPERA” study and consists mostly of nominal features in the form of survey questions to explore the effects of replacing opioid drugs with topical painkillers in four different outcomes of the study. The machine learning models produced with the presented method, significantly improved the discrimination power of state-of-the-art machine learning methods, which were also deployed for comparative reasons. The results of this work are very encouraging and the produced method has the potential to increase predictive accuracy and help with the biomarkers discovery when applied in personalized medicine and biomedical applications in the future. Στην σημερινή εποχή, οι τεχνικές υψηλής απόδοσης έχουν καθιερωθεί δεδομένου ότι αυτό επιτρέπεται από την τεχνολογική πρόοδο. Με αυτόν τον τρόπο δημιουργείτε ένας τεράστιος όγκος δεδομένων που όμως έχει εξαιρετική σημασία για τους επιστήμονες. Σε συνδυασμό με τα κλινικά και τα μετα-δεδομένα, μπορούν να οδηγήσουν σε ανακαλύψεις και στην βελτίωση της εξατομικευμένης ιατρικής και της πρόγνωσης. Η Βιοπληροφορική γεφυρώνει το χάσμα μεταξύ της κλασικής προσέγγισης της βιολογίας και τις επιστήμης των υπολογιστών μέσω της ανάπτυξης εργαλείων που εξάγουν χρήσιμη πληροφορία από βιολογικά δεδομένα. Πολύ συχνά, τα προβλήματα που αντιμετωπίζουν οι επιστήμονες έχουν πάνω από έναν στόχο και μάλιστα κάποιοι από αυτούς είναι και αντικρουόμενοι. Αυτό εγείρει την ανάγκη για αλγορίθμους που μπορούν να διαχειριστούν πολλαπλούς στόχους και προβλήματα μεγάλων διαστάσεων αξιόπιστα. [A. Abraham et al., Advanced Information and Knowledge Processing, 2005] Ο στόχος της παρούσας διπλωματικής, είναι να χρησιμοποιήσει την ικανότητα των τεχνικών βελτιστοποίησης πολλαπλών στόχων, ώστε να επιτευχθεί η βέλτιστη επιλογή χαρακτηριστικών και παραμέτρων για αλγορίθμους ταξινόμησης boosting όταν εφαρμόζονται πάνω σε δυσδιάστατα αριθμητικά δεδομένα, σε μια προσπάθεια βελτίωσης της ακρίβειας πρόβλεψης και την μείωση των σημαντικών χαρακτηριστικών (βιοϋπογραφών). Ο αλγόριθμος ταξινόμησης που επιλέχθηκε είναι ο XGBoost, λόγο της αυξημένης δημοτικότητάς τα τελευταία χρόνια καθώς και της υψηλής του απόδοσης που αποδεικνύεται μέσα από διαγωνισμούς μηχανικής μάθησης. Αυτός ο τύπος αλγορίθμων έχει ένα μεγάλο αριθμό υπερ-παραμέτρων και έτσι ένας εξελικτικός αλγόριθμος χρησιμοποιήθηκε για την βελτιστοποίηση τόσο των παραμέτρων αυτών όσο και την εύρεση βιοδεικτών σε μεγάλους χώρους αναζήτησης. Για την αξιολόγηση των πολλαπλών λύσεων, υλοποιήθηκε μια niched Pareto κατάταξη τους, ώστε να αποφευχθεί η πρόωρη σύγκλιση του εξελικτικού αλγορίθμου αλλά και για την καλύτερη εξερεύνηση του χώρου αναζήτησης. Με την επίτευξη κάποιου από τα κριτήρια τερματισμού, οι τελικές λύσεις αξιολογούνται εκ νέου και βαθμονομούνται με βάση την απόδοσή τους σε πολλαπλές μετρικές [J. Corthésy et al., Journal of Proteome Research, 2018]. Λόγω της φύσης των προβλημάτων, ο αλγόριθμος επιστρέφει πολλαπλά μοντέλα πρόβλεψης. Για την αξιολόγηση της παρούσας εργασίας, χρησιμοποιήθηκαν δύο σύνολα δεδομένων. Το πρώτο σύνολο αναφέρεται ως «Ornish» [D. L. Ellsworth et al., Obesity, 2015] και είναι δεδομένα μικροσυστοιχιών διαφορικής έκφρασης σε πείραμα που διενεργήθηκε σε ανθρώπους με σκοπό την μελέτη της επίδρασης που έχει η έντονη καθημερινή άσκηση στην απώλεια βάρους και την μείωση του ρίσκου καρδιαγγειακών ασθενειών. Το δεύτερο σύνολο δεδομένων προέρχεται από την μελέτη «OPERA» [G. Jeffrey et al., Journal of pain research, 2017] και αποτελείται κυρίως από κατηγορικές μεταβλητές που προέχονται από ερωτηματολόγια, με σκοπό την ανακάλυψη της επίδρασης που έχει η αντικατάσταση οπιοειδών με τοπικά αναλγητικά σε τέσσερεις τομείς. Τα μοντέλα μηχανικής μάθησης που παράγονται με την παρούσα μεθοδολογία, βελτιώνουν σημαντικά την διακριτική ικανότητα των σύγχρονων αλγορίθμων, οι οποίοι υλοποιήθηκαν για λόγους σύγκρισης. Τα αποτελέσματα της εργασίας είναι ιδιαίτερα ενθαρρυντικά και η μέθοδος που παρουσιάζεται έχει τη δυνατότητα βελτίωσης της ακρίβειας πρόβλεψης και της ανακάλυψης βιοδεικτών, εφαρμοζόμενη σε βιοϊατρικά δεδομένα και στην εξατομικευμένη ιατρική. 2022-10-05T11:14:40Z 2022-10-05T11:14:40Z 2021-09-16 https://nemertes.library.upatras.gr/handle/10889/23331 en application/pdf