Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα
Τα ανοικτά δεδομένα λέγεται πως αποτελούν την πρώτη ύλη για την κοινωνία της γνώσης. Ειδικά τα τελευταία χρόνια, παρουσιάζεται ένα αυξανόμενο ενδιαφέρον για τη διαχείριση, την ανάλυση, και την ερμηνεία των ανοικτών μεγάλων δεδομένων. Το πεδίο της βιοϊατρικής χαρακτηρίζεται και αυτό από την ύπαρξη αν...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2020
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/13157 |
id |
nemertes-10889-13157 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-131572022-09-05T06:58:21Z Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα Λάμπρου, Μιχάλης Σιούτας, Σπύρος Σιούτας, Σπύρος Lamprou, Michalis Καρκίνος Πνεύμονας Cancer RNA DNA Τα ανοικτά δεδομένα λέγεται πως αποτελούν την πρώτη ύλη για την κοινωνία της γνώσης. Ειδικά τα τελευταία χρόνια, παρουσιάζεται ένα αυξανόμενο ενδιαφέρον για τη διαχείριση, την ανάλυση, και την ερμηνεία των ανοικτών μεγάλων δεδομένων. Το πεδίο της βιοϊατρικής χαρακτηρίζεται και αυτό από την ύπαρξη ανοικτών μεγάλων δεδομένων, κατά κύριο λόγο γονιδιακών (DNA/RNA). Στόχος της ανά χείρας εργασίας είναι η ανάλυση αυτού του τύπου δεδομένων, τα οποία υπάρχουν ελεύθερα διαθέσιμα στο lnternet, για τη διάγνωση τύπων καρκίνου. Πιο αναλυτικά, χρησιμοποιούνται τα δεδομένα GΠΧ, τα οποία περιλαμβάνουν γονιδιακές εκφράσεις τύπου RNA για ένα σύνολο υγιών ιστών ανθρώπινου σώματος, καθώς και τα πανομοιότυπα δεδομένα TCGA για ένα σύνολο αντίστοιχων τύπων καρκινικών ιστών. Ενδεικτικά, στα πλαίσια της ανά χείρας εργασίας θα ερευνηθεί ο καρκίνος του πνεύμονα, στον οποίο αντιστοιχεί ένα σχετικά μεγάλο υποσύνολο δεδομένων των προαναφερθέντων δυο συνόλων. Ωστόσο, οι μέθοδοι που χρησιμοποιούνται για την ανάλυση, μπορούν κατά προφανή τρόπο να επεκταθούν και σε άλλους τύπους καρκίνου, για τους οποίους έχουμε διαθέσιμα δεδομένα. Τα ανοικτά μεγάλα δεδομένα εδώ και κάποιες δεκαετίες αναλύονται με τη χρήση σύγχρονων τεχνικών μηχανικής μάθησης, έναντι των παραδοσιακών μεθόδων της απλής συμπερασματικής στατιστικής. Το πρόβλημα που εφαρμόζεται στην ανά χείρας εργασία είναι αυτό της κατηγοριοποίησης: χρήσει των διαθέσιμων γονιδιακών εκφράσεων ζητείται να προβλεφθεί ο τύπος του ιστού, τουτέστιν αν είναι υγιής ή καρκινικός. Ξεχωριστή σημασία δίνεται τόσο στην ακρίβεια της διάγνωσης/πρόβλεψης του τύπου του ιστού, όσο και στην επιλογή των καλύτερων γονιδίων/γνωρισμάτων που οδηγούν σε αυτήν . Ιδιαίτερο χαρακτηριστικό των προαναφερθέντων δεδομένων, είναι ότι το πλήθος των γονιδίων είναι κατά πολύ μεγαλύτερο του πλήθους των ιστών . Δοκιμάζονται διάφοροι κατηγοριοποιητές, όπως τα support νector machines, τα random forests, τα ρηχά νευρωνικά δίκτυα, κ.α., ενώ συγχρόνως εκτιμώνται και οι βέλτιστες παράμετροι αυτών. Η αποτίμηση γίνεται χρήσει του Fl-score, των καμπύλων ROC, και άλλων περισσότερο απλών μετρικών. Τα αποτελέσματα της κατηγοριοποίησης μας δείχνουν πως μπορούμε να επιτύχουμε ακρίβεια μέχρι και 100% στο διαχωρισμό των δυο πληθυσμών, με τη χρήση ενός συγκριτικά μικρού υποσυνόλου από γονίδια/γνωρίσματα, χωρίς τη χρήση τεχνικών μείωσης της διαστατικότητας, παρά μόνο με εφαρμογή εγγενών χαρακτηριστικών επιλογής υποσυνόλου γνωρισμάτων των αλγόριθμων. Η ανάλυση μπορεί τετριμμένα να επεκταθεί και στην ανίχνευση υπό-τύπων καρκίνου, όπως πχ αν ο καρκίνος στον πνεύμονα είναι πρωτογενής ή μεταστατικός (με δεδομένο ότι αυτή η πληροφορία περιέχεται στο σύνολο δεδομένων TCGA). Προγραμματιστικά, η ανάλυση για την ανά χείρας εργασία υλοποιήθηκε στην open source γλώσσα στατιστικού υπολογισμού R, χρήσει του open source λογισμικού RStudio, με ολόκληρο τον κώδικα να διατίθεται στον οποιονδήποτε για πάσα περαιτέρω χρήση. Αναμένουμε τα συμπεράσματα που προκύπτουν από την ανά χείρας εργασία, να γίνουν μελλοντικό αντικείμενο μελέτης, όχι μόνο από τους ερευνητές του χώρου της υπολογιστικής στατιστικής και μηχανικής μάθησης, αλλά και από βιοϊατρικούς ερευνητές, όπως σπουδαστές της Ιατρικής και της Βιολογίας. Study tissues and categorization into healthy and cancer. 2020-02-06T21:39:36Z 2020-02-06T21:39:36Z 2019-11-07 Thesis http://hdl.handle.net/10889/13157 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Καρκίνος Πνεύμονας Cancer RNA DNA |
spellingShingle |
Καρκίνος Πνεύμονας Cancer RNA DNA Λάμπρου, Μιχάλης Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα |
description |
Τα ανοικτά δεδομένα λέγεται πως αποτελούν την πρώτη ύλη για την κοινωνία της γνώσης. Ειδικά τα τελευταία χρόνια, παρουσιάζεται ένα αυξανόμενο ενδιαφέρον για τη διαχείριση, την ανάλυση, και την ερμηνεία των ανοικτών μεγάλων δεδομένων. Το πεδίο της βιοϊατρικής χαρακτηρίζεται και αυτό από την ύπαρξη ανοικτών μεγάλων δεδομένων, κατά κύριο λόγο γονιδιακών (DNA/RNA). Στόχος της ανά χείρας εργασίας είναι η ανάλυση αυτού του τύπου δεδομένων, τα οποία υπάρχουν ελεύθερα διαθέσιμα στο lnternet, για τη διάγνωση τύπων καρκίνου. Πιο αναλυτικά, χρησιμοποιούνται τα δεδομένα GΠΧ, τα οποία περιλαμβάνουν γονιδιακές εκφράσεις τύπου RNA για ένα σύνολο υγιών ιστών ανθρώπινου σώματος, καθώς και τα πανομοιότυπα δεδομένα TCGA για ένα σύνολο αντίστοιχων τύπων καρκινικών ιστών. Ενδεικτικά, στα πλαίσια της ανά χείρας εργασίας θα ερευνηθεί ο καρκίνος του πνεύμονα, στον οποίο αντιστοιχεί ένα σχετικά μεγάλο υποσύνολο δεδομένων των προαναφερθέντων δυο συνόλων. Ωστόσο, οι μέθοδοι που χρησιμοποιούνται για την ανάλυση, μπορούν κατά προφανή τρόπο να επεκταθούν και σε άλλους τύπους καρκίνου, για τους οποίους έχουμε διαθέσιμα δεδομένα. Τα ανοικτά μεγάλα δεδομένα εδώ και κάποιες δεκαετίες αναλύονται με τη χρήση σύγχρονων τεχνικών μηχανικής μάθησης, έναντι των παραδοσιακών μεθόδων της απλής συμπερασματικής στατιστικής. Το πρόβλημα που εφαρμόζεται στην ανά χείρας εργασία είναι αυτό της κατηγοριοποίησης: χρήσει των διαθέσιμων γονιδιακών εκφράσεων ζητείται να προβλεφθεί ο τύπος του ιστού, τουτέστιν αν είναι υγιής ή καρκινικός. Ξεχωριστή σημασία δίνεται τόσο στην ακρίβεια της διάγνωσης/πρόβλεψης του τύπου του ιστού, όσο και στην επιλογή των καλύτερων γονιδίων/γνωρισμάτων που οδηγούν σε αυτήν . Ιδιαίτερο χαρακτηριστικό των προαναφερθέντων δεδομένων, είναι ότι το πλήθος των γονιδίων είναι κατά πολύ μεγαλύτερο του πλήθους των ιστών . Δοκιμάζονται διάφοροι κατηγοριοποιητές, όπως τα support νector machines, τα random forests, τα ρηχά νευρωνικά δίκτυα, κ.α., ενώ συγχρόνως εκτιμώνται και οι βέλτιστες παράμετροι αυτών. Η αποτίμηση γίνεται χρήσει του Fl-score, των καμπύλων ROC, και άλλων περισσότερο απλών μετρικών. Τα αποτελέσματα της κατηγοριοποίησης μας δείχνουν πως μπορούμε να επιτύχουμε ακρίβεια μέχρι και 100% στο διαχωρισμό των δυο πληθυσμών, με τη χρήση ενός συγκριτικά μικρού υποσυνόλου από γονίδια/γνωρίσματα, χωρίς τη χρήση τεχνικών μείωσης της διαστατικότητας, παρά μόνο με εφαρμογή εγγενών χαρακτηριστικών επιλογής υποσυνόλου γνωρισμάτων των αλγόριθμων. Η ανάλυση μπορεί τετριμμένα να επεκταθεί και στην ανίχνευση υπό-τύπων καρκίνου, όπως πχ αν ο καρκίνος στον πνεύμονα είναι πρωτογενής ή μεταστατικός (με δεδομένο ότι αυτή η πληροφορία περιέχεται στο σύνολο δεδομένων TCGA). Προγραμματιστικά, η ανάλυση για την ανά χείρας εργασία υλοποιήθηκε στην open source γλώσσα στατιστικού υπολογισμού R, χρήσει του open source λογισμικού RStudio, με ολόκληρο τον κώδικα να διατίθεται στον οποιονδήποτε για πάσα περαιτέρω χρήση. Αναμένουμε τα συμπεράσματα που προκύπτουν από την ανά χείρας εργασία, να γίνουν μελλοντικό αντικείμενο μελέτης, όχι μόνο από τους ερευνητές του χώρου της υπολογιστικής στατιστικής και μηχανικής μάθησης, αλλά και από βιοϊατρικούς ερευνητές, όπως σπουδαστές της Ιατρικής και της Βιολογίας. |
author2 |
Σιούτας, Σπύρος |
author_facet |
Σιούτας, Σπύρος Λάμπρου, Μιχάλης |
format |
Thesis |
author |
Λάμπρου, Μιχάλης |
author_sort |
Λάμπρου, Μιχάλης |
title |
Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα |
title_short |
Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα |
title_full |
Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα |
title_fullStr |
Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα |
title_full_unstemmed |
Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα |
title_sort |
μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (rna) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα |
publishDate |
2020 |
url |
http://hdl.handle.net/10889/13157 |
work_keys_str_mv |
AT lamproumichalēs meletēanoiktōndedomenōnkaimegalōngonidiakōnrnadedomenōnkarkinoumetēchrēsēmethodologiasmēchanikēsmathēsēsmiaendeiktikēepharmogēstēdiagnōsētoukarkinoutoupneumona |
_version_ |
1771297169111777280 |