Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα

Τα ανοικτά δεδομένα λέγεται πως αποτελούν την πρώτη ύλη για την κοινωνία της γνώσης. Ειδικά τα τελευταία χρόνια, παρουσιάζεται ένα αυξανόμενο ενδιαφέρον για τη διαχείριση, την ανάλυση, και την ερμηνεία των ανοικτών μεγάλων δεδομένων. Το πεδίο της βιοϊατρικής χαρακτηρίζεται και αυτό από την ύπαρξη αν...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λάμπρου, Μιχάλης
Άλλοι συγγραφείς: Σιούτας, Σπύρος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13157
id nemertes-10889-13157
record_format dspace
spelling nemertes-10889-131572022-09-05T06:58:21Z Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα Λάμπρου, Μιχάλης Σιούτας, Σπύρος Σιούτας, Σπύρος Lamprou, Michalis Καρκίνος Πνεύμονας Cancer RNA DNA Τα ανοικτά δεδομένα λέγεται πως αποτελούν την πρώτη ύλη για την κοινωνία της γνώσης. Ειδικά τα τελευταία χρόνια, παρουσιάζεται ένα αυξανόμενο ενδιαφέρον για τη διαχείριση, την ανάλυση, και την ερμηνεία των ανοικτών μεγάλων δεδομένων. Το πεδίο της βιοϊατρικής χαρακτηρίζεται και αυτό από την ύπαρξη ανοικτών μεγάλων δεδομένων, κατά κύριο λόγο γονιδιακών (DNA/RNA). Στόχος της ανά χείρας εργασίας είναι η ανάλυση αυτού του τύπου δεδομένων, τα οποία υπάρχουν ελεύθερα διαθέσιμα στο lnternet, για τη διάγνωση τύπων καρκίνου. Πιο αναλυτικά, χρησιμοποιούνται τα δεδομένα GΠΧ, τα οποία περιλαμβάνουν γονιδιακές εκφράσεις τύπου RNA για ένα σύνολο υγιών ιστών ανθρώπινου σώματος, καθώς και τα πανομοιότυπα δεδομένα TCGA για ένα σύνολο αντίστοιχων τύπων καρκινικών ιστών. Ενδεικτικά, στα πλαίσια της ανά χείρας εργασίας θα ερευνηθεί ο καρκίνος του πνεύμονα, στον οποίο αντιστοιχεί ένα σχετικά μεγάλο υποσύνολο δεδομένων των προαναφερθέντων δυο συνόλων. Ωστόσο, οι μέθοδοι που χρησιμοποιούνται για την ανάλυση, μπορούν κατά προφανή τρόπο να επεκταθούν και σε άλλους τύπους καρκίνου, για τους οποίους έχουμε διαθέσιμα δεδομένα. Τα ανοικτά μεγάλα δεδομένα εδώ και κάποιες δεκαετίες αναλύονται με τη χρήση σύγχρονων τεχνικών μηχανικής μάθησης, έναντι των παραδοσιακών μεθόδων της απλής συμπερασματικής στατιστικής. Το πρόβλημα που εφαρμόζεται στην ανά χείρας εργασία είναι αυτό της κατηγοριοποίησης: χρήσει των διαθέσιμων γονιδιακών εκφράσεων ζητείται να προβλεφθεί ο τύπος του ιστού, τουτέστιν αν είναι υγιής ή καρκινικός. Ξεχωριστή σημασία δίνεται τόσο στην ακρίβεια της διάγνωσης/πρόβλεψης του τύπου του ιστού, όσο και στην επιλογή των καλύτερων γονιδίων/γνωρισμάτων που οδηγούν σε αυτήν . Ιδιαίτερο χαρακτηριστικό των προαναφερθέντων δεδομένων, είναι ότι το πλήθος των γονιδίων είναι κατά πολύ μεγαλύτερο του πλήθους των ιστών . Δοκιμάζονται διάφοροι κατηγοριοποιητές, όπως τα support νector machines, τα random forests, τα ρηχά νευρωνικά δίκτυα, κ.α., ενώ συγχρόνως εκτιμώνται και οι βέλτιστες παράμετροι αυτών. Η αποτίμηση γίνεται χρήσει του Fl-score, των καμπύλων ROC, και άλλων περισσότερο απλών μετρικών. Τα αποτελέσματα της κατηγοριοποίησης μας δείχνουν πως μπορούμε να επιτύχουμε ακρίβεια μέχρι και 100% στο διαχωρισμό των δυο πληθυσμών, με τη χρήση ενός συγκριτικά μικρού υποσυνόλου από γονίδια/γνωρίσματα, χωρίς τη χρήση τεχνικών μείωσης της διαστατικότητας, παρά μόνο με εφαρμογή εγγενών χαρακτηριστικών επιλογής υποσυνόλου γνωρισμάτων των αλγόριθμων. Η ανάλυση μπορεί τετριμμένα να επεκταθεί και στην ανίχνευση υπό-τύπων καρκίνου, όπως πχ αν ο καρκίνος στον πνεύμονα είναι πρωτογενής ή μεταστατικός (με δεδομένο ότι αυτή η πληροφορία περιέχεται στο σύνολο δεδομένων TCGA). Προγραμματιστικά, η ανάλυση για την ανά χείρας εργασία υλοποιήθηκε στην open source γλώσσα στατιστικού υπολογισμού R, χρήσει του open source λογισμικού RStudio, με ολόκληρο τον κώδικα να διατίθεται στον οποιονδήποτε για πάσα περαιτέρω χρήση. Αναμένουμε τα συμπεράσματα που προκύπτουν από την ανά χείρας εργασία, να γίνουν μελλοντικό αντικείμενο μελέτης, όχι μόνο από τους ερευνητές του χώρου της υπολογιστικής στατιστικής και μηχανικής μάθησης, αλλά και από βιοϊατρικούς ερευνητές, όπως σπουδαστές της Ιατρικής και της Βιολογίας. Study tissues and categorization into healthy and cancer. 2020-02-06T21:39:36Z 2020-02-06T21:39:36Z 2019-11-07 Thesis http://hdl.handle.net/10889/13157 gr 0 application/pdf
institution UPatras
collection Nemertes
language Greek
topic Καρκίνος
Πνεύμονας
Cancer
RNA
DNA
spellingShingle Καρκίνος
Πνεύμονας
Cancer
RNA
DNA
Λάμπρου, Μιχάλης
Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα
description Τα ανοικτά δεδομένα λέγεται πως αποτελούν την πρώτη ύλη για την κοινωνία της γνώσης. Ειδικά τα τελευταία χρόνια, παρουσιάζεται ένα αυξανόμενο ενδιαφέρον για τη διαχείριση, την ανάλυση, και την ερμηνεία των ανοικτών μεγάλων δεδομένων. Το πεδίο της βιοϊατρικής χαρακτηρίζεται και αυτό από την ύπαρξη ανοικτών μεγάλων δεδομένων, κατά κύριο λόγο γονιδιακών (DNA/RNA). Στόχος της ανά χείρας εργασίας είναι η ανάλυση αυτού του τύπου δεδομένων, τα οποία υπάρχουν ελεύθερα διαθέσιμα στο lnternet, για τη διάγνωση τύπων καρκίνου. Πιο αναλυτικά, χρησιμοποιούνται τα δεδομένα GΠΧ, τα οποία περιλαμβάνουν γονιδιακές εκφράσεις τύπου RNA για ένα σύνολο υγιών ιστών ανθρώπινου σώματος, καθώς και τα πανομοιότυπα δεδομένα TCGA για ένα σύνολο αντίστοιχων τύπων καρκινικών ιστών. Ενδεικτικά, στα πλαίσια της ανά χείρας εργασίας θα ερευνηθεί ο καρκίνος του πνεύμονα, στον οποίο αντιστοιχεί ένα σχετικά μεγάλο υποσύνολο δεδομένων των προαναφερθέντων δυο συνόλων. Ωστόσο, οι μέθοδοι που χρησιμοποιούνται για την ανάλυση, μπορούν κατά προφανή τρόπο να επεκταθούν και σε άλλους τύπους καρκίνου, για τους οποίους έχουμε διαθέσιμα δεδομένα. Τα ανοικτά μεγάλα δεδομένα εδώ και κάποιες δεκαετίες αναλύονται με τη χρήση σύγχρονων τεχνικών μηχανικής μάθησης, έναντι των παραδοσιακών μεθόδων της απλής συμπερασματικής στατιστικής. Το πρόβλημα που εφαρμόζεται στην ανά χείρας εργασία είναι αυτό της κατηγοριοποίησης: χρήσει των διαθέσιμων γονιδιακών εκφράσεων ζητείται να προβλεφθεί ο τύπος του ιστού, τουτέστιν αν είναι υγιής ή καρκινικός. Ξεχωριστή σημασία δίνεται τόσο στην ακρίβεια της διάγνωσης/πρόβλεψης του τύπου του ιστού, όσο και στην επιλογή των καλύτερων γονιδίων/γνωρισμάτων που οδηγούν σε αυτήν . Ιδιαίτερο χαρακτηριστικό των προαναφερθέντων δεδομένων, είναι ότι το πλήθος των γονιδίων είναι κατά πολύ μεγαλύτερο του πλήθους των ιστών . Δοκιμάζονται διάφοροι κατηγοριοποιητές, όπως τα support νector machines, τα random forests, τα ρηχά νευρωνικά δίκτυα, κ.α., ενώ συγχρόνως εκτιμώνται και οι βέλτιστες παράμετροι αυτών. Η αποτίμηση γίνεται χρήσει του Fl-score, των καμπύλων ROC, και άλλων περισσότερο απλών μετρικών. Τα αποτελέσματα της κατηγοριοποίησης μας δείχνουν πως μπορούμε να επιτύχουμε ακρίβεια μέχρι και 100% στο διαχωρισμό των δυο πληθυσμών, με τη χρήση ενός συγκριτικά μικρού υποσυνόλου από γονίδια/γνωρίσματα, χωρίς τη χρήση τεχνικών μείωσης της διαστατικότητας, παρά μόνο με εφαρμογή εγγενών χαρακτηριστικών επιλογής υποσυνόλου γνωρισμάτων των αλγόριθμων. Η ανάλυση μπορεί τετριμμένα να επεκταθεί και στην ανίχνευση υπό-τύπων καρκίνου, όπως πχ αν ο καρκίνος στον πνεύμονα είναι πρωτογενής ή μεταστατικός (με δεδομένο ότι αυτή η πληροφορία περιέχεται στο σύνολο δεδομένων TCGA). Προγραμματιστικά, η ανάλυση για την ανά χείρας εργασία υλοποιήθηκε στην open source γλώσσα στατιστικού υπολογισμού R, χρήσει του open source λογισμικού RStudio, με ολόκληρο τον κώδικα να διατίθεται στον οποιονδήποτε για πάσα περαιτέρω χρήση. Αναμένουμε τα συμπεράσματα που προκύπτουν από την ανά χείρας εργασία, να γίνουν μελλοντικό αντικείμενο μελέτης, όχι μόνο από τους ερευνητές του χώρου της υπολογιστικής στατιστικής και μηχανικής μάθησης, αλλά και από βιοϊατρικούς ερευνητές, όπως σπουδαστές της Ιατρικής και της Βιολογίας.
author2 Σιούτας, Σπύρος
author_facet Σιούτας, Σπύρος
Λάμπρου, Μιχάλης
format Thesis
author Λάμπρου, Μιχάλης
author_sort Λάμπρου, Μιχάλης
title Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα
title_short Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα
title_full Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα
title_fullStr Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα
title_full_unstemmed Μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (RNA) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα
title_sort μελέτη ανοικτών δεδομένων και μεγάλων γονιδιακών (rna) δεδομένων καρκίνου με τη χρήση μεθοδολογίας μηχανικής μάθησης : μια ενδεικτική εφαρμογή στη διάγνωση του καρκίνου του πνεύμονα
publishDate 2020
url http://hdl.handle.net/10889/13157
work_keys_str_mv AT lamproumichalēs meletēanoiktōndedomenōnkaimegalōngonidiakōnrnadedomenōnkarkinoumetēchrēsēmethodologiasmēchanikēsmathēsēsmiaendeiktikēepharmogēstēdiagnōsētoukarkinoutoupneumona
_version_ 1771297169111777280