Αποδοτικοί αλγόριθμοι διαχείρισης μεγάλου όγκου δεδομένων και αποτελεσματικές τεχνικές σχεδιασμού συστημάτων με εφαρμογή σε ιατρικά δεδομένα

Στην πληροφορική, η έννοια της δομής δεδομένων αναφέρεται στους διαφορετικούς δυνατούς τρόπους οργάνωσης και αποθήκευσης δεδομένων μέσα σε έναν υπολογιστή, ώστε τα δεδομένα αυτά να μπορούν να χρησιμοποιηθούν αποδοτικά. Όταν αναφερόμαστε σε δεδομένα μεγάλου όγκου (big data), ξεφεύγουμε πλέον από τα ό...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σουρλά, Ευφροσύνη
Άλλοι συγγραφείς: Τσακαλίδης, Αθανάσιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2016
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/9090
Περιγραφή
Περίληψη:Στην πληροφορική, η έννοια της δομής δεδομένων αναφέρεται στους διαφορετικούς δυνατούς τρόπους οργάνωσης και αποθήκευσης δεδομένων μέσα σε έναν υπολογιστή, ώστε τα δεδομένα αυτά να μπορούν να χρησιμοποιηθούν αποδοτικά. Όταν αναφερόμαστε σε δεδομένα μεγάλου όγκου (big data), ξεφεύγουμε πλέον από τα όρια ενός υπολογιστή και αναζητούμε τρόπους οργάνωσης, αποθήκευσης και διαχείρισής τους που να είναι ταυτόχρονα αποδοτικοί και μη δαπανηροί. Τα δεδομένα μεγάλου όγκου, όπως είναι τα ιατρικά και βιολογικά δεδομένα, αποτελούν τη βάση για την κατανόηση του βιολογικού κόσμου. Συλλέγονται από ποικίλες πηγές όπως κοινωνικά δίκτυα, αισθητήρες δικτύου, επιστημονικές εφαρμογές, διαδικτυακά κείμενα και έγγραφα κλπ. και διαθέτουν πολλά χαρακτηριστικά, συμπεριλαμβανομένων του μεγάλου μεγέθους, των ετερογενών δομών και της πολύπλοκης επεξεργασίας τους. Ο δημοφιλέστερος τρόπος διαχείρισης δεδομένων μεγάλου όγκου είναι τα κατανεμημένα συστήματα υπολογιστών. Ένα κατανεμημένο σύστημα μπορεί να οριστεί ως «ένα είδος αποκεντρωμένης και κατανεμημένης αρχιτεκτονικής δικτύου, στην οποία, ανεξάρτητοι κόμβοι λειτουργούν ταυτόχρονα ως πάροχοι και καταναλωτές πόρων, σε αντίθεση με τα κεντρικοποιημένα μοντέλα πελάτη-εξυπηρετητή στα οποία ο κόμβος-πελάτης ζητά πρόσβαση σε πόρους που παρέχονται από κεντρικούς εξυπηρετητές. Σε ένα κατανεμημένο δίκτυο, οι εργασίες (όπως αναζήτηση αρχείων ή ροή ήχου/εικόνας – audio/video streaming) διαμοιράζονται μεταξύ πολλαπλών διασυνδεδεμένων κόμβων, καθένας από τους οποίους προσφέρει ένα τμήμα των πόρων (επεξεργαστική ισχύ, χώρο αποθήκευσης, εύρος ζώνης δικτύου) σε άλλους κόμβους, χωρίς να μεσολαβεί κεντρικός συντονισμός από εξυπηρετητές». Τα κατανεμημένα δίκτυα, προκαλούν πλέον μεγάλο ενδιαφέρον στην παγκόσμια κοινότητα του κλάδου των δικτύων υπολογιστών και δικαίως θεωρούνται το μέλλον του διαδικτύου. Τυπικά παραδείγματα περιλαμβάνουν τα P2P (Peer-to-Peer) συστήματα, τα πολύ δημοφιλή πλέον υπολογιστικά περιβάλλοντα νέφους (cloud computing) και το ίδιο το διαδίκτυο. Ένα κατανεμημένο δίκτυο αναπαρίσταται από έναν γράφο, ένα λογικό δίκτυο επικάλυψης, οι κόμβοι του οποίου αντιστοιχούν στους δικτυακούς κόμβους, ενώ οι ακμές του δεν είναι απαραίτητο να αντιστοιχούν στους υπάρχοντες επικοινωνιακούς συνδέσμους, αλλά σε επικοινωνιακά μονοπάτια. Η πρόσφατη έρευνα έχει συνεισφέρει αξιοσημείωτα αποτελέσματα στην κατασκευή αποτελεσματικών αποκεντρωμένων συστημάτων με αποτελεσματική, κατανεμημένη αναζήτηση και λειτουργίες ενημέρωσης. Γενικά, τα κατανεμημένα συστήματα μπορούν να ταξινομηθούν σε δύο μεγάλες κατηγορίες: στα συστήματα βασισμένα σε πίνακες κατανεμημένου κατακερματισμού (Distributed Hash Table – DHT) και σε δενδρικά συστήματα. Εδώ εστιάζουμε στα ιεραρχικά δενδρικά δίκτυα επικάλυψης που υποστηρίζουν άμεσα αναζήτηση εύρους αλλά και πιο πολύπλοκα ερωτήματα. Συγκεκριμένα στο δεύτερο κεφάλαιο προτείνουμε μία πολλά υποσχόμενη δυναμική, ντετερμινιστική και αποκεντρωμένη δομή για κατανεμημένα δεδομένα, που ονομάζεται D3-Tree. Σ’ αυτό το κεφάλαιο, παρουσιάζεται εν συντομία η θεωρητική αλγοριθμική ανάλυση στην οποία βασίζεται η δομή αυτή και περιγράφονται πλήρως οι βασικές πτυχές της υλοποίησης και οι προκλήσεις που αντιμετωπίστηκαν στην προσπάθεια να μετατραπεί η θεωρητική αυτή δομή σ’ ένα ζωντανό παράδειγμα. Τα πειράματα επαληθεύουν ότι η υλοποιηθείσα δομή είναι αποδοτικότερη από άλλες γνωστές ιεραρχικές δενδρικές δομές, εφόσον παρέχει καλύτερες πολυπλοκότητες για τη δαπανηρή λειτουργία εξισορρόπησης φορτίου (load-balancing). Συγκεκριμένα, η δομή επιτυγχάνει κατανεμημένη πολυπλοκότητα O(logN) (όπου N ο αριθμός των κόμβων στο δίκτυο), χάρις σε ένα αποδοτικό ντετερμινιστικό μηχανισμό εξισορρόπησης φορτίου που είναι αρκετά γενικός ώστε να μπορεί να εφαρμοστεί και σε άλλες ιεραρχικές δεντρικές δομές. Επιπλέον, μελετάται η ανοχή της δομής σε σφάλματα, κάτι που δεν είχε εξεταστεί επαρκώς στον προκάτοχό της, όχι μόνο θεωρητικά, αλλά και μέσω πειραμάτων. Αποδεικνύεται ότι η προτεινόμενη δομή D3-Tree είναι ιδιαίτερα ανεκτική στα σφάλματα, αφού ακόμα και για μαζικές πτώσεις κόμβων επιτυγχάνει αξιοσημείωτα ποσοστά επιτυχών αναζητήσεων δεδομένων. Επιπλέον, επιτυγχάνει O(logN) κατανεμημένο κόστος αναζήτησης για μαζικές πτώσεις κόμβων. Στο τρίτο κεφάλαιο εστιάζουμε στα κατανεμημένα περιβάλλοντα μεγάλης κλίμακας, στα οποία η κλασσική λογαριθμική πολυπλοκότητα που προσφέρεται από τις υπάρχουσες λύσεις στη βιβλιογραφία, εξακολουθεί να είναι ακριβή για αναζητήσεις στοιχείων και ερωτήματα εύρους. Επίσης, οι διαθέσιμες λύσεις επιβαρύνονται με μεγάλα κόστη αναφορικά με άλλες κρίσιμες λειτουργίες όπως άφιξη/αναχώρηση κόμβων και εισαγωγή/διαγραφή δεδομένων. Στόχος είναι να παρέχουμε μια ολοκληρωμένη λύση που να ξεπερνά σε απόδοση τις υπάρχουσες λύσεις σ’ όλες τις βασικές λειτουργίες, όπως: αναζήτηση δεδομένων, άφιξη /αναχώρηση κόμβων, εισαγωγή/διαγραφή δεδομένων και εξισορρόπηση φορτίου, καθώς επίσης και στην απαιτούμενη πληροφορία δρομολόγησης που πρέπει να διατηρείται, ώστε να υποστηρίζονται οι παραπάνω λειτουργίες. Συγκεκριμένα, απώτερός μας στόχος είναι να επιτύχουμε υπο-λογαριθμική πολυπλοκότητα για όλες τις λειτουργίες που προαναφέρθηκαν. Στο συγκεκριμένο κεφάλαιο, συμβάλλουμε στην επίλυση του προβλήματος με τη δομή ART+ (Autonomous Range Tree), διάδοχο της δομής ART, ενσωματώνοντας την προτεινόμενη δομή D3-Tree στη δομή ART. Η ART+ επιτυγχάνει Ο((log_b(logN))^2) κόστος για αναζητήσεις και ενημερώσεις δεδομένων, όπου b είναι μια διπλά-εκθετική δύναμη του 2 και Ν είναι το συνολικό πλήθος των κόμβων. Επιπλέον, η δομή ART+ είναι μια πλήρως δυναμική και ανεκτική στα σφάλματα δομή, που υποστηρίζει τις λειτουργίες άφιξης/αναχώρησης κόμβων σε O(loglogN) αναμενόμενο με μεγάλη πιθανότητα πλήθος βημάτων και πραγματοποιεί εξισορρόπηση φορτίου με O(loglogN) κατανεμημένο κόστος. Η θεωρητική απόδοση επιβεβαιώνεται μέσω πειραμάτων που παρουσιάζονται στο κεφάλαιο αυτό. Στα πλαίσια του παρόντος ερευνητικού έργου, μελετήθηκαν επίσης έξυπνοι μηχανισμοί και αποδοτικές τεχνικές (μοντελοποίηση, διαχείριση, αρχιτεκτονική) για το σχεδιασμό εργαλείων και συστημάτων διαχείρισης ιατρικής πληροφορίας, που συμπεριλαμβάνονται στο γενικότερο ερευνητικό πεδίο της Ιατρικής Πληροφορικής (Medical Informatics). Στόχο του πεδίου αυτού αποτελεί η εξαγωγή, αποθήκευση και διαχείριση δεδομένων και πληροφοριών και η ανάπτυξη εργαλείων και πλατφορμών που μπορούν να εφαρμόσουν τη γνώση που θα παραχθεί σε διαδικασίες λήψης αποφάσεων. Η έλευση του Παγκόσμιου Ιστού έχει διευρύνει το πεδίο δράσης των Ιατρικών Πληροφοριακών Συστημάτων – ΙΠΣ οδηγώντας στην ανάπτυξη κατανεμημένων και διαλειτουργικών πηγών και υπηρεσιών πληροφορίας. Επιπρόσθετα, τα έξυπνα τηλέφωνα (smartphones) χρησιμοποιούνται πλέον ευρέως στον τομέα της υγείας. Δυο παραδείγματα που συνδυάζουν επιτυχώς τα ΙΠΣ με τα πλεονεκτήματα και τις δυνατότητες των έξυπνων τηλεφώνων είναι: (α) το ολοκληρωμένο σύστημα που αναπτύχθηκε για καταγραφή, παρακολούθηση και μελέτη ασθενών με Ανοικτά Κατάγματα Κνήμης, στην ειδικότητα της ορθοπεδικής και (β) το σύστημα καταγραφής αρτηριακής πίεσης στην ειδικότητα της καρδιολογίας. Και τα δυο συστήματα περιγράφονται συνοπτικά στο τέταρτο κεφάλαιο. Τον κύριο όγκο του τέταρτου κεφαλαίου καταλαμβάνει το CardioSmart365, ένα ολοκληρωμένο σύστημα για τη δια βίου παρακολούθηση ασθενών με καρδιολογικά προβλήματα, την έγκαιρη διάγνωση και τη βέλτιστη διαχείριση περιπτώσεων εκτάκτου ανάγκης. Το CardioSmart365 αποτελείται από διαδικτυακές εφαρμογές, διαδικτυακές υπηρεσίες και εφαρμογές για smartphones και σ' αυτό συμμετέχουν ασθενείς με καρδιολογικά προβλήματα, καρδιολόγοι και γενικοί ιατροί. Το σύστημα επιτρέπει την αλληλεπίδραση και την άμεση επικοινωνία ανάμεσα στα συνεργαζόμενα μέρη, καθώς επίσης και σε νοσοκομειακές μονάδες και εξω-νοσοκομειακούς φορείς. Τα βασικά χαρακτηριστικά του συστήματος είναι: (α) διαχείριση καταστάσεων εκτάκτου ανάγκης όπου ο ασθενής αποστέλλει στον καρδιολόγο το κύριο αίτιο και αυτός αξιολογεί την κατάσταση και προχωρά σε μια σειρά ενεργειών, (β) διαχείριση του ηλεκτρονικού φακέλου ασθενούς, (γ) καταγραφή μετρήσεων ζωτικών σημείων του ασθενούς στο σπίτι σε τακτική βάση και (δ) αλληλεπίδραση με την πλατφόρμα HealthVault της Microsoft. Η συνεισφορά του συστήματος έγκειται σε: (α) βέλτιστη παρακολούθηση ασθενών κατ' οίκον και έγκαιρη ανταπόκριση σε περιπτώσεις εκτάκτου ανάγκης, (β) βελτιωμένη επικοινωνία ανάμεσα στα συνεργαζόμενα μέρη και (γ) διατήρηση λεπτομερών αποθετηρίων ιατρικών δεδομένων, σε κοινή μορφοποίηση, για επιστημονική έρευνα. Στη συνέχεια του τέταρτου κεφαλαίου έγινε μια προσπάθεια μοντελοποίησης των πέντε πιο κοινών καρδιολογικών ασθενειών με τη βοήθεια της τεχνητής νοημοσύνης και σχεδιάστηκε και υλοποιήθηκε ένα έμπειρο σύστημα βασισμένο σε fuzzy λογική για την υποβοήθηση των καρδιολόγων και των γενικών ιατρών στη λήψη αποφάσεων. Οι πέντε ασθένειες είναι: στεφανιαία νόσος, υπέρταση, κολπική μαρμαρυγή, καρδιακή ανεπάρκεια και διαβήτης. Το υλοποιημένο σύστημα βελτιστοποιήθηκε στη συνέχεια με τη χρήση νευρωνικών δικτύων, σχεδιάζοντας και υλοποιώντας ένα προσαρμοστικό neuro-fuzzy σύστημα παραγωγής συμπερασμάτων (Adaptive Neuro-Fuzzy Inference System – ANFIS). Μ’ αυτόν τον τρόπο, επιτεύχθηκε ολοκλήρωση των εγγενών χαρακτηριστικών των νευρωνικών δικτύων (δυνατότητες μάθησης, παράλληλοι υπολογισμοί, ανοχή στα σφάλματα εισόδου) με αυτά των ασαφών συστημάτων (αναπαράσταση ανθρώπινης γνώσης, επεξηγηματική επάρκεια). Η μεθοδολογία που παρουσιάζεται στο πέμπτο κεφάλαιο, αναπτύχθηκε σε μια προσπάθεια να εκμεταλλευτούμε τις δυνατότητες που παρέχονται από το Διαδίκτυο των Πραγμάτων (Internet of Things - IoT) στον τομέα της υγείας. Πολλές υπηρεσίες που εισάγει το IoT διαθέτουν νοημοσύνη στις διαδικασίες τους, οδηγώντας μας πιο κοντά στο όραμα για το μέλλον του Διαδικτύου, όπου σχεδόν όλα τα αντικείμενα θα είναι web-enabled. Το πρόβλημα που αντιμετωπίζουμε εδώ είναι η ανάγκη για μια μεθοδολογία που θα βοηθήσει το χρήστη να επιλέξει το βέλτιστο συνδυασμό της μορφοποίησης των δεδομένων και του τρόπου μετάδοσής τους, ώστε να οδηγηθεί σε μείωση του χρηματικού κόστους μετάδοσης αυτών. Πιο συγκεκριμένα, προσπαθούμε να μετρήσουμε τις επιδόσεις ενός δικτύου συνδεδεμένων συσκευών που επικοινωνούν με άλλες εφαρμογές και ανταλλάσσουν ιατρικά δεδομένα. Απώτερος στόχος είναι η ανάπτυξη μιας έξυπνης εφαρμογής που να μας επιτρέπει να ορίσουμε τα δεδομένα που πρέπει να καταγραφούν και τη συχνότητα καταγραφής τους και θα χρησιμοποιεί αυτές τις πληροφορίες για να προτείνει την καταλληλότερη τεχνολογία μετάδοσης δεδομένων, ανάλογα με τον όγκο και τη μορφοποίησή τους. Πρέπει να ληφθεί υπόψη ότι μέχρι στιγμής κανείς δεν έχει προσεγγίσει το ζήτημα από τη σκοπιά της χρήσης internet και του κόστους που αυτή συνεπάγεται. Στο κεφάλαιο αυτό παρουσιάζεται η μεθοδολογία, οι μετρικές που εισήχθησαν και τα πειράματα που πραγματοποιήσαμε για την αξιολόγηση της πρότασής μας.