Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees

Η έννοια Big Data πλέον δεν είναι κάτι καινούργιο και συνεχίζει να εδραιώνεται σε όλο και περισσότερους τομείς, όπου η ενασχόληση με αυτού του είδους τα δεδομένα γίνεται όλο και περισσότερο κερδοφόρα. Επιχειρήσεις/οργανισμοί που ασχολούνται με την αποθήκευση, την επεξεργασία, και την ανάλυση τ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κοροβίλας, Αιμίλιος
Άλλοι συγγραφείς: Korovilas, Aimilios
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14496
Περιγραφή
Περίληψη:Η έννοια Big Data πλέον δεν είναι κάτι καινούργιο και συνεχίζει να εδραιώνεται σε όλο και περισσότερους τομείς, όπου η ενασχόληση με αυτού του είδους τα δεδομένα γίνεται όλο και περισσότερο κερδοφόρα. Επιχειρήσεις/οργανισμοί που ασχολούνται με την αποθήκευση, την επεξεργασία, και την ανάλυση τεράστιων συνόλων από δεδομένα τα οποία διακρίνονται συνήθως από την ποικιλομορφία τους έχουν ένα δύσκολο πρόβλημα να αντιμετωπίσουν. Πρέπει να εφεύρουν έξυπνες τεχνικές αλλά και να χρησιμοποιήσουν αποδοτικά εργαλεία, έτσι ώστε να διαχειριστούν δεδομένα που παρουσιάζουν τα χαρακτηριστικά των Big Data. Ο πλέον de facto τρόπος αποθήκευσης και επεξεργασίας των Big Data είναι μέσω ενός συμπλέγματος υπολογιστών. Οι χρήστες χάρη σε κάποια εργαλεία που θα μελετήσουμε στην παρούσα διπλωματική εργασία μπορούν να χρησιμοποιήσουν ακόμη και φτηνό υλικό του εμπορίου για τη δημιουργία ενός συμπλέγματος από μηχανήματα. Ένα πρωτοπόρο εργαλείο στον τομέα της κατανεμημένης επεξεργασίας είναι το Apache Hadoop το οποίο δημιουργήθηκε για να αντιμετωπίσει το πρόβλημα των Big Data βοηθώντας το χρήστη να αξιοποιήσει τεχνικές κατανεμημένης αποθήκευσης και επεξεργασίας. Το Apache Spark ακολούθησε ως ένα εργαλείο το οποίο προσπάθησε να ξεπεράσει περιορισμούς που υπήρχαν στο Hadoop, επεξεργάζοντας δεδομένα στη μνήμη και είναι πλέον ένα από τα σημαντικότερα εργαλεία στον τομέα της κατανεμημένης επεξεργασίας. Επιπροσθέτως ένας αποδοτικός τρόπος να αποθηκευτούν δεδομένα για γρήγορες και αξιόπιστες μεθόδους απόκτησης πληροφορίας από αυτά είναι οι δομές δεδομένων οι οποίες αποτελούν ένα ευρετήριο για τα δεδομένα που περιέχουν. To Spark υστερεί στην υποστήριξη δημιουργίας έξυπνων ευρετηρίων και η επέκταση του προς αυτή την κατεύθυνση είναι ο σκοπός της διπλωματικής εργασίας μας. Αρχικά παρουσιάζουμε τα εργαλεία Hadoop και Spark καθώς και διάφορες δομές δεδομένων. Έπειτα θα ακολουθήσει η υλοποίηση ενός ευρετηρίου στο περιβάλλον Spark. Η υλοποίησή μας αυτή χρησιμοποιεί τη δομή Quadtree για τη δημιουργία του ευρετηρίου και επιτρέπει ερωτήματα εύρους και k κοντινότερων γειτόνων σε δυσδιάστατα δεδομένα, αξιοποιώντας την αποθήκευση και επεξεργασία δεδομένων στη μνήμη.