Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees

Η έννοια Big Data πλέον δεν είναι κάτι καινούργιο και συνεχίζει να εδραιώνεται σε όλο και περισσότερους τομείς, όπου η ενασχόληση με αυτού του είδους τα δεδομένα γίνεται όλο και περισσότερο κερδοφόρα. Επιχειρήσεις/οργανισμοί που ασχολούνται με την αποθήκευση, την επεξεργασία, και την ανάλυση τ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κοροβίλας, Αιμίλιος
Άλλοι συγγραφείς: Korovilas, Aimilios
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14496
id nemertes-10889-14496
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μεγάλα δεδομένα
Δομές δεδομένων
Apache spark
Quadtrees
Big data
Data structures
spellingShingle Μεγάλα δεδομένα
Δομές δεδομένων
Apache spark
Quadtrees
Big data
Data structures
Κοροβίλας, Αιμίλιος
Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees
description Η έννοια Big Data πλέον δεν είναι κάτι καινούργιο και συνεχίζει να εδραιώνεται σε όλο και περισσότερους τομείς, όπου η ενασχόληση με αυτού του είδους τα δεδομένα γίνεται όλο και περισσότερο κερδοφόρα. Επιχειρήσεις/οργανισμοί που ασχολούνται με την αποθήκευση, την επεξεργασία, και την ανάλυση τεράστιων συνόλων από δεδομένα τα οποία διακρίνονται συνήθως από την ποικιλομορφία τους έχουν ένα δύσκολο πρόβλημα να αντιμετωπίσουν. Πρέπει να εφεύρουν έξυπνες τεχνικές αλλά και να χρησιμοποιήσουν αποδοτικά εργαλεία, έτσι ώστε να διαχειριστούν δεδομένα που παρουσιάζουν τα χαρακτηριστικά των Big Data. Ο πλέον de facto τρόπος αποθήκευσης και επεξεργασίας των Big Data είναι μέσω ενός συμπλέγματος υπολογιστών. Οι χρήστες χάρη σε κάποια εργαλεία που θα μελετήσουμε στην παρούσα διπλωματική εργασία μπορούν να χρησιμοποιήσουν ακόμη και φτηνό υλικό του εμπορίου για τη δημιουργία ενός συμπλέγματος από μηχανήματα. Ένα πρωτοπόρο εργαλείο στον τομέα της κατανεμημένης επεξεργασίας είναι το Apache Hadoop το οποίο δημιουργήθηκε για να αντιμετωπίσει το πρόβλημα των Big Data βοηθώντας το χρήστη να αξιοποιήσει τεχνικές κατανεμημένης αποθήκευσης και επεξεργασίας. Το Apache Spark ακολούθησε ως ένα εργαλείο το οποίο προσπάθησε να ξεπεράσει περιορισμούς που υπήρχαν στο Hadoop, επεξεργάζοντας δεδομένα στη μνήμη και είναι πλέον ένα από τα σημαντικότερα εργαλεία στον τομέα της κατανεμημένης επεξεργασίας. Επιπροσθέτως ένας αποδοτικός τρόπος να αποθηκευτούν δεδομένα για γρήγορες και αξιόπιστες μεθόδους απόκτησης πληροφορίας από αυτά είναι οι δομές δεδομένων οι οποίες αποτελούν ένα ευρετήριο για τα δεδομένα που περιέχουν. To Spark υστερεί στην υποστήριξη δημιουργίας έξυπνων ευρετηρίων και η επέκταση του προς αυτή την κατεύθυνση είναι ο σκοπός της διπλωματικής εργασίας μας. Αρχικά παρουσιάζουμε τα εργαλεία Hadoop και Spark καθώς και διάφορες δομές δεδομένων. Έπειτα θα ακολουθήσει η υλοποίηση ενός ευρετηρίου στο περιβάλλον Spark. Η υλοποίησή μας αυτή χρησιμοποιεί τη δομή Quadtree για τη δημιουργία του ευρετηρίου και επιτρέπει ερωτήματα εύρους και k κοντινότερων γειτόνων σε δυσδιάστατα δεδομένα, αξιοποιώντας την αποθήκευση και επεξεργασία δεδομένων στη μνήμη.
author2 Korovilas, Aimilios
author_facet Korovilas, Aimilios
Κοροβίλας, Αιμίλιος
author Κοροβίλας, Αιμίλιος
author_sort Κοροβίλας, Αιμίλιος
title Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees
title_short Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees
title_full Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees
title_fullStr Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees
title_full_unstemmed Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees
title_sort επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees
publishDate 2021
url http://hdl.handle.net/10889/14496
work_keys_str_mv AT korobilasaimilios epektasēdynatotētōntouperiballontosapachesparkgiaerōtēmatamechrēsēquadtrees
AT korobilasaimilios expandingapachesparkenvironmentcapabilitiesforqueriesusingquadtrees
_version_ 1771297281902903296
spelling nemertes-10889-144962022-09-05T20:42:44Z Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees Expanding apache spark environment capabilities for queries using quadtrees Κοροβίλας, Αιμίλιος Korovilas, Aimilios Μεγάλα δεδομένα Δομές δεδομένων Apache spark Quadtrees Big data Data structures Η έννοια Big Data πλέον δεν είναι κάτι καινούργιο και συνεχίζει να εδραιώνεται σε όλο και περισσότερους τομείς, όπου η ενασχόληση με αυτού του είδους τα δεδομένα γίνεται όλο και περισσότερο κερδοφόρα. Επιχειρήσεις/οργανισμοί που ασχολούνται με την αποθήκευση, την επεξεργασία, και την ανάλυση τεράστιων συνόλων από δεδομένα τα οποία διακρίνονται συνήθως από την ποικιλομορφία τους έχουν ένα δύσκολο πρόβλημα να αντιμετωπίσουν. Πρέπει να εφεύρουν έξυπνες τεχνικές αλλά και να χρησιμοποιήσουν αποδοτικά εργαλεία, έτσι ώστε να διαχειριστούν δεδομένα που παρουσιάζουν τα χαρακτηριστικά των Big Data. Ο πλέον de facto τρόπος αποθήκευσης και επεξεργασίας των Big Data είναι μέσω ενός συμπλέγματος υπολογιστών. Οι χρήστες χάρη σε κάποια εργαλεία που θα μελετήσουμε στην παρούσα διπλωματική εργασία μπορούν να χρησιμοποιήσουν ακόμη και φτηνό υλικό του εμπορίου για τη δημιουργία ενός συμπλέγματος από μηχανήματα. Ένα πρωτοπόρο εργαλείο στον τομέα της κατανεμημένης επεξεργασίας είναι το Apache Hadoop το οποίο δημιουργήθηκε για να αντιμετωπίσει το πρόβλημα των Big Data βοηθώντας το χρήστη να αξιοποιήσει τεχνικές κατανεμημένης αποθήκευσης και επεξεργασίας. Το Apache Spark ακολούθησε ως ένα εργαλείο το οποίο προσπάθησε να ξεπεράσει περιορισμούς που υπήρχαν στο Hadoop, επεξεργάζοντας δεδομένα στη μνήμη και είναι πλέον ένα από τα σημαντικότερα εργαλεία στον τομέα της κατανεμημένης επεξεργασίας. Επιπροσθέτως ένας αποδοτικός τρόπος να αποθηκευτούν δεδομένα για γρήγορες και αξιόπιστες μεθόδους απόκτησης πληροφορίας από αυτά είναι οι δομές δεδομένων οι οποίες αποτελούν ένα ευρετήριο για τα δεδομένα που περιέχουν. To Spark υστερεί στην υποστήριξη δημιουργίας έξυπνων ευρετηρίων και η επέκταση του προς αυτή την κατεύθυνση είναι ο σκοπός της διπλωματικής εργασίας μας. Αρχικά παρουσιάζουμε τα εργαλεία Hadoop και Spark καθώς και διάφορες δομές δεδομένων. Έπειτα θα ακολουθήσει η υλοποίηση ενός ευρετηρίου στο περιβάλλον Spark. Η υλοποίησή μας αυτή χρησιμοποιεί τη δομή Quadtree για τη δημιουργία του ευρετηρίου και επιτρέπει ερωτήματα εύρους και k κοντινότερων γειτόνων σε δυσδιάστατα δεδομένα, αξιοποιώντας την αποθήκευση και επεξεργασία δεδομένων στη μνήμη. The concept of Big Data can no longer be deemed as new and is continuously being applied to more areas, also becoming significantly profitable. Businesses/Organizations which are invested in storing, processing, and analyzing large sets of data that are characterized by their variety are facing significant challenges. They need to contrive intelligent techniques in combination with the use of efficient tools, to manage data that present Big Data features. The de facto way of storing and processing Big Data is by using a cluster of computers. Professionals thanks to tools that we are going to present in this thesis can rely on commodity hardware to create a cluster of machines. A pioneering tool used in distributed processing in order to tackle the Big Data problem is Apache Hadoop which helps professionals harness the power of distributed storing and processing techniques. Apache Spark followed as a tool that tried to overcome Hadoop’s limitations by processing data in memory and has now become one of the most important tools in the field of distributed processing. Furthermore, data structures provide an efficient way to store data, by the means of indexing, allowing for fast and reliable data extracting methods. Spark is somewhat lacking in terms of build in indexing support and extending its capabilities towards that goal is the scope of our thesis. We initially present the Hadoop and Spark tools as well as some data structures. What follows is an implementation of an index in the Spark environment. It uses the Quadtree data structure to create the index, allowing for range and kNN queries on two-dimensional data, utilizing in memory storing and processing. 2021-02-16T08:19:41Z 2021-02-16T08:19:41Z 2020-08-31 http://hdl.handle.net/10889/14496 gr application/pdf