Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees
Η έννοια Big Data πλέον δεν είναι κάτι καινούργιο και συνεχίζει να εδραιώνεται σε όλο και περισσότερους τομείς, όπου η ενασχόληση με αυτού του είδους τα δεδομένα γίνεται όλο και περισσότερο κερδοφόρα. Επιχειρήσεις/οργανισμοί που ασχολούνται με την αποθήκευση, την επεξεργασία, και την ανάλυση τ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2021
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/14496 |
id |
nemertes-10889-14496 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μεγάλα δεδομένα Δομές δεδομένων Apache spark Quadtrees Big data Data structures |
spellingShingle |
Μεγάλα δεδομένα Δομές δεδομένων Apache spark Quadtrees Big data Data structures Κοροβίλας, Αιμίλιος Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees |
description |
Η έννοια Big Data πλέον δεν είναι κάτι καινούργιο και συνεχίζει να εδραιώνεται σε όλο και
περισσότερους τομείς, όπου η ενασχόληση με αυτού του είδους τα δεδομένα γίνεται όλο και
περισσότερο κερδοφόρα. Επιχειρήσεις/οργανισμοί που ασχολούνται με την αποθήκευση, την
επεξεργασία, και την ανάλυση τεράστιων συνόλων από δεδομένα τα οποία διακρίνονται συνήθως
από την ποικιλομορφία τους έχουν ένα δύσκολο πρόβλημα να αντιμετωπίσουν. Πρέπει να
εφεύρουν έξυπνες τεχνικές αλλά και να χρησιμοποιήσουν αποδοτικά εργαλεία, έτσι ώστε να
διαχειριστούν δεδομένα που παρουσιάζουν τα χαρακτηριστικά των Big Data. Ο πλέον de facto
τρόπος αποθήκευσης και επεξεργασίας των Big Data είναι μέσω ενός συμπλέγματος υπολογιστών.
Οι χρήστες χάρη σε κάποια εργαλεία που θα μελετήσουμε στην παρούσα διπλωματική εργασία
μπορούν να χρησιμοποιήσουν ακόμη και φτηνό υλικό του εμπορίου για τη δημιουργία ενός
συμπλέγματος από μηχανήματα. Ένα πρωτοπόρο εργαλείο στον τομέα της κατανεμημένης
επεξεργασίας είναι το Apache Hadoop το οποίο δημιουργήθηκε για να αντιμετωπίσει το πρόβλημα
των Big Data βοηθώντας το χρήστη να αξιοποιήσει τεχνικές κατανεμημένης αποθήκευσης και
επεξεργασίας. Το Apache Spark ακολούθησε ως ένα εργαλείο το οποίο προσπάθησε να ξεπεράσει
περιορισμούς που υπήρχαν στο Hadoop, επεξεργάζοντας δεδομένα στη μνήμη και είναι πλέον ένα
από τα σημαντικότερα εργαλεία στον τομέα της κατανεμημένης επεξεργασίας. Επιπροσθέτως ένας
αποδοτικός τρόπος να αποθηκευτούν δεδομένα για γρήγορες και αξιόπιστες μεθόδους απόκτησης
πληροφορίας από αυτά είναι οι δομές δεδομένων οι οποίες αποτελούν ένα ευρετήριο για τα
δεδομένα που περιέχουν. To Spark υστερεί στην υποστήριξη δημιουργίας έξυπνων ευρετηρίων και
η επέκταση του προς αυτή την κατεύθυνση είναι ο σκοπός της διπλωματικής εργασίας μας. Αρχικά
παρουσιάζουμε τα εργαλεία Hadoop και Spark καθώς και διάφορες δομές δεδομένων. Έπειτα θα
ακολουθήσει η υλοποίηση ενός ευρετηρίου στο περιβάλλον Spark. Η υλοποίησή μας αυτή
χρησιμοποιεί τη δομή Quadtree για τη δημιουργία του ευρετηρίου και επιτρέπει ερωτήματα εύρους
και k κοντινότερων γειτόνων σε δυσδιάστατα δεδομένα, αξιοποιώντας την αποθήκευση και
επεξεργασία δεδομένων στη μνήμη. |
author2 |
Korovilas, Aimilios |
author_facet |
Korovilas, Aimilios Κοροβίλας, Αιμίλιος |
author |
Κοροβίλας, Αιμίλιος |
author_sort |
Κοροβίλας, Αιμίλιος |
title |
Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees |
title_short |
Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees |
title_full |
Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees |
title_fullStr |
Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees |
title_full_unstemmed |
Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees |
title_sort |
επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/14496 |
work_keys_str_mv |
AT korobilasaimilios epektasēdynatotētōntouperiballontosapachesparkgiaerōtēmatamechrēsēquadtrees AT korobilasaimilios expandingapachesparkenvironmentcapabilitiesforqueriesusingquadtrees |
_version_ |
1771297281902903296 |
spelling |
nemertes-10889-144962022-09-05T20:42:44Z Επέκταση δυνατοτήτων του περιβάλλοντος apache spark για ερωτήματα με χρήση quadtrees Expanding apache spark environment capabilities for queries using quadtrees Κοροβίλας, Αιμίλιος Korovilas, Aimilios Μεγάλα δεδομένα Δομές δεδομένων Apache spark Quadtrees Big data Data structures Η έννοια Big Data πλέον δεν είναι κάτι καινούργιο και συνεχίζει να εδραιώνεται σε όλο και περισσότερους τομείς, όπου η ενασχόληση με αυτού του είδους τα δεδομένα γίνεται όλο και περισσότερο κερδοφόρα. Επιχειρήσεις/οργανισμοί που ασχολούνται με την αποθήκευση, την επεξεργασία, και την ανάλυση τεράστιων συνόλων από δεδομένα τα οποία διακρίνονται συνήθως από την ποικιλομορφία τους έχουν ένα δύσκολο πρόβλημα να αντιμετωπίσουν. Πρέπει να εφεύρουν έξυπνες τεχνικές αλλά και να χρησιμοποιήσουν αποδοτικά εργαλεία, έτσι ώστε να διαχειριστούν δεδομένα που παρουσιάζουν τα χαρακτηριστικά των Big Data. Ο πλέον de facto τρόπος αποθήκευσης και επεξεργασίας των Big Data είναι μέσω ενός συμπλέγματος υπολογιστών. Οι χρήστες χάρη σε κάποια εργαλεία που θα μελετήσουμε στην παρούσα διπλωματική εργασία μπορούν να χρησιμοποιήσουν ακόμη και φτηνό υλικό του εμπορίου για τη δημιουργία ενός συμπλέγματος από μηχανήματα. Ένα πρωτοπόρο εργαλείο στον τομέα της κατανεμημένης επεξεργασίας είναι το Apache Hadoop το οποίο δημιουργήθηκε για να αντιμετωπίσει το πρόβλημα των Big Data βοηθώντας το χρήστη να αξιοποιήσει τεχνικές κατανεμημένης αποθήκευσης και επεξεργασίας. Το Apache Spark ακολούθησε ως ένα εργαλείο το οποίο προσπάθησε να ξεπεράσει περιορισμούς που υπήρχαν στο Hadoop, επεξεργάζοντας δεδομένα στη μνήμη και είναι πλέον ένα από τα σημαντικότερα εργαλεία στον τομέα της κατανεμημένης επεξεργασίας. Επιπροσθέτως ένας αποδοτικός τρόπος να αποθηκευτούν δεδομένα για γρήγορες και αξιόπιστες μεθόδους απόκτησης πληροφορίας από αυτά είναι οι δομές δεδομένων οι οποίες αποτελούν ένα ευρετήριο για τα δεδομένα που περιέχουν. To Spark υστερεί στην υποστήριξη δημιουργίας έξυπνων ευρετηρίων και η επέκταση του προς αυτή την κατεύθυνση είναι ο σκοπός της διπλωματικής εργασίας μας. Αρχικά παρουσιάζουμε τα εργαλεία Hadoop και Spark καθώς και διάφορες δομές δεδομένων. Έπειτα θα ακολουθήσει η υλοποίηση ενός ευρετηρίου στο περιβάλλον Spark. Η υλοποίησή μας αυτή χρησιμοποιεί τη δομή Quadtree για τη δημιουργία του ευρετηρίου και επιτρέπει ερωτήματα εύρους και k κοντινότερων γειτόνων σε δυσδιάστατα δεδομένα, αξιοποιώντας την αποθήκευση και επεξεργασία δεδομένων στη μνήμη. The concept of Big Data can no longer be deemed as new and is continuously being applied to more areas, also becoming significantly profitable. Businesses/Organizations which are invested in storing, processing, and analyzing large sets of data that are characterized by their variety are facing significant challenges. They need to contrive intelligent techniques in combination with the use of efficient tools, to manage data that present Big Data features. The de facto way of storing and processing Big Data is by using a cluster of computers. Professionals thanks to tools that we are going to present in this thesis can rely on commodity hardware to create a cluster of machines. A pioneering tool used in distributed processing in order to tackle the Big Data problem is Apache Hadoop which helps professionals harness the power of distributed storing and processing techniques. Apache Spark followed as a tool that tried to overcome Hadoop’s limitations by processing data in memory and has now become one of the most important tools in the field of distributed processing. Furthermore, data structures provide an efficient way to store data, by the means of indexing, allowing for fast and reliable data extracting methods. Spark is somewhat lacking in terms of build in indexing support and extending its capabilities towards that goal is the scope of our thesis. We initially present the Hadoop and Spark tools as well as some data structures. What follows is an implementation of an index in the Spark environment. It uses the Quadtree data structure to create the index, allowing for range and kNN queries on two-dimensional data, utilizing in memory storing and processing. 2021-02-16T08:19:41Z 2021-02-16T08:19:41Z 2020-08-31 http://hdl.handle.net/10889/14496 gr application/pdf |