Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων

Ζούμε σε ένα κόσμο που κατακλύζεται από δεδομένα όπου και αν βρισκόμαστε. Από τοπικές επιχειρήσεις μέχρι εταιρικούς κολοσσούς, όλοι προσπαθούν και επενδύουν χρήματα και χρόνο για να επιτύχουν τον ίδιο στόχο, αποθήκευση και επεξεργασία δεδομένων. Το έργο αυτό δεν πρόκειται καθόλου για μια τετριμμένη...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σαμολαδάς, Δημήτριος
Άλλοι συγγραφείς: Σιούτας, Σπύρος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13169
id nemertes-10889-13169
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μεγάλα dεδομένα
Υπολογιστικό νέφος
Βάσεις δεδομένων
Ευρετήρια
Αναζήτηση εύρους
Αναζήτηση κοντινότερων γειτόνων
Big data
Cloud
Databases
Index
Range query
Nearest neighbors query
Hbase
NoSQL
R-Tree
spellingShingle Μεγάλα dεδομένα
Υπολογιστικό νέφος
Βάσεις δεδομένων
Ευρετήρια
Αναζήτηση εύρους
Αναζήτηση κοντινότερων γειτόνων
Big data
Cloud
Databases
Index
Range query
Nearest neighbors query
Hbase
NoSQL
R-Tree
Σαμολαδάς, Δημήτριος
Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
description Ζούμε σε ένα κόσμο που κατακλύζεται από δεδομένα όπου και αν βρισκόμαστε. Από τοπικές επιχειρήσεις μέχρι εταιρικούς κολοσσούς, όλοι προσπαθούν και επενδύουν χρήματα και χρόνο για να επιτύχουν τον ίδιο στόχο, αποθήκευση και επεξεργασία δεδομένων. Το έργο αυτό δεν πρόκειται καθόλου για μια τετριμμένη διαδικασία. Ο όγκος και η πολυπλοκότητα των δεδομένων έχει αυξηθεί σε τέτοιο βαθμό που η δυνατότητα έξυπνης διαχείρισης τους αποτελεί πλέον ανάγκη σε αυτή την εποχή, την εποχή των Big Data. Η ανάγκη αυτή αρχικά οδήγησε σε όλο και μεγαλύτερη αποθηκευτική δύναμη μέχρι που φτάσαμε σε αδιέξοδο. Τότε, άρχισε να εξελίσσεται η έννοια της κατανομής δεδομένων και των κατανεμημένων συστημάτων. Έννοιες όπως το cloud εισήλθαν στο παιχνίδι προσφέροντας ένα ολοκληρωμένο σύστημα πόρων και εφαρμογών για την κατανομή και διαχείριση της πληροφορίας. Ακολούθησαν συστήματα όπως το Hadoop και η HBase που πήραν από τον χρήστη τον πονοκέφαλο της πολυπλοκότητας διαχείρισης και συντήρησης ενός κατανεμημένου συστήματος αποθήκευσης δεδομένων και του προσέφεραν πίσω τα εργαλεία που αυτός χρειάζεται για να τα διαχειριστεί. Οι επιχειρήσεις, έχοντας πλέον κατακτήσει το παιχνίδι της κατανομής δεδομένων, στοχεύουν πλέον στη γρήγορη και αποδοτική εξαγωγή χρήσιμης πληροφορίας από αυτά. Εργαλεία που προϋπήρχαν με σκοπό την επίτευξη αυτού του στόχου είναι τα ευρετήρια. Σε αυτή τη διπλωματική, θα παρουσιαστούν υπάρχουσες υλοποιήσεις τέτοιων ευρετηρίων σε κατανεμημένα περιβάλλοντα αλλά και μια δική μας υλοποίηση που βασίζεται στην δομή δεδομένων R-Tree. Η υλοποίηση μας εστιάζει σε χωρικά δεδομένα και ξεφεύγει από την παραδοσιακή κεντρικοποιημένη υλοποίηση μεταβαίνοντας στον κατανεμημένο κόσμο. Το ευρετήριο αυτό προσφέρει όπως θα δούμε αποδοτική αναζήτηση εύρους και κοντινότερων γειτόνων ενώ μπορεί να ανταπεξέλθει στον αυξανόμενο όγκο δεδομένων χωρίς να δυσχεραίνεται η απόδοση του με την χρήση της τεχνολογίας MapReduce του Hadoop για την κατασκευή του. Τέλος για την αποθήκευση του ευρετηρίου χρησιμοποιείται η NoSQL βάση δεδομένων HBase που μας επιτρέπει γρήγορα ερωτήματα και εισαγωγές, στοιχεία απαραίτητα για ένα αποδοτικό ευρετήριο.
author2 Σιούτας, Σπύρος
author_facet Σιούτας, Σπύρος
Σαμολαδάς, Δημήτριος
format Thesis
author Σαμολαδάς, Δημήτριος
author_sort Σαμολαδάς, Δημήτριος
title Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_short Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_full Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_fullStr Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_full_unstemmed Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_sort επεξεργασία και βελτιστοποίηση ερωτήσεων σε nosql βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
publishDate 2020
url http://hdl.handle.net/10889/13169
work_keys_str_mv AT samoladasdēmētrios epexergasiakaibeltistopoiēsēerōtēseōnsenosqlbaseisdedomenōnmechrēsēexypnōneuretēriōn
AT samoladasdēmētrios queryoptimizationinnosqldatabasesusingsmartindexes
_version_ 1771297131127111680
spelling nemertes-10889-131692022-09-05T04:59:50Z Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων Query optimization in NoSQL databases using smart indexes Σαμολαδάς, Δημήτριος Σιούτας, Σπύρος Σιούτας, Σπύρος Μακρής, Χρήστος Μεγαλοοικονόμου, Βασίλειος Samoladas, Dimitrios Μεγάλα dεδομένα Υπολογιστικό νέφος Βάσεις δεδομένων Ευρετήρια Αναζήτηση εύρους Αναζήτηση κοντινότερων γειτόνων Big data Cloud Databases Index Range query Nearest neighbors query Hbase NoSQL R-Tree Ζούμε σε ένα κόσμο που κατακλύζεται από δεδομένα όπου και αν βρισκόμαστε. Από τοπικές επιχειρήσεις μέχρι εταιρικούς κολοσσούς, όλοι προσπαθούν και επενδύουν χρήματα και χρόνο για να επιτύχουν τον ίδιο στόχο, αποθήκευση και επεξεργασία δεδομένων. Το έργο αυτό δεν πρόκειται καθόλου για μια τετριμμένη διαδικασία. Ο όγκος και η πολυπλοκότητα των δεδομένων έχει αυξηθεί σε τέτοιο βαθμό που η δυνατότητα έξυπνης διαχείρισης τους αποτελεί πλέον ανάγκη σε αυτή την εποχή, την εποχή των Big Data. Η ανάγκη αυτή αρχικά οδήγησε σε όλο και μεγαλύτερη αποθηκευτική δύναμη μέχρι που φτάσαμε σε αδιέξοδο. Τότε, άρχισε να εξελίσσεται η έννοια της κατανομής δεδομένων και των κατανεμημένων συστημάτων. Έννοιες όπως το cloud εισήλθαν στο παιχνίδι προσφέροντας ένα ολοκληρωμένο σύστημα πόρων και εφαρμογών για την κατανομή και διαχείριση της πληροφορίας. Ακολούθησαν συστήματα όπως το Hadoop και η HBase που πήραν από τον χρήστη τον πονοκέφαλο της πολυπλοκότητας διαχείρισης και συντήρησης ενός κατανεμημένου συστήματος αποθήκευσης δεδομένων και του προσέφεραν πίσω τα εργαλεία που αυτός χρειάζεται για να τα διαχειριστεί. Οι επιχειρήσεις, έχοντας πλέον κατακτήσει το παιχνίδι της κατανομής δεδομένων, στοχεύουν πλέον στη γρήγορη και αποδοτική εξαγωγή χρήσιμης πληροφορίας από αυτά. Εργαλεία που προϋπήρχαν με σκοπό την επίτευξη αυτού του στόχου είναι τα ευρετήρια. Σε αυτή τη διπλωματική, θα παρουσιαστούν υπάρχουσες υλοποιήσεις τέτοιων ευρετηρίων σε κατανεμημένα περιβάλλοντα αλλά και μια δική μας υλοποίηση που βασίζεται στην δομή δεδομένων R-Tree. Η υλοποίηση μας εστιάζει σε χωρικά δεδομένα και ξεφεύγει από την παραδοσιακή κεντρικοποιημένη υλοποίηση μεταβαίνοντας στον κατανεμημένο κόσμο. Το ευρετήριο αυτό προσφέρει όπως θα δούμε αποδοτική αναζήτηση εύρους και κοντινότερων γειτόνων ενώ μπορεί να ανταπεξέλθει στον αυξανόμενο όγκο δεδομένων χωρίς να δυσχεραίνεται η απόδοση του με την χρήση της τεχνολογίας MapReduce του Hadoop για την κατασκευή του. Τέλος για την αποθήκευση του ευρετηρίου χρησιμοποιείται η NoSQL βάση δεδομένων HBase που μας επιτρέπει γρήγορα ερωτήματα και εισαγωγές, στοιχεία απαραίτητα για ένα αποδοτικό ευρετήριο. We live in a world where the notion of data can be found everywhere we go. From local businesses to multimillion dollar companies, everyone is spending time and money to achieve the same goal, data storage and analysis. This is no trivial task. The volume and complexity of data has increased to such a degree that the smart management of data is no longer a side quest but ,rather, a necessity in this day and age, the age of Big Data. This necessity initially led to larger and larger storage capacity, but soon enough we hit a wall. Then, the notion of data and system distribution started to arise. Technologies like the cloud came into play offering a complete system of resources and applications for the distribution and management of information. Systems, like Hadoop and HBase, followed relieving the user from the headache of manually handling and preserving distribution among data and offered him the necessary tools to act upon the distributed data without worrying about the how but rather the what. Businesses, having conquered the goal of data distribution, set their sights on fast and reliable extraction of useful information from distributed data. In the centralized world, this goal was achieved with the use of indexes. In this thesis, we will present the work on some distributed indexes already out there and also our own implementation of such index in a distributed environment. Our implementation is based on the R-Tree data structure, focuses on spatial data and is a quite different approach than the centralized version of it. We will see that our index offers fast range and kNN queries while being able to manage the ever expanding volume of data without hindering performance by using the MapReduce technology of the Hadoop framework for its construction. Lastly, we are going to use a NoSQL database, called HBase, that is based on Hadoop to store the index structure. HBase offers fast random read/write operations, elements that are very important for an efficient distributed index. 2020-02-06T22:05:19Z 2020-02-06T22:05:19Z 2020-04-06 Thesis http://hdl.handle.net/10889/13169 gr 0 application/pdf