Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων

Ζούμε σε ένα κόσμο που κατακλύζεται από δεδομένα όπου και αν βρισκόμαστε. Από τοπικές επιχειρήσεις μέχρι εταιρικούς κολοσσούς, όλοι προσπαθούν και επενδύουν χρήματα και χρόνο για να επιτύχουν τον ίδιο στόχο, αποθήκευση και επεξεργασία δεδομένων. Το έργο αυτό δεν πρόκειται καθόλου για μια τετριμμένη...

Full description

Bibliographic Details
Main Author:	Σαμολαδάς, Δημήτριος
Other Authors:	Σιούτας, Σπύρος
Format:	Thesis
Language:	Greek
Published:	2020
Subjects:	Μεγάλα dεδομένα Υπολογιστικό νέφος Βάσεις δεδομένων Ευρετήρια Αναζήτηση εύρους Αναζήτηση κοντινότερων γειτόνων Big data Cloud Databases Index Range query Nearest neighbors query Hbase NoSQL R-Tree
Online Access:	http://hdl.handle.net/10889/13169

id	nemertes-10889-13169
record_format	dspace
institution	UPatras
collection	Nemertes
language	Greek
topic	Μεγάλα dεδομένα Υπολογιστικό νέφος Βάσεις δεδομένων Ευρετήρια Αναζήτηση εύρους Αναζήτηση κοντινότερων γειτόνων Big data Cloud Databases Index Range query Nearest neighbors query Hbase NoSQL R-Tree
spellingShingle	Μεγάλα dεδομένα Υπολογιστικό νέφος Βάσεις δεδομένων Ευρετήρια Αναζήτηση εύρους Αναζήτηση κοντινότερων γειτόνων Big data Cloud Databases Index Range query Nearest neighbors query Hbase NoSQL R-Tree Σαμολαδάς, Δημήτριος Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
description	Ζούμε σε ένα κόσμο που κατακλύζεται από δεδομένα όπου και αν βρισκόμαστε. Από τοπικές επιχειρήσεις μέχρι εταιρικούς κολοσσούς, όλοι προσπαθούν και επενδύουν χρήματα και χρόνο για να επιτύχουν τον ίδιο στόχο, αποθήκευση και επεξεργασία δεδομένων. Το έργο αυτό δεν πρόκειται καθόλου για μια τετριμμένη διαδικασία. Ο όγκος και η πολυπλοκότητα των δεδομένων έχει αυξηθεί σε τέτοιο βαθμό που η δυνατότητα έξυπνης διαχείρισης τους αποτελεί πλέον ανάγκη σε αυτή την εποχή, την εποχή των Big Data. Η ανάγκη αυτή αρχικά οδήγησε σε όλο και μεγαλύτερη αποθηκευτική δύναμη μέχρι που φτάσαμε σε αδιέξοδο. Τότε, άρχισε να εξελίσσεται η έννοια της κατανομής δεδομένων και των κατανεμημένων συστημάτων. Έννοιες όπως το cloud εισήλθαν στο παιχνίδι προσφέροντας ένα ολοκληρωμένο σύστημα πόρων και εφαρμογών για την κατανομή και διαχείριση της πληροφορίας. Ακολούθησαν συστήματα όπως το Hadoop και η HBase που πήραν από τον χρήστη τον πονοκέφαλο της πολυπλοκότητας διαχείρισης και συντήρησης ενός κατανεμημένου συστήματος αποθήκευσης δεδομένων και του προσέφεραν πίσω τα εργαλεία που αυτός χρειάζεται για να τα διαχειριστεί. Οι επιχειρήσεις, έχοντας πλέον κατακτήσει το παιχνίδι της κατανομής δεδομένων, στοχεύουν πλέον στη γρήγορη και αποδοτική εξαγωγή χρήσιμης πληροφορίας από αυτά. Εργαλεία που προϋπήρχαν με σκοπό την επίτευξη αυτού του στόχου είναι τα ευρετήρια. Σε αυτή τη διπλωματική, θα παρουσιαστούν υπάρχουσες υλοποιήσεις τέτοιων ευρετηρίων σε κατανεμημένα περιβάλλοντα αλλά και μια δική μας υλοποίηση που βασίζεται στην δομή δεδομένων R-Tree. Η υλοποίηση μας εστιάζει σε χωρικά δεδομένα και ξεφεύγει από την παραδοσιακή κεντρικοποιημένη υλοποίηση μεταβαίνοντας στον κατανεμημένο κόσμο. Το ευρετήριο αυτό προσφέρει όπως θα δούμε αποδοτική αναζήτηση εύρους και κοντινότερων γειτόνων ενώ μπορεί να ανταπεξέλθει στον αυξανόμενο όγκο δεδομένων χωρίς να δυσχεραίνεται η απόδοση του με την χρήση της τεχνολογίας MapReduce του Hadoop για την κατασκευή του. Τέλος για την αποθήκευση του ευρετηρίου χρησιμοποιείται η NoSQL βάση δεδομένων HBase που μας επιτρέπει γρήγορα ερωτήματα και εισαγωγές, στοιχεία απαραίτητα για ένα αποδοτικό ευρετήριο.
author2	Σιούτας, Σπύρος
author_facet	Σιούτας, Σπύρος Σαμολαδάς, Δημήτριος
format	Thesis
author	Σαμολαδάς, Δημήτριος
author_sort	Σαμολαδάς, Δημήτριος
title	Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_short	Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_full	Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_fullStr	Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_full_unstemmed	Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
title_sort	επεξεργασία και βελτιστοποίηση ερωτήσεων σε nosql βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων
publishDate	2020
url	http://hdl.handle.net/10889/13169
work_keys_str_mv	AT samoladasdēmētrios epexergasiakaibeltistopoiēsēerōtēseōnsenosqlbaseisdedomenōnmechrēsēexypnōneuretēriōn AT samoladasdēmētrios queryoptimizationinnosqldatabasesusingsmartindexes
_version_	1771297131127111680
spelling	nemertes-10889-131692022-09-05T04:59:50Z Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων Query optimization in NoSQL databases using smart indexes Σαμολαδάς, Δημήτριος Σιούτας, Σπύρος Σιούτας, Σπύρος Μακρής, Χρήστος Μεγαλοοικονόμου, Βασίλειος Samoladas, Dimitrios Μεγάλα dεδομένα Υπολογιστικό νέφος Βάσεις δεδομένων Ευρετήρια Αναζήτηση εύρους Αναζήτηση κοντινότερων γειτόνων Big data Cloud Databases Index Range query Nearest neighbors query Hbase NoSQL R-Tree Ζούμε σε ένα κόσμο που κατακλύζεται από δεδομένα όπου και αν βρισκόμαστε. Από τοπικές επιχειρήσεις μέχρι εταιρικούς κολοσσούς, όλοι προσπαθούν και επενδύουν χρήματα και χρόνο για να επιτύχουν τον ίδιο στόχο, αποθήκευση και επεξεργασία δεδομένων. Το έργο αυτό δεν πρόκειται καθόλου για μια τετριμμένη διαδικασία. Ο όγκος και η πολυπλοκότητα των δεδομένων έχει αυξηθεί σε τέτοιο βαθμό που η δυνατότητα έξυπνης διαχείρισης τους αποτελεί πλέον ανάγκη σε αυτή την εποχή, την εποχή των Big Data. Η ανάγκη αυτή αρχικά οδήγησε σε όλο και μεγαλύτερη αποθηκευτική δύναμη μέχρι που φτάσαμε σε αδιέξοδο. Τότε, άρχισε να εξελίσσεται η έννοια της κατανομής δεδομένων και των κατανεμημένων συστημάτων. Έννοιες όπως το cloud εισήλθαν στο παιχνίδι προσφέροντας ένα ολοκληρωμένο σύστημα πόρων και εφαρμογών για την κατανομή και διαχείριση της πληροφορίας. Ακολούθησαν συστήματα όπως το Hadoop και η HBase που πήραν από τον χρήστη τον πονοκέφαλο της πολυπλοκότητας διαχείρισης και συντήρησης ενός κατανεμημένου συστήματος αποθήκευσης δεδομένων και του προσέφεραν πίσω τα εργαλεία που αυτός χρειάζεται για να τα διαχειριστεί. Οι επιχειρήσεις, έχοντας πλέον κατακτήσει το παιχνίδι της κατανομής δεδομένων, στοχεύουν πλέον στη γρήγορη και αποδοτική εξαγωγή χρήσιμης πληροφορίας από αυτά. Εργαλεία που προϋπήρχαν με σκοπό την επίτευξη αυτού του στόχου είναι τα ευρετήρια. Σε αυτή τη διπλωματική, θα παρουσιαστούν υπάρχουσες υλοποιήσεις τέτοιων ευρετηρίων σε κατανεμημένα περιβάλλοντα αλλά και μια δική μας υλοποίηση που βασίζεται στην δομή δεδομένων R-Tree. Η υλοποίηση μας εστιάζει σε χωρικά δεδομένα και ξεφεύγει από την παραδοσιακή κεντρικοποιημένη υλοποίηση μεταβαίνοντας στον κατανεμημένο κόσμο. Το ευρετήριο αυτό προσφέρει όπως θα δούμε αποδοτική αναζήτηση εύρους και κοντινότερων γειτόνων ενώ μπορεί να ανταπεξέλθει στον αυξανόμενο όγκο δεδομένων χωρίς να δυσχεραίνεται η απόδοση του με την χρήση της τεχνολογίας MapReduce του Hadoop για την κατασκευή του. Τέλος για την αποθήκευση του ευρετηρίου χρησιμοποιείται η NoSQL βάση δεδομένων HBase που μας επιτρέπει γρήγορα ερωτήματα και εισαγωγές, στοιχεία απαραίτητα για ένα αποδοτικό ευρετήριο. We live in a world where the notion of data can be found everywhere we go. From local businesses to multimillion dollar companies, everyone is spending time and money to achieve the same goal, data storage and analysis. This is no trivial task. The volume and complexity of data has increased to such a degree that the smart management of data is no longer a side quest but ,rather, a necessity in this day and age, the age of Big Data. This necessity initially led to larger and larger storage capacity, but soon enough we hit a wall. Then, the notion of data and system distribution started to arise. Technologies like the cloud came into play offering a complete system of resources and applications for the distribution and management of information. Systems, like Hadoop and HBase, followed relieving the user from the headache of manually handling and preserving distribution among data and offered him the necessary tools to act upon the distributed data without worrying about the how but rather the what. Businesses, having conquered the goal of data distribution, set their sights on fast and reliable extraction of useful information from distributed data. In the centralized world, this goal was achieved with the use of indexes. In this thesis, we will present the work on some distributed indexes already out there and also our own implementation of such index in a distributed environment. Our implementation is based on the R-Tree data structure, focuses on spatial data and is a quite different approach than the centralized version of it. We will see that our index offers fast range and kNN queries while being able to manage the ever expanding volume of data without hindering performance by using the MapReduce technology of the Hadoop framework for its construction. Lastly, we are going to use a NoSQL database, called HBase, that is based on Hadoop to store the index structure. HBase offers fast random read/write operations, elements that are very important for an efficient distributed index. 2020-02-06T22:05:19Z 2020-02-06T22:05:19Z 2020-04-06 Thesis http://hdl.handle.net/10889/13169 gr 0 application/pdf

Επεξεργασία και βελτιστοποίηση ερωτήσεων σε NoSQL βάσεις δεδομένων με χρήση έξυπνων ευρετηρίων

Similar Items