Χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα

Στο σύγχρονο διαδίκτυο και στις εφαρμογές κοινωνικής δικτύωσης έχουν ενσωματωθεί, στις περισσότερες των περιπτώσεων, υπηρεσίες οι οποίες έχουν επίγνωση της γεωγραφικής τοποθεσίας. Τέτοιου είδους υπηρεσίες δημιουργούν αντικείμενα δεδομένων τα οποία περιέχουν τόσο κειμενικά όσο και χωρικά χαρακτηριστι...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κορδέλας, Αθανάσιος
Άλλοι συγγραφείς: Τσακαλίδης, Αθανάσιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2016
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/9577
id nemertes-10889-9577
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Χώρος
Κείμενο
Ενώσεις
Spatial
Textual
Joins
Apache
Hadoop
MapReduce
Hive
Pig
SpatialHadoop
004.6
spellingShingle Χώρος
Κείμενο
Ενώσεις
Spatial
Textual
Joins
Apache
Hadoop
MapReduce
Hive
Pig
SpatialHadoop
004.6
Κορδέλας, Αθανάσιος
Χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα
description Στο σύγχρονο διαδίκτυο και στις εφαρμογές κοινωνικής δικτύωσης έχουν ενσωματωθεί, στις περισσότερες των περιπτώσεων, υπηρεσίες οι οποίες έχουν επίγνωση της γεωγραφικής τοποθεσίας. Τέτοιου είδους υπηρεσίες δημιουργούν αντικείμενα δεδομένων τα οποία περιέχουν τόσο κειμενικά όσο και χωρικά χαρακτηριστικά. Η χειραγώγηση τέτοιων δεδομένων, ειδικά όταν είναι μεγάλης κλίμακας, είναι ζωτικής σημασίας για ένα μεγάλο αριθμό λειτουργιών (π.χ. προτάσεις φιλίας). ‘Ως παράδειγμα, στις υπηρεσίες κοινής χρήσης φωτογραφιών όπως το Flickr, ανατίθενται στις φωτογραφίες περιγραφικές ετικέτες και ορίζονται χωρικά σημεία, ενώ αντίστοιχα, στα προφίλ των κοινωνικών δικτύων όπως το LinkedIn, αποθηκεύονται εγγραφές οι οποίες περιέχουν λέξεις-κλειδιά και διευθύνσεις. Ο εμπλουτισμός των αντικειμένων με περιγραφικές πληροφορίες προερχόμενες από πολλαπλές πηγές επιτρέπει την εκτέλεση ποιο σύνθετων ερωτημάτων τα οποία με την σειρά τους επιτρέπουν την αποτελεσματικότερη ανάλυση τους. Ακολουθώντας αυτήν την τάση, το πλαίσιο ανοιχτού κώδικα Apache Hadoop δίνει την δυνατότητα της κατανεμημένης αποθήκευσης και επεξεργασίας δεδομένων μεγάλης κλίμακας (Big Data) σε συστάδες υπολογιστών. Το Apache Hadoop, αποτελεί μια οικονομική λύση η οποία προσφέρει τους απαραίτητους υπολογιστικούς πόρους κάνοντας χρήση, εκτός των άλλων, του υπολογιστικού νέφους και του συστήματος κατανεμημένων αρχείων HDFS (Hadoop FileSystem). Ποιο συγκεκριμένα, πρόκειται για ένα έργο υψηλού επιπέδου το οποίο παρέχει ή περιέχει έναν αριθμό άλλων υπό-έργων ανοικτού κώδικα ώστε να γίνει δυνατή η υλοποίηση κατανεμημένων εφαρμογών υψηλής επεκτασιμότητας. Η μεγάλη επιτυχία του προκύπτει έπειτα από την ευρεία χρήση του στις μεγαλύτερες πλατφόρμες παγκοσμίως. Ως παράδειγμα, το Facebook ανέπτυξε την πρώτη στην ιστορία εφαρμογή χρήστη η οποία βασίζεται στην πλατφόρμα Apache Hadoop με το όνομα “Facebook μηνύματα”. Επιπρόσθετα, η ανάπτυξη της υπηρεσίας «Πλατφόρμα ως Υπηρεσία» (PaaS), η οποία προσφέρεται από τις ποιο γνωστές πλατφόρμες υπολογιστικού νέφους (Google, Amazon, Microsoft και IBM) επιτρέπει την άμεση χρήση του Hadoop χωρίς να είναι πλέον αναγκαία η εγκατάσταση του σε είδη υπάρχουσες συστάδες υπολογιστών. Γενικότερα, η ανάπτυξη των συστημάτων κατανεμημένων αρχείων (DFS) και αποθήκευσης μειώνει τον χρόνο ανάκτησης των δεδομένων μέσω της παράλληλης χρήσης πολλαπλών δίσκων. Ο στόχος ενός συστήματος κατανεμημένων αρχείων είναι να επιτρέψει την διαμοίραση των δεδομένων και των αποθηκευτικών πόρων. Η ύπαρξη τέτοιων συστημάτων έδωσε την δυνατότητα της ύπαρξης κατανεμημένων συστημάτων αποθήκευσης (π.χ. BigTable, HBase, Hive, Cassandra) τα οποία με την σειρά τους επιτρέπουν την διαχείριση μεγάλου όγκου δομημένων δεδομένων (petabytes). Σε αυτήν την εργασία, στοχεύουμε στις χωρικές και χώρο-κειμενικές αυτό-ενώσεις ομοιότητας κάνοντας χρήση των ποιο γνωστών πλαισίων του Apache Hadoop που υποστηρίζουν τις προαναφερθείσες λειτουργίες (MapReduce-HBase, Apache Hive, Pig-HBase and SpatialHadoop). Για τις εξαγωγή των τελικών χώρο-κειμενικών ενώσεων ομοιότητας, προτείνουμε μία “batch” τεχνική σαν τελευταίο βήμα. Εάν και τα προαναφερθέντα προβλήματα είναι υψηλής σημασίας, υπάρχει περιορισμένη προηγούμενη ερευνά για την αποτελεσματική υλοποίηση πάνω από συστήματα που βασίζονται στο Apache Hadoop. Μετά από εμπεριστατωμένη πειραματική αξιολόγηση, παρέχουμε βελτιστοποιήσεις και ιδέες που επιταχύνουν σημαντικά τις χωρικές και χώρο-κειμενικές ενώσεις και παρουσιάζουμε τα πλεονεκτήματα και τα μειονεκτήματα των προαναφερθέντων πλαισίων.
author2 Τσακαλίδης, Αθανάσιος
author_facet Τσακαλίδης, Αθανάσιος
Κορδέλας, Αθανάσιος
format Thesis
author Κορδέλας, Αθανάσιος
author_sort Κορδέλας, Αθανάσιος
title Χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα
title_short Χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα
title_full Χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα
title_fullStr Χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα
title_full_unstemmed Χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα
title_sort χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα
publishDate 2016
url http://hdl.handle.net/10889/9577
work_keys_str_mv AT kordelasathanasios chōrikeskaikeimenikesenōseisomoiotētasmegalouonkoudedomenōnsekatanemēmenasystēmata
AT kordelasathanasios spatialandtextualsimilarityjoinsofbigdataindistributedsystems
_version_ 1771297344007962624
spelling nemertes-10889-95772022-09-05T20:35:12Z Χωρικές και κειμενικές ενώσεις ομοιότητας μεγάλου όγκου δεδομένων σε κατανεμημένα συστήματα Spatial and textual similarity joins of big data in distributed systems Κορδέλας, Αθανάσιος Τσακαλίδης, Αθανάσιος Τσακαλίδης, Αθανάσιος Μακρής, Χρήστος Τζήμας, Ιωάννης Kordelas, Athanasios Χώρος Κείμενο Ενώσεις Spatial Textual Joins Apache Hadoop MapReduce Hive Pig SpatialHadoop 004.6 Στο σύγχρονο διαδίκτυο και στις εφαρμογές κοινωνικής δικτύωσης έχουν ενσωματωθεί, στις περισσότερες των περιπτώσεων, υπηρεσίες οι οποίες έχουν επίγνωση της γεωγραφικής τοποθεσίας. Τέτοιου είδους υπηρεσίες δημιουργούν αντικείμενα δεδομένων τα οποία περιέχουν τόσο κειμενικά όσο και χωρικά χαρακτηριστικά. Η χειραγώγηση τέτοιων δεδομένων, ειδικά όταν είναι μεγάλης κλίμακας, είναι ζωτικής σημασίας για ένα μεγάλο αριθμό λειτουργιών (π.χ. προτάσεις φιλίας). ‘Ως παράδειγμα, στις υπηρεσίες κοινής χρήσης φωτογραφιών όπως το Flickr, ανατίθενται στις φωτογραφίες περιγραφικές ετικέτες και ορίζονται χωρικά σημεία, ενώ αντίστοιχα, στα προφίλ των κοινωνικών δικτύων όπως το LinkedIn, αποθηκεύονται εγγραφές οι οποίες περιέχουν λέξεις-κλειδιά και διευθύνσεις. Ο εμπλουτισμός των αντικειμένων με περιγραφικές πληροφορίες προερχόμενες από πολλαπλές πηγές επιτρέπει την εκτέλεση ποιο σύνθετων ερωτημάτων τα οποία με την σειρά τους επιτρέπουν την αποτελεσματικότερη ανάλυση τους. Ακολουθώντας αυτήν την τάση, το πλαίσιο ανοιχτού κώδικα Apache Hadoop δίνει την δυνατότητα της κατανεμημένης αποθήκευσης και επεξεργασίας δεδομένων μεγάλης κλίμακας (Big Data) σε συστάδες υπολογιστών. Το Apache Hadoop, αποτελεί μια οικονομική λύση η οποία προσφέρει τους απαραίτητους υπολογιστικούς πόρους κάνοντας χρήση, εκτός των άλλων, του υπολογιστικού νέφους και του συστήματος κατανεμημένων αρχείων HDFS (Hadoop FileSystem). Ποιο συγκεκριμένα, πρόκειται για ένα έργο υψηλού επιπέδου το οποίο παρέχει ή περιέχει έναν αριθμό άλλων υπό-έργων ανοικτού κώδικα ώστε να γίνει δυνατή η υλοποίηση κατανεμημένων εφαρμογών υψηλής επεκτασιμότητας. Η μεγάλη επιτυχία του προκύπτει έπειτα από την ευρεία χρήση του στις μεγαλύτερες πλατφόρμες παγκοσμίως. Ως παράδειγμα, το Facebook ανέπτυξε την πρώτη στην ιστορία εφαρμογή χρήστη η οποία βασίζεται στην πλατφόρμα Apache Hadoop με το όνομα “Facebook μηνύματα”. Επιπρόσθετα, η ανάπτυξη της υπηρεσίας «Πλατφόρμα ως Υπηρεσία» (PaaS), η οποία προσφέρεται από τις ποιο γνωστές πλατφόρμες υπολογιστικού νέφους (Google, Amazon, Microsoft και IBM) επιτρέπει την άμεση χρήση του Hadoop χωρίς να είναι πλέον αναγκαία η εγκατάσταση του σε είδη υπάρχουσες συστάδες υπολογιστών. Γενικότερα, η ανάπτυξη των συστημάτων κατανεμημένων αρχείων (DFS) και αποθήκευσης μειώνει τον χρόνο ανάκτησης των δεδομένων μέσω της παράλληλης χρήσης πολλαπλών δίσκων. Ο στόχος ενός συστήματος κατανεμημένων αρχείων είναι να επιτρέψει την διαμοίραση των δεδομένων και των αποθηκευτικών πόρων. Η ύπαρξη τέτοιων συστημάτων έδωσε την δυνατότητα της ύπαρξης κατανεμημένων συστημάτων αποθήκευσης (π.χ. BigTable, HBase, Hive, Cassandra) τα οποία με την σειρά τους επιτρέπουν την διαχείριση μεγάλου όγκου δομημένων δεδομένων (petabytes). Σε αυτήν την εργασία, στοχεύουμε στις χωρικές και χώρο-κειμενικές αυτό-ενώσεις ομοιότητας κάνοντας χρήση των ποιο γνωστών πλαισίων του Apache Hadoop που υποστηρίζουν τις προαναφερθείσες λειτουργίες (MapReduce-HBase, Apache Hive, Pig-HBase and SpatialHadoop). Για τις εξαγωγή των τελικών χώρο-κειμενικών ενώσεων ομοιότητας, προτείνουμε μία “batch” τεχνική σαν τελευταίο βήμα. Εάν και τα προαναφερθέντα προβλήματα είναι υψηλής σημασίας, υπάρχει περιορισμένη προηγούμενη ερευνά για την αποτελεσματική υλοποίηση πάνω από συστήματα που βασίζονται στο Apache Hadoop. Μετά από εμπεριστατωμένη πειραματική αξιολόγηση, παρέχουμε βελτιστοποιήσεις και ιδέες που επιταχύνουν σημαντικά τις χωρικές και χώρο-κειμενικές ενώσεις και παρουσιάζουμε τα πλεονεκτήματα και τα μειονεκτήματα των προαναφερθέντων πλαισίων. Modern internet and social networking applications have integrated in most of the cases location-aware services creating data objects consisting of both textual and spatial attributes. The manipulation of large set of such data are crucial to a large number operations like friendship proposals. In this paper, we focus on engineering spatial and spatio-textual self-join operations on top of Apache Hadoop frameworks. Although the aforementioned problems are of high importance, there is limited previous work investigating efficient implementations on top of Apace Hadoop based systems. The current paper compares a variety of open-source tools implemented on top of Apache Hadoop framework that support self-join operations: MapReduce-HBase, Apache Hive, Pig-HBase and SpatialHadoop. Moreover, we propose a batch spatio-textual technique as the final step in order to extract the experimental results. After thorough experimental evaluation, we provide optimizations and insights that significantly accelerate the spatial and spatio-textual self-join operations and demonstrate the advantages and disadvantages of the aforementioned frameworks. 2016-09-20T10:58:28Z 2016-09-20T10:58:28Z 2016-06-06 Thesis http://hdl.handle.net/10889/9577 gr 0 application/pdf