Περίληψη: | Στο σύγχρονο διαδίκτυο και στις εφαρμογές κοινωνικής δικτύωσης έχουν ενσωματωθεί, στις περισσότερες των περιπτώσεων, υπηρεσίες οι οποίες έχουν επίγνωση της γεωγραφικής τοποθεσίας. Τέτοιου είδους υπηρεσίες δημιουργούν αντικείμενα δεδομένων τα οποία περιέχουν τόσο κειμενικά όσο και χωρικά χαρακτηριστικά. Η χειραγώγηση τέτοιων δεδομένων, ειδικά όταν είναι μεγάλης κλίμακας, είναι ζωτικής σημασίας για ένα μεγάλο αριθμό λειτουργιών (π.χ. προτάσεις φιλίας). ‘Ως παράδειγμα, στις υπηρεσίες κοινής χρήσης φωτογραφιών όπως το Flickr, ανατίθενται στις φωτογραφίες περιγραφικές ετικέτες και ορίζονται χωρικά σημεία, ενώ αντίστοιχα, στα προφίλ των κοινωνικών δικτύων όπως το LinkedIn, αποθηκεύονται εγγραφές οι οποίες περιέχουν λέξεις-κλειδιά και διευθύνσεις.
Ο εμπλουτισμός των αντικειμένων με περιγραφικές πληροφορίες προερχόμενες από πολλαπλές πηγές επιτρέπει την εκτέλεση ποιο σύνθετων ερωτημάτων τα οποία με την σειρά τους επιτρέπουν την αποτελεσματικότερη ανάλυση τους. Ακολουθώντας αυτήν την τάση, το πλαίσιο ανοιχτού κώδικα Apache Hadoop δίνει την δυνατότητα της κατανεμημένης αποθήκευσης και επεξεργασίας δεδομένων μεγάλης κλίμακας (Big Data) σε συστάδες υπολογιστών. Το Apache Hadoop, αποτελεί μια οικονομική λύση η οποία προσφέρει τους απαραίτητους υπολογιστικούς πόρους κάνοντας χρήση, εκτός των άλλων, του υπολογιστικού νέφους και του συστήματος κατανεμημένων αρχείων HDFS (Hadoop FileSystem). Ποιο συγκεκριμένα, πρόκειται για ένα έργο υψηλού επιπέδου το οποίο παρέχει ή περιέχει έναν αριθμό άλλων υπό-έργων ανοικτού κώδικα ώστε να γίνει δυνατή η υλοποίηση κατανεμημένων εφαρμογών υψηλής επεκτασιμότητας. Η μεγάλη επιτυχία του προκύπτει έπειτα από την ευρεία χρήση του στις μεγαλύτερες πλατφόρμες παγκοσμίως. Ως παράδειγμα, το Facebook ανέπτυξε την πρώτη στην ιστορία εφαρμογή χρήστη η οποία βασίζεται στην πλατφόρμα Apache Hadoop με το όνομα “Facebook μηνύματα”. Επιπρόσθετα, η ανάπτυξη της υπηρεσίας «Πλατφόρμα ως Υπηρεσία» (PaaS), η οποία προσφέρεται από τις ποιο γνωστές πλατφόρμες υπολογιστικού νέφους (Google, Amazon, Microsoft και IBM) επιτρέπει την άμεση χρήση του Hadoop χωρίς να είναι πλέον αναγκαία η εγκατάσταση του σε είδη υπάρχουσες συστάδες υπολογιστών. Γενικότερα, η ανάπτυξη των συστημάτων κατανεμημένων αρχείων (DFS) και αποθήκευσης μειώνει τον χρόνο ανάκτησης των δεδομένων μέσω της παράλληλης χρήσης πολλαπλών δίσκων. Ο στόχος ενός συστήματος κατανεμημένων αρχείων είναι να επιτρέψει την διαμοίραση των δεδομένων και των αποθηκευτικών πόρων. Η ύπαρξη τέτοιων συστημάτων έδωσε την δυνατότητα της ύπαρξης κατανεμημένων συστημάτων αποθήκευσης (π.χ. BigTable, HBase, Hive, Cassandra) τα οποία με την σειρά τους επιτρέπουν την διαχείριση μεγάλου όγκου δομημένων δεδομένων (petabytes).
Σε αυτήν την εργασία, στοχεύουμε στις χωρικές και χώρο-κειμενικές αυτό-ενώσεις ομοιότητας κάνοντας χρήση των ποιο γνωστών πλαισίων του Apache Hadoop που υποστηρίζουν τις προαναφερθείσες λειτουργίες (MapReduce-HBase, Apache Hive, Pig-HBase and SpatialHadoop). Για τις εξαγωγή των τελικών χώρο-κειμενικών ενώσεων ομοιότητας, προτείνουμε μία “batch” τεχνική σαν τελευταίο βήμα. Εάν και τα προαναφερθέντα προβλήματα είναι υψηλής σημασίας, υπάρχει περιορισμένη προηγούμενη ερευνά για την αποτελεσματική υλοποίηση πάνω από συστήματα που βασίζονται στο Apache Hadoop. Μετά από εμπεριστατωμένη πειραματική αξιολόγηση, παρέχουμε βελτιστοποιήσεις και ιδέες που επιταχύνουν σημαντικά τις χωρικές και χώρο-κειμενικές ενώσεις και παρουσιάζουμε τα πλεονεκτήματα και τα μειονεκτήματα των προαναφερθέντων πλαισίων.
|