Περίληψη: | Η ραγδαία ανάπτυξη της τεχνολογίας στον τομέα των κοινωνικών δικτύων και των έξυπνων κινητών συσκευών, σε συνδυασμό με τον μεγάλο αριθμό χρηστών, έχει σαν αποτέλεσμα την αύξηση του όγκου των ψηφιακών δεδομένων. Εκτός από το διαδίκτυο υπάρχουν και άλλες σημαντικές πηγές μεγάλου όγκου δεδομένων, όπως επιστημονικά, τηλεπικοινωνιακά, τραπεζικά, επιχειρηματικά δεδομένα, των οποίων η ανάλυση και διαχείριση είναι σημαντική για τη λήψη κρίσιμων αποφάσεων. Ο μεγάλος όγκος δεδομένων (Big Data) εγείρει ζητήματα που σχετίζονται όχι μόνο με τον τρόπο αποθήκευσης, επεξεργασίας και ανάκτησης τους αλλά και διατήρησης της ασφάλειας και ιδιωτικότητάς τους έναντι επιθέσεων. Τα σύγχρονα συστήματα βάσεων δεδομένων ασχολούνται συχνά με τη διαχείριση μεγάλου όγκου χωρικών δεδομένων τα οποία συνδέονται με τη θέση ενός κινούμενου χρήστη ο οποίος δίνει πληροφορίες για τη θέση του μέσω κατάλληλης εφαρμογής που τρέχει στην έξυπνη κινητή συσκευή του. Τα δεδομένα αυτά αποθηκεύονται σε μία βάση δεδομένων την οποία διαχειρίζεται ένας Location-based Service Provider.
Οι παραδοσιακές μέθοδοι κρυπτογράφησης που στοχεύουν στην παροχή προστασίας συχνά δεν επαρκούν επειδή δεν υποστηρίζουν την εκτέλεση ερωτημάτων σε κρυπτογραφημένα δεδομένα. Σε αυτή την εργασία θα συζητήσουμε στο Κεφ.1 την έννοια και τα είδη των Βάσεων Δεδομένων καθώς και τις απαιτήσεις ασφαλείας. Στη συνέχεια, στο Κεφ. 2 θα παρουσιαστεί το γενικό πρόβλημα ασφαλούς υπολογισμού σε κρυπτογραφημένη βάση δεδομένων και θα παρουσιάσουμε τις κυριότερες κρυπτογραφικές αρχές οι οποίες μπορούν να διαμορφώσουν μία σθεναρή ασφαλή προσέγγιση στο πρόβλημα του υπολογισμού των k-πλησιέστερων γειτόνων (knn) σε μια κρυπτογραφημένη βάση δεδομένων και των επιθέσεων κακόβουλων χρηστών. Στο Κεφ. 3 θα παρουσιάσουμε ένα ενδιαφέρον μοντέλο ως εφαρμογή των τεχνικών που παρουσιάστηκαν στο Κεφ. 2 με σκοπό τη διατύπωση ασφαλών k-πλησιέστερων γειτόνων ερωτήματα. Επιπλέον, στο Κεφ. 4 γίνεται συζήτηση πάνω στα Μεγάλου Όγκου Δεδομένα και τα Περιβάλλοντα Διαχείρισής τους.
Τέλος, στην παρούσα διπλωματική εκτελούνται ερωτήματα σε πραγματικά δεδομένα (αρχείο .csv) που αφορούν τις τροχιές ποδηλατών, τις ταχύτητες και γωνίες αυτών καθώς και τις χρονικές στιγμές τους. Με την βοήθεια των δομών του Spark, RDDs και Dataframes θα επεξεργαστούμε αυτά τα δεδομένα. Τα SQL ερωτήματα (queries) εκτελούνται στο περιβάλλον ανάπτυξης IntelliJ IDEA με την χρήση του Spark και SparkSQL και την γλώσσα προγραμματισμού Scala. Με την βοήθεια του Spark UI (web application), την εφαρμογή που δημιουργεί διεπαφή σε κάποιον φυλλομετρητή, θα παρατηρήσουμε τις δουλειές (jobs), τα στάδια (stages), τον χώρο (storage), το περιβάλλον του συστήματος (enviroment), τους εκτελεστές (executors) και τους χρόνους εκτέλεσης των ερωτημάτων.Τέλος εφαρμόζεται η τεχνική των k-πλησιέστερων γειτόνων μέσω των sql ερωτημάτων.
|