Περίληψη: | Στη σημερινή εποχή, που υπάρχει κάθε άλλο από έλλειψη δεδομένων, η
αποτελεσματική διαχείριση και επεξεργασία τους για την παραγωγή χρήσιμων
πληροφοριών διαδραματίζει πολύ σημαντικό ρόλο. Τα δεδομένα πλέον είναι «μεγάλου
όγκου», που σημαίνει ότι δημιουργούνται τεράστιες ποσότητες δομημένων ή
αδόμητων δεδομένων μέσα σε ελάχιστο χρόνο, και τα οποία για να παραγάγουν
χρήσιμη πληροφορία, πρέπει να τεθούν υπό επεξεργασία.
Πολλές φορές τα δεδομένα «ρέουν» και έτσι η επεξεργασία τους είναι απαραίτητο να
γίνει σε «πραγματικό» ή «σχεδόν πραγματικό» χρόνο. Αυτές οι «ροές» δεδομένων
κερδίζουν όλο και περισσότερο το ενδιαφέρον, λόγω της εφαρμογής τους σε ένα
ευρύτατο φάσμα σεναρίων. Για την εξυπηρέτηση των ραγδαίων απαιτήσεων
επεξεργασίας ροών δεδομένων, έχουν αναπτυχθεί πολλές μηχανές υπολογισμού.
Επίσης, στο παρελθόν έχουν αναπτυχθεί αξιολογήσεις σύγκρισης επιδόσεων μεταξύ
κάποιων τέτοιων μηχανών σε «πραγματικές» συνθήκες. Οι αξιολογήσεις αυτές
χρησιμεύουν για την επιλογή της καταλληλότερης πλατφόρμας για την εξυπηρέτηση
των αναγκών της εκάστοτε εφαρμογής ροών σε πραγματικό χρόνο. Μεταξύ αυτών
έχουν γίνει συγκρίσεις και για το Spark Streaming με άλλες μηχανές ροών δεδομένων.
Ωστόσο, πρόσφατα ήρθε στην κυκλοφορία η έκδοση 3.0 του Spark, η 3.0.0. Καθώς
λοιπόν δεν υπάρχουν αξιολογήσεις σύγκρισης επιδόσεων για ροές δεδομένων με τη νέα
αυτή έκδοση του Spark, στην παρούσα διπλωματική μελετάται και αναπτύσσεται αυτή
η αξιολόγηση. Με βάση τα πειράματα που διεξάγονται στην παρούσα μεταπτυχιακή
διπλωματική εργασία, διενεργείται και η σύγκριση της απόδοσης των μηχανών ροών
δεδομένων για διάφορα σενάρια.
|