Περίληψη: | Η παρούσα διπλωματική εργασία περιλαμβάνει μια προσέγγιση της διαδικασίας
ανάλυσης δεδομένων μεγάλου όγκου στα μέσα κοινωνικής δικτύωσης και πιο
συγκεκριμένα στο Twitter.
Η ραγδαία εξέλιξη της τεχνολογίας, αποτελεί επιτακτική ανάγκη για την ανάπτυξη
μεθοδολογιών αποθήκευσης και διαχείρισης δεδομένων μεγάλης κλίμακας. Η
χρησιμοποίηση δεδομένων στη λήψη έγκυρων και έγκαιρων αποφάσεων έχει
αναχθεί σε παράγοντα επιτυχίας για την πλειονότητα των σύγχρονων οργανισμών
και επιχειρήσεων.
Τα τελευταία χρόνια, παρατηρείται μεγάλη μεταβολή στην μορφή και στον όγκο των
δεδομένων, λόγω της ταχύτατης ανάπτυξης νέων τεχνολογιών και εφαρμογών, ενώ
ταυτόχρονα οι δυνατότητες αποθήκευσης, ανάλυσης και επεξεργασίας αυτών είναι
εντυπωσιακές.
Η παρούσα διπλωματική εργασία περιλαμβάνει μια προσέγγιση και περιγραφή του
όρου “Δεδομένα Μεγάλου Όγκου”, του τρόπου με τον οποίο γίνεται η εξόρυξη των
δεδομένων και η επεξεργασία αυτών. Επίσης περιλαμβάνει την ανάλυση των
δεδομένων μεγάλης κλίμακας όπως και των τεχνικών εξόρυξης τους. Επιπροσθέτως,
γίνεται μια περιγραφή στην τεχνική διαδικασία της μηχανικής μάθησης. Τέλος, γίνεται
μια εκτενής αναφορά στο προγραμματιστικό μοντέλο Apache Spark που είναι
κατάλληλο για την επεξεργασία των δεδομένων μεγάλου όγκου.
Στην συνέχεια, πραγματοποιείται ανάλυση των δεδομένων του dataset (αρχείο
δεδομένων) που μελετάται, το οποίο περιέχει όλα τα tweets των εξτρεμιστών
υποστηρικτών του Isis, και εξόρυξη σημαντικής γνώσης από αυτό μέσω κατάλληλων
αλγορίθμων.
Σκοπός αυτής της διαδικασίας είναι η ανακάλυψη σημαντικών συμπερασμάτων για
το δίκτυο των υποστηρικτών του Isis και μιας γενικότερης γνώσης για το δίκτυο αυτό.
|