Περίληψη: | Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς.
Στόχος της παρούσας διπλωματικής εργασίας είναι να παρουσιαστεί η
αξία των Μεγάλων Δεδομένων και ο τρόπος που μπορεί κάποιος να τα επεξεργαστεί για να προβεί σε περαιτέρω επιστημονική Ανάλυση.
Η εργασία αποτελείται από πέντε επιμέρους κεφάλαια. Στο Κεφάλαιο 1, γίνεται μια εισαγωγή στην Ανάλυση του όρου Big Data. Παράλληλα, αναφέρονται οι τομείς που χρησιμοποιούν τεράστιο όγκο δεδομένων, ενώ γίνεται και μια Ιστορική Αναδρομή στα Μεγάλα δεδομένα. Εν συνεχεία, αναλύονται τα χαρακτηριστικά και η δομή των Μεγάλων Δεδομένων. Στο Κεφάλαιο 2, παρουσιάζονται τα εργαλεία που χρησιμοποιούνται για την επεξεργασία Μεγάλων Δεδομένων, ενώ γίνεται και ενδελεχή αναφορά στις Τεχνικές Αναλύσεις Δεδομένων.
Στην συνέχεια στο Κεφάλαιο 3, πραγματοποιείται σύγκριση μεταξύ των εργαλείων Hadoop και Spark και γίνεται μια εισαγωγή στο προγραμματιστικό περιβάλλον του Spark με τη βοήθεια της γλώσσας προγραμματισμού Python. Στόχος του εν λόγω κεφαλαίου είναι η εξοικείωση με το υπολογιστικό περιβάλλον του PySpark για να μπορέσει να αντιληφθεί κανείς την σπουδαιότητα των εργαλείων, όταν χρησιμοποιούνται Μεγάλοι Όγκοι Δεδομένων.
Στο Κεφάλαιο 4, υλοποιείται εφαρμογή σε Μεγάλα Σύνολα Δεδομένων με την χρήση της Ανάλυσης Παλινδρόμησης και της Μηχανικής μάθησης, για να γίνει κατανοητό πώς μπορεί κανείς να επεξεργαστεί και να εξάγει συμπεράσματα έχοντας Μεγάλο Όγκο Δεδομένων.
Τέλος, στο Κεφάλαιο 5, παρατίθενται ορισμένα συμπεράσματα που προκύπτουν από την έρευνα που πραγματοποιήθηκε στα πλαίσια του τέταρτου κεφαλαίου, καθώς και από όλη την εργασία σε θέματα τα οποία εξετάστηκαν εξονυχιστικά. Παράλληλα, αναφέρονται και οι μελλοντικές προεκτάσεις των Μεγάλων Δεδομένων με απώτερο σκοπό να καλύψουν τυχόν αδυναμίες και προβλήματα που παρουσιάζονται στην πράξη.
|