Εξόρυξη γνώσης από μεγάλα δεδομένα

Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς. Στόχος της παρούσ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Μητσάκη, Κωνσταντίνα
Άλλοι συγγραφείς:	Mitsaki, Konstantina
Γλώσσα:	Greek
Έκδοση:	2022
Θέματα:	Μεγάλα δεδομένα Μαζική επεξεργασία Επεξεργασία ροής Εργαλεία μεγάλων δεδομένων Μηχανική μάθηση Ανάλυση παλινδρόμησης Big data Batch processing Streaming processing Big data tools Machine learning Linear regression Pyspark
Διαθέσιμο Online:	http://hdl.handle.net/10889/15786

Περιγραφή
Περίληψη:	Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς. Στόχος της παρούσας διπλωματικής εργασίας είναι να παρουσιαστεί η αξία των Μεγάλων Δεδομένων και ο τρόπος που μπορεί κάποιος να τα επεξεργαστεί για να προβεί σε περαιτέρω επιστημονική Ανάλυση. Η εργασία αποτελείται από πέντε επιμέρους κεφάλαια. Στο Κεφάλαιο 1, γίνεται μια εισαγωγή στην Ανάλυση του όρου Big Data. Παράλληλα, αναφέρονται οι τομείς που χρησιμοποιούν τεράστιο όγκο δεδομένων, ενώ γίνεται και μια Ιστορική Αναδρομή στα Μεγάλα δεδομένα. Εν συνεχεία, αναλύονται τα χαρακτηριστικά και η δομή των Μεγάλων Δεδομένων. Στο Κεφάλαιο 2, παρουσιάζονται τα εργαλεία που χρησιμοποιούνται για την επεξεργασία Μεγάλων Δεδομένων, ενώ γίνεται και ενδελεχή αναφορά στις Τεχνικές Αναλύσεις Δεδομένων. Στην συνέχεια στο Κεφάλαιο 3, πραγματοποιείται σύγκριση μεταξύ των εργαλείων Hadoop και Spark και γίνεται μια εισαγωγή στο προγραμματιστικό περιβάλλον του Spark με τη βοήθεια της γλώσσας προγραμματισμού Python. Στόχος του εν λόγω κεφαλαίου είναι η εξοικείωση με το υπολογιστικό περιβάλλον του PySpark για να μπορέσει να αντιληφθεί κανείς την σπουδαιότητα των εργαλείων, όταν χρησιμοποιούνται Μεγάλοι Όγκοι Δεδομένων. Στο Κεφάλαιο 4, υλοποιείται εφαρμογή σε Μεγάλα Σύνολα Δεδομένων με την χρήση της Ανάλυσης Παλινδρόμησης και της Μηχανικής μάθησης, για να γίνει κατανοητό πώς μπορεί κανείς να επεξεργαστεί και να εξάγει συμπεράσματα έχοντας Μεγάλο Όγκο Δεδομένων. Τέλος, στο Κεφάλαιο 5, παρατίθενται ορισμένα συμπεράσματα που προκύπτουν από την έρευνα που πραγματοποιήθηκε στα πλαίσια του τέταρτου κεφαλαίου, καθώς και από όλη την εργασία σε θέματα τα οποία εξετάστηκαν εξονυχιστικά. Παράλληλα, αναφέρονται και οι μελλοντικές προεκτάσεις των Μεγάλων Δεδομένων με απώτερο σκοπό να καλύψουν τυχόν αδυναμίες και προβλήματα που παρουσιάζονται στην πράξη.

Εξόρυξη γνώσης από μεγάλα δεδομένα

Παρόμοια τεκμήρια