Εξόρυξη γνώσης από μεγάλα δεδομένα

Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς. Στόχος της παρούσ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μητσάκη, Κωνσταντίνα
Άλλοι συγγραφείς: Mitsaki, Konstantina
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15786
id nemertes-10889-15786
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μεγάλα δεδομένα
Μαζική επεξεργασία
Επεξεργασία ροής
Εργαλεία μεγάλων δεδομένων
Μηχανική μάθηση
Ανάλυση παλινδρόμησης
Big data
Batch processing
Streaming processing
Big data tools
Machine learning
Linear regression
Pyspark
spellingShingle Μεγάλα δεδομένα
Μαζική επεξεργασία
Επεξεργασία ροής
Εργαλεία μεγάλων δεδομένων
Μηχανική μάθηση
Ανάλυση παλινδρόμησης
Big data
Batch processing
Streaming processing
Big data tools
Machine learning
Linear regression
Pyspark
Μητσάκη, Κωνσταντίνα
Εξόρυξη γνώσης από μεγάλα δεδομένα
description Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς. Στόχος της παρούσας διπλωματικής εργασίας είναι να παρουσιαστεί η αξία των Μεγάλων Δεδομένων και ο τρόπος που μπορεί κάποιος να τα επεξεργαστεί για να προβεί σε περαιτέρω επιστημονική Ανάλυση. Η εργασία αποτελείται από πέντε επιμέρους κεφάλαια. Στο Κεφάλαιο 1, γίνεται μια εισαγωγή στην Ανάλυση του όρου Big Data. Παράλληλα, αναφέρονται οι τομείς που χρησιμοποιούν τεράστιο όγκο δεδομένων, ενώ γίνεται και μια Ιστορική Αναδρομή στα Μεγάλα δεδομένα. Εν συνεχεία, αναλύονται τα χαρακτηριστικά και η δομή των Μεγάλων Δεδομένων. Στο Κεφάλαιο 2, παρουσιάζονται τα εργαλεία που χρησιμοποιούνται για την επεξεργασία Μεγάλων Δεδομένων, ενώ γίνεται και ενδελεχή αναφορά στις Τεχνικές Αναλύσεις Δεδομένων. Στην συνέχεια στο Κεφάλαιο 3, πραγματοποιείται σύγκριση μεταξύ των εργαλείων Hadoop και Spark και γίνεται μια εισαγωγή στο προγραμματιστικό περιβάλλον του Spark με τη βοήθεια της γλώσσας προγραμματισμού Python. Στόχος του εν λόγω κεφαλαίου είναι η εξοικείωση με το υπολογιστικό περιβάλλον του PySpark για να μπορέσει να αντιληφθεί κανείς την σπουδαιότητα των εργαλείων, όταν χρησιμοποιούνται Μεγάλοι Όγκοι Δεδομένων. Στο Κεφάλαιο 4, υλοποιείται εφαρμογή σε Μεγάλα Σύνολα Δεδομένων με την χρήση της Ανάλυσης Παλινδρόμησης και της Μηχανικής μάθησης, για να γίνει κατανοητό πώς μπορεί κανείς να επεξεργαστεί και να εξάγει συμπεράσματα έχοντας Μεγάλο Όγκο Δεδομένων. Τέλος, στο Κεφάλαιο 5, παρατίθενται ορισμένα συμπεράσματα που προκύπτουν από την έρευνα που πραγματοποιήθηκε στα πλαίσια του τέταρτου κεφαλαίου, καθώς και από όλη την εργασία σε θέματα τα οποία εξετάστηκαν εξονυχιστικά. Παράλληλα, αναφέρονται και οι μελλοντικές προεκτάσεις των Μεγάλων Δεδομένων με απώτερο σκοπό να καλύψουν τυχόν αδυναμίες και προβλήματα που παρουσιάζονται στην πράξη.
author2 Mitsaki, Konstantina
author_facet Mitsaki, Konstantina
Μητσάκη, Κωνσταντίνα
author Μητσάκη, Κωνσταντίνα
author_sort Μητσάκη, Κωνσταντίνα
title Εξόρυξη γνώσης από μεγάλα δεδομένα
title_short Εξόρυξη γνώσης από μεγάλα δεδομένα
title_full Εξόρυξη γνώσης από μεγάλα δεδομένα
title_fullStr Εξόρυξη γνώσης από μεγάλα δεδομένα
title_full_unstemmed Εξόρυξη γνώσης από μεγάλα δεδομένα
title_sort εξόρυξη γνώσης από μεγάλα δεδομένα
publishDate 2022
url http://hdl.handle.net/10889/15786
work_keys_str_mv AT mētsakēkōnstantina exoryxēgnōsēsapomegaladedomena
AT mētsakēkōnstantina knowledgediscoveryfrombigdata
_version_ 1771297166787084288
spelling nemertes-10889-157862022-09-05T06:57:36Z Εξόρυξη γνώσης από μεγάλα δεδομένα Knowledge discovery from big data Μητσάκη, Κωνσταντίνα Mitsaki, Konstantina Μεγάλα δεδομένα Μαζική επεξεργασία Επεξεργασία ροής Εργαλεία μεγάλων δεδομένων Μηχανική μάθηση Ανάλυση παλινδρόμησης Big data Batch processing Streaming processing Big data tools Machine learning Linear regression Pyspark Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς. Στόχος της παρούσας διπλωματικής εργασίας είναι να παρουσιαστεί η αξία των Μεγάλων Δεδομένων και ο τρόπος που μπορεί κάποιος να τα επεξεργαστεί για να προβεί σε περαιτέρω επιστημονική Ανάλυση. Η εργασία αποτελείται από πέντε επιμέρους κεφάλαια. Στο Κεφάλαιο 1, γίνεται μια εισαγωγή στην Ανάλυση του όρου Big Data. Παράλληλα, αναφέρονται οι τομείς που χρησιμοποιούν τεράστιο όγκο δεδομένων, ενώ γίνεται και μια Ιστορική Αναδρομή στα Μεγάλα δεδομένα. Εν συνεχεία, αναλύονται τα χαρακτηριστικά και η δομή των Μεγάλων Δεδομένων. Στο Κεφάλαιο 2, παρουσιάζονται τα εργαλεία που χρησιμοποιούνται για την επεξεργασία Μεγάλων Δεδομένων, ενώ γίνεται και ενδελεχή αναφορά στις Τεχνικές Αναλύσεις Δεδομένων. Στην συνέχεια στο Κεφάλαιο 3, πραγματοποιείται σύγκριση μεταξύ των εργαλείων Hadoop και Spark και γίνεται μια εισαγωγή στο προγραμματιστικό περιβάλλον του Spark με τη βοήθεια της γλώσσας προγραμματισμού Python. Στόχος του εν λόγω κεφαλαίου είναι η εξοικείωση με το υπολογιστικό περιβάλλον του PySpark για να μπορέσει να αντιληφθεί κανείς την σπουδαιότητα των εργαλείων, όταν χρησιμοποιούνται Μεγάλοι Όγκοι Δεδομένων. Στο Κεφάλαιο 4, υλοποιείται εφαρμογή σε Μεγάλα Σύνολα Δεδομένων με την χρήση της Ανάλυσης Παλινδρόμησης και της Μηχανικής μάθησης, για να γίνει κατανοητό πώς μπορεί κανείς να επεξεργαστεί και να εξάγει συμπεράσματα έχοντας Μεγάλο Όγκο Δεδομένων. Τέλος, στο Κεφάλαιο 5, παρατίθενται ορισμένα συμπεράσματα που προκύπτουν από την έρευνα που πραγματοποιήθηκε στα πλαίσια του τέταρτου κεφαλαίου, καθώς και από όλη την εργασία σε θέματα τα οποία εξετάστηκαν εξονυχιστικά. Παράλληλα, αναφέρονται και οι μελλοντικές προεκτάσεις των Μεγάλων Δεδομένων με απώτερο σκοπό να καλύψουν τυχόν αδυναμίες και προβλήματα που παρουσιάζονται στην πράξη. There has recently been a substantial development in the Big Data and Data Science sectors. Many scientists and researchers have focused their attention and interest on the massive amount of data that is constantly growing on a rapid pace. Purpose of this dissertation is to demonstrate the importance of Big Data and how to process them to conduct additional Scientific Analysis. There are five sub-chapters in this assignment. In Chapter 1 there is an introduction on the definition of the term big data as well as discussion of industries with an enormous volume of data and a Historical Analysis of Big Data. Finally, in the same chapter an examination of the properties and structure of Big Data is presented. In Chapter 2 there is a full reference to data analysis methodologies as well as a discussion of the tools that are utilized for Big Data processing. In Chapter 3, a comparison of Hadoop and Spark tools is made, as well as an introduction to the Spark’s programming environment using the Python programming language. Purpose of this Chapter is to familiarize yourself with the PySpark computing environment so that you can appreciate the importance of tools while working with large Volumes of Data. In Chapter 4 an application is implemented in Large Sets of Data utilizing Regression Analysis and Machine Learning to demonstrate how large volumes of data may be processed and conclusions drawn. Finally, in Chapter 5 some conclusions are presented as resulted from the experimental process of Chapter 4 as well as from the topics that have been thoroughly analyzed and investigated throughout this dissertation. Simultaneously, the future extensions of Big Data are discussed with the ultimate goal of covering any possible weaknesses or issues that develop in practice. 2022-02-14T08:57:15Z 2022-02-14T08:57:15Z 2022-02-08 http://hdl.handle.net/10889/15786 gr application/pdf